大模型记录
编码
Claude
目前唯一真神
特性:遵循度高、文档处理、代码编写
最佳 Prompt 结构:XML Tags (官方推荐)
20251223:haiku的性价比很不错,但是智力和逻辑能力明显跟其他家没有差距
GPT5
保守
Gemini
Gemini-3.0-pro-preview
优点:
前端能力非常好(疑似react)
非常人性化
文笔和脑洞都很好
长窗口、多模态
缺点:
非常固执,gemini3.0pro preview更聪明的表现固执Google训练和系统提示词应该都要求节省算力,经常在用户要求的前提下,还是会省略、精简
注意力有问题。知识库和指令忽略
指令遵循能力很差
最佳 Prompt 结构:CRFC + XML (结构化指令最稳);长提示词务必使用 XML 格式
强烈推荐使用正向引导!负面约束的效果很差
好用的 XML 标签
这些标签是 Gemini 训练数据里出现频率最高的,它一看就知道该干什么。Gemini 的“母语”是英文。虽然它懂 <角色>,但它对 <role> 的反应速度和准确度在底层逻辑上是最高的。标签越标准,它的逻辑处理越清晰。
<role>(角色):作用:告诉 AI 它是谁。 填空:资深 Go 开发工程师 / UI 设计大师 / 产品经理。<context>(背景):作用:给 AI 提供上下文,防止它瞎猜。 填空:我正在做一个基于 Gin 的文件管理系统 / 我正在写一篇关于科幻小说的文章。
<instruction>(指令/任务):作用:这是最核心的部分,告诉它具体干什么。 填空:请重构这段代码 / 请优化这个页面布局 / 请解释这个错误。
<rules>(规则/约束):作用:给它立规矩,防止它废话或格式错误。 填空:必须使用中文 / 代码要有详细注释 / 不要解释原理,直接给代码。
<output_format>(输出格式):作用:解决你之前提到的“不输出 Markdown”问题的关键。 填空:使用 Markdown 格式 / 输出为 JSON / 使用表格展示。
<code_snippet>:用来包围你的代码。<example>:如果你想教 AI 怎么说话,给它一个例子。<history>:如果你想把之前的报错日志贴进去。
千问系列
Qwen 3
核心特性:原生思考模式、理工特长
最佳 Prompt 结构:Markdown 骨架 (仅用于定义输出,不要指导思考过程)
Qwen-Max
阿里最大的模型,闭源
从20250811开始,感觉傻了很多
Qwen-Coder
根据版本和api,差距非常大,不太好评价
qwen-coder-plus 官方api:20250905,疑似降智
Minimax-M2.1
优点:
非常的快
agent能力不错
缺点:
行动过于积极
Kimi-k2
Kimi-k2-0905
Kimi-k2-thinking
非常优秀
创作任务很优秀
代码能力可能差一些,
Kimi-k2-linear
Deepseek
20151201发布DeepSeek V3.2,官方的思路是主打数学能力
优点:
开源;
在代码、数学、多语言任务上表现优异
缺点:
缺乏算力(?),模型尺寸依然是671B,基模能力和知识受限;
缺乏多模态能力
上下文过短
GLM
GLM-4.7
Grok
Grok 4.1
Grok 4.1(2025年11月发布),完全没办法用于编程
核心卖点: "Extreme EQ" (极致的情商) 和 "Creative Writing" (创意写作)。
最佳策略:“情感引导”。你甚至应该在 Prompt 里加入情绪色彩(比如“我真的很烦恼...”),Grok 4.1 会比其他模型给出更具抚慰性或共情力的回答。
缺陷:grok训练方向和重点,是人性化,不遵守用户指令
最佳 Prompt 结构:自然语言 + 情感交互 (像跟朋友聊天一样提要求)
Grok Code fast
一般,主打快
多模态
视频
falshvr
Wan 2.6
通义家族,15秒多镜头叙事 + 角色扮演,叙事能力大幅跃升。15秒多镜头叙事 + 角色扮演,叙事能力大幅跃升。
图片
seedvr2
Z-Image
Nano Banana Pro
非常依赖提示词,很难上手
文本
千问系列
qwen3-max
官方api:20250705,疑似降智