编码

Claude

目前唯一真神
特性：遵循度高、文档处理、代码编写
最佳 Prompt 结构：XML Tags (官方推荐)
20251223：haiku的性价比很不错，但是智力和逻辑能力明显跟其他家没有差距

GPT5

保守

Gemini

Gemini-3.0-pro-preview

优点：

前端能力非常好（疑似react）
非常人性化
文笔和脑洞都很好
长窗口、多模态

缺点：

~~非常固执，gemini3.0pro preview更聪明的表现固执~~
Google训练和系统提示词应该都要求节省算力，经常在用户要求的前提下，还是会省略、精简
注意力有问题。知识库和指令忽略
指令遵循能力很差

最佳 Prompt 结构：CRFC + XML (结构化指令最稳)；长提示词务必使用 XML 格式

强烈推荐使用正向引导！负面约束的效果很差

好用的 XML 标签

这些标签是 Gemini 训练数据里出现频率最高的，它一看就知道该干什么。Gemini 的“母语”是英文。虽然它懂 <角色>，但它对 <role> 的反应速度和准确度在底层逻辑上是最高的。标签越标准，它的逻辑处理越清晰。

<role> (角色)：作用：告诉 AI 它是谁。填空：资深 Go 开发工程师 / UI 设计大师 / 产品经理。
<context> (背景)：作用：给 AI 提供上下文，防止它瞎猜。填空：我正在做一个基于 Gin 的文件管理系统 / 我正在写一篇关于科幻小说的文章。

<instruction> (指令/任务)：作用：这是最核心的部分，告诉它具体干什么。填空：请重构这段代码 / 请优化这个页面布局 / 请解释这个错误。

<rules> (规则/约束)：作用：给它立规矩，防止它废话或格式错误。填空：必须使用中文 / 代码要有详细注释 / 不要解释原理，直接给代码。

<output_format> (输出格式)：作用：解决你之前提到的“不输出 Markdown”问题的关键。填空：使用 Markdown 格式 / 输出为 JSON / 使用表格展示。

<code_snippet>：用来包围你的代码。
<example>：如果你想教 AI 怎么说话，给它一个例子。
<history>：如果你想把之前的报错日志贴进去。

千问系列

Qwen-3.6

模型价格大幅上涨，能力依然垫底，速度也不够快

Qwen 3

核心特性：原生思考模式、理工特长
最佳 Prompt 结构：Markdown 骨架 (仅用于定义输出，不要指导思考过程)

Qwen-Max

阿里最大的模型，闭源

从20250811开始，感觉傻了很多

Qwen-Coder

根据版本和api，差距非常大，不太好评价

qwen-coder-plus 官方api：20250905，疑似降智

Minimax

M2.7

全面掉队，模型规模依然保持在200b+，但是性能没有明显提升

M2.1

优点：

非常的快
agent能力不错

缺点：

行动过于积极

Kimi

K2.6

k2.5的正常迭代

似乎模型有bug，多次遇到反复执行无意义工作，例如曾经反复访问文档、read工具调用失败但执着的持续调用，都是人工打断

K2.5

开源，效果很不错

Kimi-k2-thinking

非常优秀

创作任务很优秀
代码能力可能差一些，

Deepseek

20260424：V4（preview）

非常变态的缓存命中率，使用成本相对非常低。

v4p 如果尺寸可以达到3t以上，感觉可以跟claude硬憾

20151201：V3.2

发布DeepSeek V3.2，官方的思路是主打数学能力

优点：
- 开源；
- 在代码、数学、多语言任务上表现优异
缺点：
- 缺乏算力（？），模型尺寸依然是671B，基模能力和知识受限；
- 缺乏多模态能力
- 上下文过短

GLM

GLM-5

买不到

GLM-4.7

Grok

Grok 4.1

Grok 4.1（2025年11月发布），完全没办法用于编程

核心卖点： "Extreme EQ" (极致的情商) 和 "Creative Writing" (创意写作)。

最佳策略：“情感引导”。你甚至应该在 Prompt 里加入情绪色彩（比如“我真的很烦恼...”），Grok 4.1 会比其他模型给出更具抚慰性或共情力的回答。
缺陷：grok训练方向和重点，是人性化，不遵守用户指令
最佳 Prompt 结构：自然语言 + 情感交互 (像跟朋友聊天一样提要求)

大模型记录

编码

Claude

GPT5

Gemini

Gemini-3.0-pro-preview

好用的 XML 标签

千问系列

Qwen-3.6

Qwen 3

Qwen-Max

Qwen-Coder

Minimax

M2.7

M2.1

Kimi

K2.6

K2.5

Kimi-k2-thinking

Deepseek

20260424：V4（preview）

20151201：V3.2

GLM

GLM-5

GLM-4.7

Grok

Grok 4.1

Grok Code fast

多模态

视频

falshvr

Wan 2.6

图片

seedvr2

Z-Image

Nano Banana Pro

文本

千问系列

qwen3-max

Kimi-K2