大模型记录

编码

Claude

  • 目前唯一真神

  • 特性:遵循度高、文档处理

  • 最佳 Prompt 结构:XML Tags (官方推荐)

特性

Opus 4.5

Sonnet 4.5

Haiku 4.5

智能水平

最高(5星)

高(4星)

中高(3星)

响应速度

中等

极快(比Sonnet快4-5倍)

输入价格

$5/百万token

$3/百万token

$1/百万token

输出价格

$25/百万token

$15/百万token

$5/百万token

最佳场景

复杂推理、长期任务

日常开发、内容创作(文笔最好)

高频调用、实时响应

性能分数

80.9%(SWE-bench)

77.2%

73.3%(Sonnet的90%)

推荐人群

企业AI团队、研究者

中小企业、个人开发者

创业公司、高并发场景

GPT5

  • 保守

Gemini

Gemini-3.0-pro-preview

优点:

  • 前端能力非常好(疑似react)

  • 非常人性化

  • 文笔和脑洞都很好

  • 长窗口、多模态

缺点:

  • 非常固执,gemini3.0pro preview更聪明的表现固执

  • Google训练时,懒,经常在用户要求的前提下,还是会省略、精简

最佳 Prompt 结构:CRFC + XML (结构化指令最稳)

好用的 XML 标签

这些标签是 Gemini 训练数据里出现频率最高的,它一看就知道该干什么。Gemini 的“母语”是英文。虽然它懂 <角色>,但它对 <role> 的反应速度和准确度在底层逻辑上是最高的。标签越标准,它的逻辑处理越清晰。

  1. <role> (角色)

作用:告诉 AI 它是谁。 填空:资深 Go 开发工程师 / UI 设计大师 / 产品经理。

  1. <context> (背景)

作用:给 AI 提供上下文,防止它瞎猜。 填空:我正在做一个基于 Gin 的文件管理系统 / 我正在写一篇关于科幻小说的文章。

  1. <instruction> (指令/任务)

作用:这是最核心的部分,告诉它具体干什么。 填空:请重构这段代码 / 请优化这个页面布局 / 请解释这个错误。

  1. <rules> (规则/约束)

作用:给它立规矩,防止它废话或格式错误。 填空:必须使用中文 / 代码要有详细注释 / 不要解释原理,直接给代码。

  1. <output_format> (输出格式)

作用:解决你之前提到的“不输出 Markdown”问题的关键。 填空:使用 Markdown 格式 / 输出为 JSON / 使用表格展示。

  1. <code_snippet>:用来包围你的代码。

  2. <example>:如果你想教 AI 怎么说话,给它一个例子。

  3. <history>:如果你想把之前的报错日志贴进去。

千问系列

Qwen 3

  • 核心特性:原生思考模式、理工特长

  • 最佳 Prompt 结构:Markdown 骨架 (仅用于定义输出,不要指导思考过程)

Qwen-Max

阿里最大的模型,闭源

Qwen-Coder

根据版本和api,差距非常大,不太好评价

  • qwen-coder-plus 官方api:20250905,疑似降智

Minimax-M2

优点:

  • 非常的快

  • agent能力不错

缺点:

  • 行动过于积极

Kimi-k2

Kimi-k2-0905

Kimi-k2-thinking

Kimi-k2-linear

Deepseek

20151201发布DeepSeek V3.2,官方的思路是主打数学能力

  • 优点:开源;在代码、数学、多语言任务上表现优异

  • 缺点:缺乏算力(?),模型尺寸依然是671B,基模能力和知识受限;缺乏多模态能力

GLM

GLM-4.6

Grok

Grok 4.1

Grok 4.1(2025年11月发布),完全没办法用于编程

  • 核心卖点: "Extreme EQ" (极致的情商) 和 "Creative Writing" (创意写作)。

  • 最佳策略“情感引导”。你甚至应该在 Prompt 里加入情绪色彩(比如“我真的很烦恼...”),Grok 4.1 会比其他模型给出更具抚慰性或共情力的回答。

  • 缺陷:grok训练方向和重点,是人性化,不遵守用户指令

  • 最佳 Prompt 结构:自然语言 + 情感交互 (像跟朋友聊天一样提要求)

多模态

视频

falshvr

Wan 2.2

图片

seedvr2

Z-Image

Nano Banana Pro

文本

千问系列

qwen3-max

  • 官方api:20250705,疑似降智

Kimi-K2

Comments