对于LLM的一些思考

最近一直在高强度使用LLM，Gemini、GPT、Claude以及一众国产模型提供了多元广泛的选择
在使用中发现不同模型虽然跑分很高，但都有自己的缺点

各家模型：优缺点体感

Gemini（2.5 / 3 / 3.1）

比如Gemini2.5/3pro模型，拥有1M的超长上下文以及领先的评分，但是其在实际编码任务中指令遵循以及意图理解很差，还经常出现“幻觉现象”。
但是其在识图，解题和角色扮演方面可以算是最好用的之一。
尽管其上下文能力测试能做到第一，但是其注意力窗口有明显问题，经常忽略先前对话导致意图理解出错

GPT（4、5、5.2、CodeX）

GPT在4以及之前都是非推理，且其风格我个人很喜欢，但是其在出O*这类思考模型的时候完全比不过Gemini和Claude甚至Deepseek（又贵又慢效果还不算出色）
到了5特别是5.2其编码能力/价格/速度都很不错，但是对话风格很诡异，很多废话，且推理不开高很智障（甚至打不过32b）。
风格明显是代码和指令特化了（CodeX用着确实很爽，其写的项目在完成度方面其他模型包括Claude都没法比）

Claude

Claude一直编码都不错，但是4.5之前sonnet版本非常喜欢写文档且风格死板（紫色网页+一大堆莫名其妙emoji）

Grok

Grok的对话搜索都很不错（风格灵活，并且限制很少），但是逻辑能力和视觉方面偏弱，也没有便宜渠道能用到编码agent中

国产模型：整体情况与少数例外

国产模型用一大堆，除Kimi-K2.5和豆包的Seed-2.0以外基本上都是跑分王，实用性上很差，DS虽然做了不少优秀框架但是模型上下文和实用性不太行（思维链过长上下文小非多模态）

豆包 Seed-2.0（偏非编码场景）

如果不考虑编码豆包的Seed-2.0应该算国产最强模型之一，虽然思维链很狗屎，解题也一般但是视觉能力在所有模型中应该算前三-前四（体感能打3flash，比3pro 3.1pro差点，如果不考虑图片分辨率）
且其搜索内容覆盖了国内很多社媒以及新闻频道，支持图片搜索，图片模糊近似比对，且识图不会压缩太多扣算力（Gemini这方面做的很差，会强制压缩图片质量导致小字识别不出来）
搜索中文内容应该是最好用的之一

GLM（4.6 起 / 5）

GLM在4.6版本开始用，和sonnet4.1一样毛病（写文档不干活）且逻辑更弱
GLM5跑分很强实际编码对项目的理解仍然不全面（比如已经实现的功能却仍然重搞一遍。
不过不会像4.6 4.7那样写垃圾文档和走捷径了，比如塞一堆mock示例数据然后假装自己实现了功能）
用于对话还行但是其没有官方提供的优秀环境（比如各家的搜索/识图），且其为单模态模型导致除了编码几乎不会用这玩意

Kimi-K2.5

Kimi-K2.5实测虽然跑分偏弱但是在code agent里反而更好用，并且原生多模态且开源可惜太贵

MiniMax（M2.5）

MiniMax算是跑分特化了，虽然不会像Claude和GLM那样写垃圾代码但是由于参数规模小，即使是目前最强的M2.5的使用体验也不算高，特别是面对复杂任务很容易偷懒
（比如跑一会就是否需要继续进行xxxx一类，或者是我已经完成xxx的基础结构，如果需要继续之类的话术）
在发生这种情况之后基本上也就意味着你没办法用它的模型完成现在的任务了，除非你给出非常详细的步骤和结构

小模型：跑分更可参考的原因

小模型方面倒是可以参考跑分，工具调用/指令遵循分高的实打实有用，因为小模型的知识/语言能力差很多，非常依赖检索以及工具调用
（前一阵子的Nanbeige4.1-3b，体感上比qwen3-8b还要强，qwen3.5的小规模模型还没出这个应该是8b以下最强的）

自己训练 LLM：难点不在“会说话”，而在“会做事”

在很久之前，我就想尝试自己训练一个LLM，最近在家闲着没事去玩之前的MiniMind训练0.1b模型，发现想让模型有基础语言能力不算困难（搞一堆数据跑PT完事），但是想要遵循指令/对话/调用工具反而非常困难（比如结构化输出，工具调用，知识补充，对话结构，风格调整等等一系列问题，此外推理模型还需要加入COT），很多推理模型的COT训练数据都是蒸馏其它模型得到的。

另外就是数据集质量非常影响模型效果，即使是训练过程模型的遗忘现象也很明显（学后面忘前面，学中文语料英文能力降低），大模型靠堆参数量可以解决但是小模型注定存在无法记住过多内容的问题。

对 RAG 的看法：更像“人类回忆机制”

个人认为LLM其实更应该发展类似RAG的东西（但是RAG本身目前还存在不少问题，比如），毕竟对于人来说部分记忆也不是随时就能调出来的也需要一个思考回忆的环节（对应了RAG），但是日常语言对话交流这些都是在潜意识中的（就像模型预测下一个词本身一样自然）

因此似乎让模型本身学习大量知识（比如与几年前相比，现在很多模型几乎不需要联网就能输出很多准确内容，甚至只需要某些LLM测试的题号就能做出答案，比如前几天刚被弃用的SWE Bench Verified）这些内容本身并不能提升多少LLM的语言能力（比如在日常对话场景大部分人应该区分不了qwen3-32b与qwen-max），反而增加了参数，让“跑分”更好看，但是体验提升反而不算大（比如Gemini3 flash在很多场景表现都比3pro更好虽然跑分比不过）

编码与“读最新文档”：比“背文档”更有效

编码方面，通过训练让模型记住XXX框架的文档效果并不如在使用时先读一遍最新的文档效果好，现在ai生成的代码可以看到大量使用弃用的方法，而模型在使用这些框架之前并没有几个会主动读取文档

（CodeX在这一点表现比较好，虽然它在使用什么框架/架构上仍然使用训练时的陈旧思路），Gemini3由于落后的底模也导致其知识陈旧，面对新框架时无从下手错误频出（如在.NET中使用时，经常会使用过时方法导致编译错误，即使有访问web的工具模型从头到尾也不会去主动使用）

个人感受

豆包和Grok在检索这方面做的很好，远远超出其他家，个人认为日用这两个模型可以替代搜索引擎（P家的没买过不清楚效果咋样）
编码仍然是GPT/Claude主导，国产模型虽然跑分强劲但目前来看只有小项目表现好，对于大项目仍然乏力
普通对话方面选择非常多，目前即使是3b的小模型（Nanbeige4.1-3b）的表现也很优秀，进行中英翻译（小模型多语言效果不好，一般只特化训练个别语言）也远远超出传统机翻

总结

LLM的发展迅速，但是距离AGI仍然存在较大差异，目前的架构决定了即使再强大的模型也有局限性（上下文/幻觉/成本高/工具调用依赖文本等），希望未来能有更多新架构出现打破目前的僵局

Moe Blog.

对于LLM的一些思考

各家模型：优缺点体感

Gemini（2.5 / 3 / 3.1）

GPT（4、5、5.2、CodeX）

Claude

Grok

国产模型：整体情况与少数例外

豆包 Seed-2.0（偏非编码场景）

GLM（4.6 起 / 5）

Kimi-K2.5

MiniMax（M2.5）

小模型：跑分更可参考的原因

自己训练 LLM：难点不在“会说话”，而在“会做事”

对 RAG 的看法：更像“人类回忆机制”

编码与“读最新文档”：比“背文档”更有效

个人感受

总结

相关推荐

0 评论

发表评论

各家模型：优缺点体感

Gemini（2.5 / 3 / 3.1）

GPT（4、5、5.2、CodeX）

Claude

Grok

国产模型：整体情况与少数例外

豆包 Seed-2.0（偏非编码场景）

GLM（4.6 起 / 5）

Kimi-K2.5

MiniMax（M2.5）

小模型：跑分更可参考的原因

自己训练 LLM：难点不在“会说话”，而在“会做事”

对 RAG 的看法：更像“人类回忆机制”

编码与“读最新文档”：比“背文档”更有效

个人感受

总结

THANK YOU!

相关推荐

0 评论

发表评论