MiniMax 的 M3 模型发布了,我也是第一时间去测试了一下他的 Coding 能力 ,现在给我的感觉对比 M2.7 有很非常非常明显的提升。
首先是 M3 对比 M2.7 更愿意去思考了,在任务规划方面现在能给出极其详细的架构设计,同时他的目光放的很长远,总是会把任务往生产上线使用的方向去设计方案。
同时得益于多模态的加入,在前端设计方面进步很大,在之前测试 M2.7 的过程中,复刻网页完全是基于控制台提取的 html 代码来做,得到的结果虽然内容完整但是样式上还是有区别,而这次加入多模态之后,他在写好代码会多次打开两个网页去截图对比,然后调整组件样式,算是补齐了写前端的一块空缺。
我这里做的测试任务分别是任务规划、网页复刻、全栈和代码重构,我认为这几个使用方向应该足够看出一个模型的各方面 Coding 能力了。
- 任务规划
测试的任务是制作一个类似 elementplus 的网站,自由发挥创作组件,M3 首先给我几个选项问我要用什么技术栈和组件,然后给出的 plan.md 内容如下,可以看出他这给出的计划十分详细,包括整个组件库的架构、文件目录、组件清单、测试,甚至他还有详细的 CLI 工具的规划。
使用的prompt如下:
我想做一个类似 elementplus 的网页,要求可以一键复制组件代码使用,帮我设计一下方案,由你来做各种创意的组件,随意发挥。
- 网页复刻
这部分内容主要是让他去仿造 Vue、React、Python 的官网首页,得益于多模态能力的加入,在多次截图对比然后调整之后,生成的结果比 M2.7 时候进步很大。(左侧是复刻的,右侧是官网的)
使用的prompt如下:
帮我复刻一下 https://www.python.org 这个页面的首页,要求尽可能像。
- 全栈
全栈这部分让 M3 做了一个在线实时协同画板,目前的测试结果就是要求基本实现,多用户同时绘画的功能没有任何问题,之前有试过其他模型做的协同画板,他们是一笔画完了另一个用户那才能看到结果,但是 M3 这里做到了笔画过程也能正确同步显示
使用的prompt如下:
帮我实现一个多用户实时协作画板,要求:
- 支持用户注册功能。
- 支持邀请其他用户加入画板。
- 多个用户同时进入同一画板时,绘图、移动、删除元素要实时同步。
- 显示在线协作者列表,并在画布上显示其他用户的实时光标和昵称。
- 代码重构
代码重构这边我是选择了一个开源项目 https://github.com/java-diff-utils/java-diff-utils,这是 Java 里一个用于对比文本之间差异的库,拿来让 M3 用 Rust 将其重构一下。这是官方仓库
由于这次 Rust 重构的任务比较复杂,这个 Java 项目代码有将近 5000 行源码加上 3000 行测试代码,所以我们就让 GPT-5.5 老师来做裁判,评判一下 M3 重构后的代码内容与原项目有什么功能上的差异,是一个什么水平。
在 M3 的代码生成结束之后,我让 GPT 分析了一下,他指出这个重构有比较完整的功能实现和测试,然后找出了几个会影响使用的问题。
但是有意思的是,我又看一下了 M3 在完成任务时给出的结果,他在停止这次任务的时候,指明了两个未完成的点,刚好都是 GPT 那边指出的第一第二个问题。
MiniMax 的 M3 在这个重构的任务测试过程中可以看出其对原项目的功能模块理解还是很到位的,尽管一次对话的最后他没有给出完美的版本,但是他知道代码的缺陷在哪,这个代码的理解能力和编程能力对比 M2.7 提升巨大,在我看来甚至不输于国内的其他模型。
这两天看见大家都在讨论套餐限额的问题,昨晚官群里也发公告说明额度补偿方案了,这一块我认为再骂也应该不会再有什么大的调整了,我觉得大家还是应该转换一下方向,去试试新模型的能力。目前我的使用感受就是思考能力和编程能力对比 MiniMax 的上一代模型能力提升巨大,甚至感觉在部分任务上也不输于国内的其他模型,大家可以去试试然后说说自己的感受。
2 个帖子 - 2 位参与者