比如我从Anthropic订阅了它的API,现在我有了一个账号、有订阅。 我听到AI拼车、家宽车队等等,这些词很陌生不知道是什么,但我推理它应该是把这个订阅分给多个人用的意思。 有懂的佬一次奖清楚么? 例如: 这一个订阅有多少种玩法,每种都是怎么玩的。 13 个帖子 - 7 位参与者 阅读完整话题
每月0.11欧,年付1.32欧,首次购买额外一次性收取1.68欧。即首年3欧,续费1.32欧/年,折合人民币首年23.4元,续费13.1元/年! 官方活动传送门: https://www.netcup.com/en/deals 购买流程推荐阅读: 活动域名注册流程 ,下完订单后可以阅读同个帖子的 第三部分:从零开始注册图文全记录 本次活动结束时间不定,原因: 不过以我浅薄的足球知识来看,德国足球还是挺猛的,这次活动的时间应该不会太短。 4 个帖子 - 3 位参与者 阅读完整话题
这两天新开的 business 号,今天第一次用,发现没有了五小时限额和周限,直接变成了月限??另一个老号倒没有变化 感觉不是很经用,一个长上下文修改就用掉了2%……天塌了!! 3 个帖子 - 3 位参与者 阅读完整话题
之前只要用梯子登录一次就可以管一阵时间。现在我发现只要中途把梯子断掉,Spotify的歌曲就会全部变成灰色。正在播放的歌也会自动停止。 软件:Spotify iOS app 我不喜欢一直挂着梯子,那这玩意儿根本没法用了吧 10 个帖子 - 9 位参与者 阅读完整话题
头一次遇到这种事,虽然本来就不会把什么重要的数据存在 VPS 上
头一次遇到这种事,虽然本来就不会把什么重要的数据存在 VPS 上
真的是心态爆炸啊。第一次买基金,跌跌涨涨,亏到头大。T_T 2 个帖子 - 2 位参与者 阅读完整话题
分享一次自己的踩坑经历,给大家提个醒。 我明天的 Business 套餐就要进行第二次续费了,目前用的是泰区优惠订阅。因为明天就是下个月套餐的更新时间,我想着提前看一下是不是需要手动充值,于是打开了结算界面。 结果看到里面有一个“额度余额”之类的入口,我当时误以为这是后续自动续费用的钱包或者账本,于是就往里面充了 1300 THB(折合快300 RMB)。充完之后越想越不对劲,去网上一查才发现,这个余额并不是会员套餐续费用的,而是当前套餐调用超额之后,类似 Codex 等额外用量产生费用时才会扣的额度。 当场泪目 。 更难受的是,这个余额好像还有 12 个月有效期,过期就没了。也就是说,如果后面不用到这些额外额度,这笔钱基本就亏麻了,呜呜。 所以提醒大家,以后一定要注意:Business 套餐续费只要绑定的信用卡里有足够支付下个月扣款的金额就行,不要看到“额度余额”就以为是续费账户,更不要随便往里面充值。 看到这里的陌生人,可以留下一个赞 安慰一下我吗?帮我飞升一下 3 级,感激不尽 。 3 个帖子 - 2 位参与者 阅读完整话题
从 请各位佬友来点评。准备在公司做一次技术分享,聊聊我的“上下文工程”实践 继续讨论: 最近花了很多精力在vibe coding上,我觉得人的注意力已经跟不上ai产生的爆炸上下文了。 第一个体感,用多了brainstorming和grill-me,就会发现人对需求的边界才是飘忽不定的。也正是因为人没精力在spec阶段就确定好所有细节,或者模型降智没有理清边界,才是导致aigc堆积成屎山的最大原因。 另一个体感就是superpowers这套TDD范式在vibe coding时代可能已经落伍了。ai可以很轻易绕过原有思路在错误方向上狂奔,最终一样实现绿灯。原话题里的大量property测试我觉得是正确的思路,不过也只是正解的一个子集,其实本质就是让ai进行对抗,找漏洞,最终把代码收敛成最佳状态。 有一个还没有精力去实施的想法。基于上述体感,最值得人花精力(也可以用大量token来逼近)去介入的地方,应该是spec制定和对抗方法。 前者是整个开发过程的权威锚点,目前很难被ai全自动接管,我能想到的也只有grill-me慢慢来了,可能后面模型智力提升后,更能抓住重点来减轻点精力消耗。 后者因为相同的spec在不同模型眼里,盲区大概率是不同的,所以可以引入多个专家模型,写代码的只根据spec写,写测试的只根据spec出反例,再辅以黑盒测试和property测试,把多个模型的分歧点暴露出来,作为修订spec的依据。这样的流程应该就能让spec和代码逐步收敛到真实需求。 手打的,不是AI润色,所以没有截图。 6 个帖子 - 6 位参与者 阅读完整话题
如题,第一次在L站过生日,来到L站的这几个月里跟着佬友们学到了很多有用的东西,愿佬友们天天开心,社区越来越好 53 个帖子 - 52 位参与者 阅读完整话题
感觉我就像个烟民,烟瘾重,但穷困,整天蹲马路牙子捡别的哥们儿的烟屁股吃 一开始以为只试一次不会怎样… 天晓得opus和gpt都太好用了 没有佬们的公益站日子根本过不下去 向所有大佬,Salute~ 6 个帖子 - 6 位参与者 阅读完整话题
很多人第一次接触 AI 编程助手时,都会把它当成“高级搜索引擎”或者“代码生成器”。但真正用下来之后我发现,Codex 最有价值的地方,并不是帮你凭空写一段代码,而是帮你在复杂项目里更快理解上下文、更稳地定位问题、更安全地完成修改。 这篇文章不讲具体项目业务,只分享我在维护项目过程中总结出来的一些实战经验。对刚开始使用 Codex 的同学来说,这些方法能少走很多弯路。 一、先让 Codex 读规则,而不是马上写代码 刚开始用 Codex 时,我很容易犯一个错误:问题一抛过去,就希望它马上给方案、改代码、跑测试。 后来发现,真正高效的方式是先告诉它项目规则。 比如: 项目有哪些子模块 每个模块用什么技术栈 构建命令是什么 哪些目录能改,哪些不能乱动 当前项目有哪些约定 测试、构建、发布分别怎么跑 有哪些历史遗留问题需要避开 这类信息最好写成类似 AGENTS.md 的说明文件。这样 Codex 进入项目后,第一件事不是“猜”,而是“按项目手册工作”。 我的经验是: 越复杂的项目,越不能让 AI 靠猜。你给它越清晰的操作边界,它越像一个靠谱的协作者。 二、让 Codex 先理解现状,再动手修改 很多时候,我们觉得自己只是要改一个小问题,但真实项目里,一个小改动可能牵连配置、接口、构建脚本、前端页面、后端服务、移动端兼容等多个地方。 所以我现在会习惯性要求 Codex: 先查相关代码 找调用链 看现有实现风格 判断影响范围 再决定怎么改 尤其是在维护老项目时,这一点非常重要。 不要直接说: 帮我把这个功能改成 xxx。 更好的说法是: 先帮我看看这个功能现在是怎么实现的,涉及哪些文件和调用链,然后再给出修改方案。 这样 Codex 不会一上来就“自信开写”,而是会先进入侦察模式。等它把上下文摸清楚之后,再进入修改模式,成功率会高很多。 三、善用 CodeGraph,别让 Codex 大海捞针 维护大型项目时,单纯全文搜索经常不够用。一个类、一个函数、一个接口,可能散落在很多模块里。 这时候 CodeGraph 这种代码索引工具非常有用。它能帮 Codex 快速知道: 某个方法在哪里定义 谁调用了它 它又调用了谁 改它会影响哪些地方 某个功能大概分布在哪些文件中 我的体感是,CodeGraph 相当于给 Codex 装了一张“项目地图”。 没有地图时,它需要在代码森林里乱翻。 有地图后,它可以直接走到关键区域。 所以维护项目时,我会优先让 Codex 用代码图谱定位,再做具体阅读和修改。这样不仅快,而且不容易漏掉关键调用点。 四、把构建命令固定下来,别每次临时发挥 项目一复杂,环境问题就会变成噩梦。 比如: 后端需要某个 Java 版本 另一个服务需要另一个 Java 版本 前端要固定 Node 版本 Android、iOS、脚本服务又各有自己的工具链 有些模块用 Maven,有些用 Gradle,有些用 npm/yarn 如果每次都让 Codex 自己猜命令,很容易出现“代码没问题,环境跑崩”的情况。 我的做法是把常用命令整理成脚本: build-backend.sh build-web.sh build-android.sh build-ios.sh check-all.sh status-all.sh 然后告诉 Codex: 不要自己拼命令,优先使用项目提供的脚本。 这点非常关键。 因为脚本里可以固定 JDK、Node、Maven、SDK、环境变量、registry 等细节。Codex 只需要执行标准入口,不需要重新理解整个环境。 结论就是一句话: 把复杂环境封装成脚本,把脚本交给 Codex 调用。 五、每次改代码前,先看工作区状态 多人协作或者长时间维护项目时,工作区里可能已经有别人改过的文件,或者有自己之前没提交的临时改动。 如果不先看状态,Codex 可能误改、覆盖、格式化不该动的文件。 所以我会让 Codex 在动手前先跑状态检查,确认: 当前有哪些文件被修改 哪些改动可能是我已有的 这次任务真正应该碰哪些文件 有没有需要避开的脏文件 这其实是一个非常工程化的习惯。 AI 写代码的能力很强,但它不知道哪些改动是“历史现场”。 你必须让它尊重现场。 我现在的原则是: 只改和任务相关的文件,不顺手重构,不清理无关改动,不替用户做危险操作。 这能避免很多不必要的事故。 六、把 Codex 当初级同事用,会翻车;当资深搭档用,才好用 很多人用 AI 的方式是命令式的: 写一个 xxx。 修一下 xxx。 加一个 xxx。 这种方式适合小脚本,但不适合真实项目。 在真实维护工作中,我更推荐把 Codex 当成一个资深搭档,而不是一个代码打字员。 你可以这样用它: “先帮我分析这个问题可能出现在哪一层。” “这个改法会不会影响已有逻辑?” “有没有更贴合当前代码风格的实现方式?” “帮我找一下类似功能是怎么写的。” “这个地方有没有隐藏的兼容性风险?” “改完之后应该跑哪些最小验证?” 你会发现,当问题问得更工程化,Codex 的回答也会更工程化。 AI 不是只能写代码,它还可以帮你做: 代码考古 风险评估 调用链分析 方案对比 测试补充 构建验证 文档整理 真正的效率提升,来自这些环节串起来。 七、不要追求“一次生成完美代码” 我现在越来越不指望 Codex 一次性生成完美答案。 更高效的节奏是: 让它先定位问题 让它提出最小修改方案 修改后跑测试或构建 根据错误继续收敛 最后总结改动和风险 这和真实开发流程很像。 AI 辅助开发不是“许愿机模式”,而是“快速迭代模式”。 尤其是复杂项目,第一次方案可能只对了一半,这很正常。关键是 Codex 能根据编译错误、测试失败、日志输出继续修正。它不会累,也不会嫌麻烦,这一点非常适合处理维护类工作。 八、让 Codex 跑验证,而不是只相信代码看起来对 只改代码不验证,是非常危险的。 我会尽量让 Codex 在修改后做对应检查: 后端改动跑后端构建 前端改动跑前端构建 移动端改动跑对应编译 脚本改动跑语法检查或单元测试 公共逻辑改动尽量跑更大范围验证 如果构建太重,也至少跑最相关的局部检查。 这一步的价值很高。因为 Codex 不只是“写完了”,而是可以帮你把“能不能过”这件事也确认掉。 我最喜欢的一种用法是: 改完后帮我运行最小必要验证,如果失败,继续根据错误修。 这样整个闭环就完整了。 九、明确告诉 Codex:不要过度发挥 AI 很容易“顺手优化”。 比如你只是让它修一个 bug,它可能顺便: 改了格式 重构了结构 换了写法 调整了命名 改了无关文件 加了不必要的抽象 这些在新项目里可能无所谓,但在维护项目时很危险。 所以我会明确给它约束: 保持改动最小 遵循现有风格 不做无关重构 不碰无关文件 不覆盖已有改动 不引入新的依赖,除非确实必要 修改公共逻辑前先分析影响范围 维护项目最怕“看起来更优雅,实际上风险更大”。 Codex 很强,但你要给它刹车系统。 十、让 Codex 最后交付一份清晰总结 一次好的 AI 协作,不应该只留下代码改动,还应该留下清楚的交代。 我通常希望 Codex 最后说明: 改了哪些文件 解决了什么问题 核心逻辑怎么变了 跑了哪些验证 有没有未验证的风险 后续还可以做什么 这份总结对自己回顾、写 commit message、发 PR、同步团队都很有帮助。 尤其是当你一天内处理很多小问题时,Codex 的总结能帮你快速恢复上下文。 我的 Codex 使用心法 总结下来,我觉得 Codex 辅助维护项目的核心不是“让 AI 多写代码”,而是“让 AI 更好地参与工程流程”。 我的使用心法大概是这几条: 先给规则,再给任务。 先理解上下文,再修改代码。 优先使用项目已有脚本和工具。 改动越小越好,验证越明确越好。 尊重已有工作区,不覆盖别人的现场。 把 Codex 当协作者,而不是代码生成器。 复杂问题分阶段推进,不追求一步到位。 每次交付都要有总结、有验证、有风险说明。 结语 小白使用 Codex,最开始可能会觉得它只是“帮我写代码的工具”。 但真正用进项目维护流程之后,你会发现它更像一个随时在线的工程搭档:能帮你读代码、查调用链、分析风险、执行构建、修复错误、整理结论。 它不能替代你的判断,但能显著放大你的判断。 它不能保证每次都对,但能让你更快接近正确答案。 所谓“小白成神”,并不是因为 AI 让人突然无所不能,而是因为它把很多原本需要大量经验积累的工程动作,变成了可以被学习、复用和自动化的流程。 会提问、会约束、会验证、会迭代。 这才是用好 Codex 的真正干货。 3 个帖子 - 2 位参与者 阅读完整话题
在一次和经理吃饭的时候了解到的,和我们公司合作的另外一家公司,原来的规模大概也有三十多号开发,今年年初老板不知道怎么受刺激了,裁员到只剩下三四个员工,还和我们公司的老板和经理大吹特吹 一人ai公司 ,想拉我们老板一起下水; 一人ai公司 其实也是有成功案例的,但是想撑起一个公司的规模和做项目还是有点勉强吧,还是说这位领导其实在我不知道的方向押注了? 10 个帖子 - 5 位参与者 阅读完整话题
打磨了很久的文章,鉴于使用了ai润色,所以截图发出,各位佬友看看算不算得上干货,相较大众认知应该能先进一些吧。 4 个帖子 - 3 位参与者 阅读完整话题
由于测试的模型越积越多了,表格会删除一些同厂商的旧模型,你可以在之前的评测帖子里找到它们的成绩。 项目 这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。 本轮与上两轮评测的项目和环境都完全一致: 第一轮 … 上一轮 模型来源 Claude 系列模型: 官方 API Mimo V2.5 系列模型: 官方 Token Plan Hy3 Preview: 官方 API Qwen3.7 系列模型: 官方 API Minimax M3: 官方 API Nex-N2-Pro: OpenRouter Free API Nemotron 3 Ultra: OpenRouter Free API 速度 排名 模型 时间(分钟) 备注 1 Grok 4.20 0309 Reasoning 3 2 Step-3.5-Flash 6 3 Mimo V2 Omni 7 4 Doubao-Seed-2.0-Lite 7 5 Doubao-Seed-2.0-Pro 9 6 Doubao-Seed-2.0-Code 9 7 Qwen3-Coder-Next 9 8 Claude Sonnet 4.6(high) 9 9 Qwen3.5-Plus 9 10 GLM-5 Turbo 10 11 Minimax M2.7 10 Highspeed 版本 12 Qwen3.5-Flash 10 13 Gemini 3 Pro 11 14 Hy3 Preview 13 15 GPT-5.5(low) 13 16 GPT-5.5(medium) 15 17 Mimo V2 Pro 15 18 DeepSeek V4 Flash 17 19 Qwen3.7-Plus 17 20 Qwen3.7-Max 18 21 GPT-5.5(high) 19 22 Claude-Opus-4.7(Max) 20 23 GLM-5 20 24 DeepSeek V4 Pro 21 25 Gemini 3 Flash 22 26 Claude-Fable-5(xhigh) 23 27 Mimo V2.5 24 28 KAT-Coder-Pro V2 24 29 Minimax M3 25 30 Claude-Opus-4.6(Max) 26 31 GPT-5.5(xhigh) 28 32 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 33 Claude-Opus-4.8(Max) 33 34 Kimi K2.6 33 35 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 36 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署 37 Mimo V2.5 Pro 37 令牌数 Claude-Fable-5(xhigh): 7.1M Claude-Opus-4.8(Max): 13M Mimo V2.5 Pro: 未知 Mimo V2.5: 未知 Hy3 Preview: 1.4M Qwen3.7-Max: 4.6M Qwen3.7-Plus: 4.2M Minimax M3: 未知 Nex-N2-Pro: 退赛 Nemotron 3 Ultra: 退赛 代码行数 Claude-Fable-5(xhigh): +1520, -7 Claude-Opus-4.8(Max): +1347, -22 Mimo V2.5 Pro: +1682, -14 Mimo V2.5: +1270, -8 Hy3 Preview: +1246, -8 Qwen3.7-Max: +1529, -6 Qwen3.7-Plus: +1532, -7 Minimax M3: +2284, -137 Nex-N2-Pro: 退赛 Nemotron 3 Ultra: 退赛 完成度 Claude-Fable-5(xhigh) 审查结论: 完成度非常高,仅有一个细节问题。 详细 (点击了解更多详细信息) Claude-Opus-4.8(Max) 审查结论: 完成度很高,虽然存在常见错误,但在最后列出了该处理需要确认;另有一个细微实现不一致。 详细 (点击了解更多详细信息) Mimo V2.5 Pro 审查结论: 存在常见错误,有几处与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Mimo V2.5 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Hy3 Preview 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Qwen3.7-Max 审查结论: 较多功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Qwen3.7-Plus 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Minimax M3 审查结论: 存在部分功能错误和与需求/线上实现不一致的功能缺失;但在最后特别说明了协议枚举值调整的破坏性和服务器需要同步更新枚举值这一点,显示了对问题的理解。 详细 (点击了解更多详细信息) 最终总结 排名 模型/层级 说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 Claude-Fable-5 2 GPT 5.5(xhigh) Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 3 Claude Opus 4.8(Max) 4 GPT 5.5(high) 5 Kimi K2.6 6 GPT 5.5(low) 7 GPT 5.5(medium) 8 Claude Opus 4.6(Max) 9 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 10 GLM 5.1 11 Minimax M3 12 Mimo V2.5 Pro 13 GLM 5 14 Kimi K2.5 15 Claude Sonnet 4.6(high) 16 Qwen3.7-Max 17 Qwen3.5-Plus 18 KAT-Coder-Pro V2 19 DeepSeek V4 Pro(max) Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 20 DeepSeek V4 Flash(max) 21 Claude Opus 4.7(Max) 22 Qwen3.7-Plus 23 Mimo V2.5 24 Hy3 Preview 25 GLM 5 Turbo 26 Gemini 3.1 Pro(high) 27 Mimo V2 Pro 28 Mimo V2 Omni 29 Minimax M2.7 30 Step-3.5-Flash 31 Qwen3-Coder-Next 32 Gemini 3 Pro 33 Gemini 3 Flash 34 Doubao-Seed-2.0-Code 35 Doubao-Seed-2.0-Pro 36 Doubao-Seed-2.0-Lite 37 Qwen3.5-Flash 38 Qwen3.5 35B A3B GGUF Q4_K_XL 39 Qwen3.5 9B GGUF Q4_K_XL 40 Grok 4.20 0309 Reasoning Claude-Fable-5(xhigh): 速度超过 Claude-Opus-4.6(max) 与 GPT-5.5(xhigh) 完成度非常高与 GPT-5.5(xhigh) 相当,仅存在一个体验细节问题 终于 Claude 站起来了,不仅是 Claude 的首个 T0 模型,且接替 GPT-5.5 成为榜首。 当然我要重申,它们都能比较完整地做完这个需求,能力差不多,所以是按照模型发布日期来排名的(虽然它其实比 GPT-5.5 要快)。 我已经有点怀疑是否应该将评审员从 GPT-5.5 换为 Claude-Fable-5 了。 Claude-Fable-5 在做完需求后还有一段 “需向你确认的事项”,对某些奇怪的实现细节(比如皮肤配置枚举 值与服务器枚举值不同、时间戳单位猜测)还有自己不确定的地方进行了汇总,给人的感觉是对于这个需求它游刃有余, 一切尽在掌握;需求未说明自己决定的地方都放在最后列出以进行核对,这是比较难得的。 但是 Claude-Fable-5 的安全方面确实非常敏感,测完之后,正好我在做的 VS Code 扩展有一个大需求, 使用 AI 完成后怕遗漏会再用 AI 审查一遍,但 GPT-5.5 会经典地出现自己审查自己永远有问题的情况, 于是我想使用 Fable-5 审查一下,但是由于存在类似反代的功能,Fable-5 思考一半后直接拒绝了, 甚至我还没有要求它编写代码,而 GPT-5.5 对此是完全没有问题的。 后续我会尝试使用 Claude-Fable-5 替代 GPT-5.5 作为我的主力模型,看看它是否真的比 GPT-5.5 更好。 Claude-Opus-4.8 的速度几乎和我之前测试本地部署的模型一样了,对比 Claude-Fable-5,慢了接近 10 分钟, 需要注意的还有消耗的令牌数,Claude-Opus-4.8 消耗的令牌数是 Claude-Fable-5 的将近两倍, 一来一回 Claude-Fable-5 还真像是 Claude-Opus-5 了,消耗的令牌数低,所以实际价格差距不大。 Claude-Opus-4.8 的完成度有了明显提升,之前一直犯的系统注册和界面入口的常见问题都没有了, 它也和 Claude-Fable-5 一样在最后列出了需要确认的事项,虽然枚举值的处理是错了,但它留下了这样的内容: 皮肤类型枚举:以 skinList 表 Type 字段为准分类(1/2/3/4),未采用 skin.proto 中数值不一致的 SkinType(0/1/2/3)。 说明它知道这里需要判断如何处理,但认为采用配置表的值是合理的,而没有编写相互转换的函数。 首先这样的处理在我看来是完全不合理的,因为虽然留下了说明,但编写了错误的代码,没有对比就没有差距, 反观 Fable-5 既写了转换函数,也留下了这样的说明: 皮肤类型编号不一致:协议枚举 SkinType(0=神针 1=称号 2=头像框 3=气泡)与 skinList 表(1=神针 2=头像框 3=气泡 4=称号)顺序、偏移都不同。我已把转换收口在 SkinNetMgr.ToProtoSkinType/ToCfgSkinType,内部数据一律以配置表类型为准(按 skinId 反查表),仅 C2S_SKIN_LIST.skinType 请求参数按协议枚举发送。请与服务器确认线上实际使用哪套编号,若用表编号只需改这两个函数。 Fable-5 给到了一个完全无可挑剔的答卷。 Mimo V2.5 Pro 的速度非常慢,甚至比我之前测试本地部署的模型还慢,但是完成度相对上个版本有了明显提升, 虽然还存在那两个常见错误, Mimo V2.5 的速度比上代 V2 Pro 慢,与 Claude-Fable-5 的用时几乎一样,首先它没有犯那两个常见错误, 但是无法编译,未实现、功能错误也非常多,属于 T3 级别。 Hy3 Preview 出现编译错误,位于 T3。 Qwen3.7 系列模型与上一代的差距未拉开很大差距,位于 T2 和 T3,Qwen3.7-Plus 出现编译错误,相对上代 3.5 可能有退步。 Nex-N2-Pro 思考内容发生循环,遂中止了对话,遗憾退赛: maybe "SkinDataMgr GetSkinPreviewPath(int skinId, int type, bool worldPreview = false)". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". ... Nemotron 3 Ultra 发生上游错误,无法继续,遗憾退赛。 Minimax M3 下出神之一手,它应该是发现了配置枚举值与服务器枚举值不一致的问题,对此它的判断是, **一定是后端写错了!**于是它直接修改了 proto 的定义,把服务器枚举改成了一致的值! 惊为天人,史无前例,这是首次有模型直接修改了服务器协议定义的内容。 当然这完全是不符合直觉的操作,但是 Minimax M3 在最后特别说明了这一点,代表着它与 Opus 4.8 一样, 都理解了只是处理不同: > **注意事项** > - 协议中 `SkinType` 枚举值的调整属于破坏性变更,服务器需要同步更新枚举值(1/2/3/4)。 > - `C2S_SKIN_LIST.totalAttrs` 字段在协议注释中标注为"所有已拥有皮肤的属性总和",目前按各类型分别存储并在客户端聚合;如服务器已按"全部类型"聚合,可直接读取 `_totalAttrs`。 除此之外,M3 犯了未设置页签文案的低级错误,总体而言完成度与 Mimo V2.5 Pro 相当,位于 T2。 最后总结 Claude Fable 5 表现非常亮眼,我会替换 GPT-5.5 作为主力模型使用一段时间,但是需要注意该模型非常敏感。 Claude Opus 4.8 终于变得像 Opus 了,有明显提升,但是 Fable 5 的价格差不多(因为仅有一半令牌消耗量),速度还更快,效果也更好,感觉并非 Fable,而是 Opus 5,有了 Fable 5,Opus 4.8 存在的意义就不太大了。 Mimo V2.5 Pro 相对上代进步明显! Minimax M3 相对上代进步明显! 其余模型则如测了。 本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。 6 个帖子 - 6 位参与者 阅读完整话题
各位 v 友好,最近蠢蠢欲动一些面试机会。但是由于本人第一次毕业后开始找工作,有一些问题想请教下。 公司的话是个小公司基本上没啥空的会议室,有电话间倒是没什么人。 想知道如果一般这种有面试机会,比如 hr 面,技术面。需要请假吗?还是找个没人的地方就行,这样长时间比如面试的 40min-1.5 小时内不在工位会不会不太好? (想知道大家是怎么处理的) 其次面试,我第一次面试先 hr 面说是 40-50min ,我有点没懂 hr 面需要这么久吗?大家一般准备一个公司比如 A 的各种面,hr 面,业务面,领导(管理层)面都是怎么准备的?或者每个的侧重点是什么?
各位 v 友好,最近蠢蠢欲动一些面试机会。但是由于本人第一次毕业后开始找工作,有一些问题想请教下。 公司的话是个小公司基本上没啥空的会议室,有电话间倒是没什么人。 想知道如果一般这种有面试机会,比如 hr 面,技术面。需要请假吗?还是找个没人的地方就行,这样长时间比如面试的 40min-1.5 小时内不在工位会不会不太好? (想知道大家是怎么处理的) 其次面试,我第一次面试先 hr 面说是 40-50min ,我有点没懂 hr 面需要这么久吗?大家一般准备一个公司比如 A 的各种面,hr 面,业务面,领导(管理层)面都是怎么准备的?或者每个的侧重点是什么?
佬们,今天进社区居然要排队,这是第一次还是之前就有这种情况? 另外,这个锅是 @BOHE 佬来背吗 5 个帖子 - 5 位参与者 阅读完整话题
现在网站负载这么高了吗?这页面第一次见,因为开发github5年注册吗? 5 个帖子 - 5 位参与者 阅读完整话题
第一次见这样的画面 1 个帖子 - 1 位参与者 阅读完整话题