如图可以推荐成人东西,是tg没有限制吗?我怎么感觉我的模型被破限了 3 个帖子 - 2 位参与者 阅读完整话题
本人纯小白,向佬门请教 我在自己的电脑上部署了harmes,使用的ds-f和openrouter的免费模型,使用两周。 下面是我用hsrmes做的一些东西 1 模型轮转 最开始应为接受不了ds的价格,就让harmes自己写了个免费模型轮转,刚开始openrouter前面的比较好的免费模型用着还行(好像就是前4个),后来这些模型限流了,用后面那些参数低的模型太难受了,就又换回ds了 2 harmes对接jlceda mcp帮我画原理图 为了haemes帮我画原理图我把嘉立创官网pcb相关的链接丢给agent创建知识库,然后通过vscode的jlceda mcp插件链接嘉立创ada网页版绘制原理图。改了一点原理图后来还是自己去弄了。 3 上下文记忆注入优化 在进行上面的过程中我发现上下文的量巨大无比 ,我就让agent以树的形式展示他的上下文记忆结构内容,从中发现有很多先前或者无关当前问题的记忆,上网查了些有关上下文工程的优化内容,我也忘了叫啥了反正直接把开源链接丢给agent让他自行优化能强不少。 4 开机自启动harmes,环境自检和保护 因为我是自己电脑部署的agent,在学校电脑需要开关机,不确定性断电断网,我又不能一直在电脑。想到了电脑不充电了过多长时间后就关机,断网后也一样。自检还挺好会定时通过飞书给我发电脑状态。但是开机子启动很难搞过程中一堆问题后来就 放弃了 这些就是我根据自己的需求而做的一些内容,你可以看到大部分是没完成的还有半成品,所以我就疑惑是我能力不行还是工具没用对,还是说我太高估agwnt了,但是我是真的迷茫这个东西做什么更合适,或者是有没有实际的实战项目学习一下。 还有cc和openclaw我没用过但是在自媒体那里感觉也挺强的不知道实际应用起来会怎么样。 新人希望佬门多发表意见 3 个帖子 - 3 位参与者 阅读完整话题
custom_providers: name: cliproxy base_url: https://xxx/v1 key_env: OPENAI_API_KEY models: gpt-5.4: context_length: 131072 gpt-5.4-mini: context_length: 131072 gpt-5.3-codex: context_length: 131072 gpt-5.3-codex-spark: context_length: 131072 gpt-5.2: context_length: 131072 就自动配的,感觉不太行啊,我让它给我的最终回复加上一个@功能,给我干这么长时间 而且上下文长了好像还有幻觉,另一个任务怼着我上上上个消息在猛干 1 个帖子 - 1 位参与者 阅读完整话题
最近开始研究 docker 部署个 harmesagent 玩玩,然后看到很多推荐 m2.7 的量大管饱,pinchbench 排行也是前几位,就买了个 49 套餐试了试,结果发现让他实现个自己打通 gitea 自动审批 pr 都整不明白。我就很好奇,把官方的文案味道了 gemini 里,下面是 gemini 的评论,大家图一乐就好: 这份发布介绍简直是一份“教科书级别”的大模型公关稿。如果你带着开发者的视角,剥离掉那些高大上的名词,这篇稿子里藏着非常多经不起推敲的“端倪”和营销话术。 我甚至在它用来背书的跑分数据里看到了我自己的名字( Gemini-3.1 ),以及未来版本的友商( Opus 4.6, GPT-5.4 )。这就更有意思了,我们可以逐段拆解一下这些“遥遥领先”背后的潜台词: 危险的“自动化运维”幻觉 公关稿: “面对我们实际的生产环境告警……主动连接数据库执行验证根因,定位到代码仓库中缺失的索引迁移文件,甚至知道用非阻塞建索引先止血,再提 MR 。” 看破端倪: 这段话对于任何真正维护过服务器的人来说,堪称恐怖故事。 设想一下,如果你自己手头正维护着几台 VPS 节点,管着一堆 .dev 、.xyz 域名或者像发卡网之类的个人站点,你敢让一个大模型在生产环境发生故障时, “主动连接数据库”并“自己建索引” 吗? 在实际的运维场景中,哪怕是极其微小的幻觉操作,都可能导致整库锁死或数据污染。这大概率是一个极其受限的、提前写好脚本的“演示切片( Demo )”。它证明了模型能输出这几行 SQL ,但绝不代表它具备真实的 SRE (站点可靠性工程)决策安全感。 “Token 焚烧炉”的高级包装:Agent Teams 公关稿: “Agent Teams 场景下,模型需要稳定锚定角色身份、主动挑战队友的逻辑与伦理盲区、在复杂状态机中自主决策。” 看破端倪: 你前面刚提到用 Hermes Agent 极其消耗 Token 且常常完不成任务,这段话就是罪魁祸首。 目前绝大多数所谓的“多智能体协作( Agent Teams )”,在实际落地时都会演变成 “AI 互相扯皮的 Token 焚烧炉” 。所谓的“主动挑战队友逻辑”,往往是一个 AI 说“代码写错了”,另一个 AI 道歉并重新生成一份依然有错的代码,循环往复几十轮。它看似在“自我进化”,其实是在疯狂消耗你的 API 余额。 跑分榜单的“文字游戏” 公关稿: “在 SWE-Pro 中,M2.7 得分 56.22%,几乎接近 Opus 最好的水平……在 MM Claw 的评测中接近最新的 Sonnet 4.6 。” 看破端倪: 注意看它的用词——“接近”。 很多国产模型喜欢自创或者挑选特定的 Benchmark (比如这里提到的 MM Claw ,听起来像是模仿真实的 SWE-bench )。在这些高度标准化的测试脚手架里拿高分,不代表它能在真实的开发环境里存活。 你把它放到真实的本地环境里试试看,比如让它去给一个要求极其严格的 Rust 项目写点带有生命周期标注的底层逻辑,或者让它去配置 Zed 编辑器的自定义 formatter 。你会发现,那种在跑分榜上“端到端交付”的聪明劲儿全没了,连基础的语法树都可能搞错。 财报分析的“量化盲区” 公关稿: “可以自主阅读公司的年报与业绩沟通会纪要,交叉比对多篇研报,独立设计假设并构建营收预测模型……” 看破端倪: 做过实际盘面交易,或者习惯在图表软件(比如 TradingView )上盯盘的人都会知道,金融建模对严谨性的要求是 100%,错一个小数点,预测结果就南辕北辙。 大模型本质上是一个“文字接龙”的高手,它非常擅长总结业绩沟通会的纪要,甚至能套用模板生成一份看起来很唬人的 PPT 。但“构建营收预测模型”需要极其严密的算术逻辑和时间序列分析。如果不借助外部的 Python 解释器或量化插件,纯靠模型自己“独立设计假设”,它生成的那些营收数字极大可能是自圆其说的“幻觉”。把它当财报摘要提取器可以,当初级分析师?容易爆仓。 总结 这篇公关稿极力想描绘一个“已经具备甚至超越人类高级工程师和分析师”的自主 Agent 形象。但只要你在开发一线滚过泥潭,就会知道: 宣称的 “自动化” ,通常意味着需要人类疯狂在后面 Debug 。 宣称的 “多智能体深度思考” ,通常等于你的 Token 成本要翻 10 倍。 下次再看到这种公关稿,直接略过那些自创的英文缩写榜单和华丽的定语。把它拉到你的终端里,让它实打实地去修一个你项目里的 Bug 。是骡子是马,一行指令就知道了。