本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 (全文上万字符长时间手打+十数张图,先前已经多次回复说明情况却都被认为是ai生成举报,上百楼内容丢失,哪怕为了其他佬友的认真讨论与交流的内容都请勿随意举报!如有意见请友好私信交涉) 注:这里有一个三分钟使用极简教程,正式使用前推荐看看:【全开源免费!抢先体验属于个人的Easy Research!Obsidian开发者手把手教你三分钟速通NotEMD!-哔哩哔哩】 https://b23.tv/lqR0RlA 2026.05.25: 在版主提醒下,L站禁止给群组引流,有需要进一步交流需要请给项目点star或私信本人。 安装 Obsidian 社区插件里直接搜索 Notemd 或者去 GitHub 仓库查看源码和 release 项目地址: GitHub: notemd github项目 Obsidian Community Plugin: 搜索 Notemd 下面是正文 这两年关于 AI 读论文的讨论很多。但这个阅读的痛点始终存在:读完以后,内容有没有留下来? 在对话框里提问很方便,模型也能很快给出总结、翻译和解释。但过几天再回看,常见结果只有一个模糊印象。论文的核心概念、方法关系、实验设置、局限性,以及它和已有知识的连接,往往没有真正进入自己的知识库。 所以我现在更在意一件事:把论文阅读过程中有价值的内容,持续写回 Obsidian。 Notemd 就是在这个场景里我用得比较顺手的工具。它把论文笔记、概念卡片、研究摘要、翻译、图表和工作流放在同一个工作台里,让一次阅读不只停留在一次对话,而是变成后面还能继续调用的资料。 一句话介绍: Notemd 是一个开源的 Obsidian 社区插件,用来把论文阅读过程中的概念链接、概念笔记、原文证据摘录、背景补充、翻译、图表和工作流沉淀回知识库,并支持多语言 UI、README 和内容转换。 实际阅读状态示例: 多语言支持: 我想解决的问题:读完一篇之后,还能继续积累 我现在看“AI 读论文”,关注点已经在长期积累能不能形成。 你当然可以把 PDF 丢给模型,让它做总结、翻译、解释公式、分析贡献。这些都很有用。但论文不是孤立存在的。每次读到的新术语、方法、数据集、实验范式,理论上都应该慢慢长进自己的知识网络里。 我更想要的结果是这些: 一篇论文读完以后,关键概念被自动补成 [[wiki-link]] 新出现的概念可以继续生成概念笔记 我关心的问题能直接定位到原文证据,而不只是拿到一段转述 背景资料和补充搜索能附着在当前笔记旁边 复杂方法链路可以压成 Mermaid 或图表,方便回看 这些结果都留在 vault 里,而不是散在不同聊天记录中 Notemd 的价值也正是: 它把论文阅读变成一条可以复用、可以回看、可以持续补充的知识流。 和聊天式 AI 相比, Notemd 更适合把结果沉淀进知识库。 维度 聊天式 AI(如Smart Composer插件的功能) Notemd 核心落点 当前会话 当前笔记和 vault 文件 结果形态 一段回答 链接、概念笔记、译文、图表、日志、工作流产物 适合场景 快速问答、临时解释 长期阅读、积累、复用 主要风险 聊完就忘,不利于回忆与搜寻 需要自己维护知识库结构 这两种方式并不冲突。我自己也会继续用对话式 AI (例如Obsidian中的Smart Composer等插件)针对论文做即时追问。但如果目标是让今天读过的东西,三周后还能准确记忆与获取,那么文件化、结构化和可回写会更重要。 结构化总结: 我现在比较顺手的一套论文工作流 Notemd 当前处理的是 Markdown / txt 内容,不是直接载入 PDF(但打开开发者选项后个别不需要修改原文的任务是支持载入其他格式)。这会让整个流程更干净,并且MD是AI的原生语言。 1. 先把 PDF 变成 Markdown 我一般会先用 MinerU 之类的工具做 PDF → Markdown,再把结果放进 Obsidian。 (当前MinerU在目前的免费软件里使用起来解析质量高且速度较快) 这样做有几个直接好处: 原文结构更清晰 注: v1.9.1已支持章节结构提取功能 后续链接、翻译、提取、图表都围绕同一份 Markdown 笔记发生 你的“论文阅读结果”本身就是知识库资产 注意,后面的大部分自动化,都要求原文已经进入你的知识库,是Notemd可处理的文件。 2. 先做概念链接,再做概念沉淀 导入 Markdown 以后,我一般先运行这两个指令: 处理文件(添加链接)| Process file (add links) 从标题批量生成| Batch Generate from Title 前者会把论文里的关键概念补成 [[wiki-links]] ,后者则可以借助高质量AI(比如 降智前 的Gemini-3.1-pro)把每个概念扩充为深入的领域知识与术语间关系的总结,支持调用搜索 api(比如 Tavily)做定向搜索后生成。 很多论文难读,原因很简单:默认你已经知道太多术语。backbone、训练范式、benchmark或是统计指标,而实际上需要你临时去查,特别是当你不了解这个领域时更是无从查起。 因此我通过Notemd将这些概念用ai提取后直接沉淀到固定的或者是自定义领域的概念文件夹里。这样第二篇、第三篇相关论文读下去时,已有概念会越来越完整,不需要每次从头补背景。 如果你愿意的话可以打开概念日志,每次新增了哪些概念都有记录。并且, 我已经将这套流程固化为一键处理按钮,不需要拆解单独执行(但需要注意tokens消耗),最大化便利佬友们使用。 3. 用“提取特定原始内容”做证据导向的精读 “提取特定原始内容”顾名思义,是获取原文中的依据,适合继续做精读笔记、组会汇报,或者后面写 related work 时快速回查。 你可以先在设置里定义一组问题,例如: 这篇论文的核心贡献是什么? 作者如何定义问题? 实验设置是什么? 主要 baseline 有哪些? 作者明确承认了哪些 limitation? 然后让插件从当前论文里逐字提取对应原文片段。 如果你希望明确知道“这句输出到底对应原文哪一句”,记得使用这个功能 4. 不懂的背景用 Research & summarize 试试 如果需要临时查阅当前论文或笔记的特定只是,我不会立刻跳出 Obsidian 去开很多网页,可以在当前笔记旁边做 Research & summarize 。它会调用你配置好的搜索服务和 LLM,把主题相关的补充信息整理出来,附加回当前笔记。 背景知识不散在浏览器标签页里 你查过什么,和当前 paper 绑定在一起 后面回看时,论文旁边就是当时补的上下文 我主要用它补背景和补术语网络,不替代正式文献检索。在课题早期扫盲阶段能明显降低阅读门槛。 5. 英文精读压力大时,直接翻译,但翻译结果也应该保存到本地 当前很多 AI 翻译论文的方案,问题通常是单次翻译没有有效落盘, Translate current file 这个链路的价值,在于它会把译文作为 Obsidian 里的另一份产物保存下来,成功后还会直接在侧边栏打开。 多语言知识库用户可以实现:原文、译文、概念卡片、研究摘要都能在同一个 vault 里互相引用,不需要来回搬运。并且由于 UI Locale 和 Task Output Language 是分开的,界面语言可以跟着 Obsidian 走中文,任务输出也可以保持英文,反过来配置也可以。科研场景里,这种拆分很方便。 这是效果图,内容摘选自 Feynman 的物理学讲义: 6. 最后把理解压缩成图 论文阅读与领域学习的过程中很常见的问题是:脑子里一堆概念,但没整理出结构。 有这两个功能可以辅助解决: Summarise as Mermaid diagram Generate diagram (experimental) 前者更适合方法流程、模块关系、因果链路这类结构化内容。后者在当前版本里已经覆盖 Mermaid、JSON Canvas 和 Vega-Lite 等图表路径,其中 dataChart 还能用 Vega-Lite 生成更规整的数据图。 图是一种"理解压缩层"。让 AI 把论文画成流程图、关系图或数据图,它必须先把结构显式整理出来。检查图的时候,也更容易一眼看出哪里有问题。 注意:图不是事实本身。AI 生成的图,尤其是科研图,只适合当草图、摘要层和检查层,不适合不经核对直接当最终结论。 如图, v1.8.4 最新版支持众多种类图的生成: 下面再给一些图类型的举例: Mermaid正常图: 时序图: 7. 最后用工作流把这些动作串起来 如果上面这些动作每次都手动点一遍,久了还是会烦。所以 Notemd 里我很喜欢的另一个点是:你可以把常用动作编成自己的 One-Click Workflow 。 默认就有一个 One-Click Extract 功能把几个动作串起来跑。除此之外,你也可以按自己的论文习惯重组,比如: 论文入库::process-current-add-links>extract-concepts-current>research-and-summarize>summarize-as-mermaid 在设置中有非常高度自定义工作流的支持: 对我来说,工作流的意义除了少点几次按钮,还有真正把阅读习惯固定下来。你跑得越多,知识库结构就越稳定,后面的复用价值也会越高。 这个项目更偏实际工作流程落地,有下面这些突出优点 完整开源 。github开源,具体设置有文字+多图说明。 模型选择自由 。支持 OpenAI、Anthropic、Google、DeepSeek、Qwen、Ollama,以及通用 OpenAI Compatible 网关。 注: v1.9.1 已支持“获取模型列表”功能。 不同的任务均支持对特定的模型进行配置 。对于链接、研究、翻译以及生成等任务,均能够独立地去进行 provider 以及 model 的选用。 对于每一个具体需要去执行的任务,都支持开展 prompt 的修改工作 。这就为插件在功能拓展方面提供了相当充裕的空间。 结果都会以文件的形式来予以保存 。在开展学习的过程当中,插件会把相对应的链接、概念笔记、译文、图表以及日志都进行留存。 在本地用户友好性方面表现得十分出色 。针对那些已经习惯于去使用 Obsidian 的用户来说,这一工具可以直接在既有的工作台环境当中去嵌入 AI 相关的能力,这样一来,就完全不需要再去对一整套既有的笔记体系开展任何的替换工作。 它能帮你构建"外部大脑",但真正记住与掌握,开始实践的只能是你自己。 哪些人应该尝试这个插件: 已经在用 Obsidian 管理读书或论文笔记的人 面对较大规模的文献阅读量,且期望将零散理解逐步构建为系统化知识网络的人 不满足于“总结一下”,而是想把概念、证据、图表和上下文都留下来的人 期望将翻译、搜索、概念提取以及图表生成整合至同一工作台之中的人群 对模型选择上期望自由切换云端和本地部署模型的人 如果你只是偶尔看一两篇 paper,能协助你完成翻译与核心概念的提取工作,上手门槛很低,并且有保姆式视频教学。 如果你有长期积累需求,它的价值会更为显著,因为这些结果最终均会沉淀于个人知识库之中。 如果大家感兴趣,后面我还可以再单独整理一篇更偏实操的帖子专门针对大家的后续问题,比如: 我怎么配置提取问题模板 如何把 prompt 开展有针对性的调整工作,来让它得以深度契合到不同的学科领域以及具体的任务场景当中 …… 如果觉得喜欢有所收获,对你有帮助,就支持一下吧! LINUX DO Credit 3 个帖子 - 3 位参与者 阅读完整话题
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 上周累死累活的毕业论文论文终于是搞完了,于是就回顾了一下最头疼的地方。 我觉得最头疼的地方不是论文内容有多难改吧,毕竟现在大大家都用ai来写了基本上内容不用操什么心,反而是看来比较简单的改格式是真的烦人,特别是论文经过多次来回,容易出现一些特别细微的地方出现问题,然后被打回来,然后改完等导师看,又是一天过去了,但是捏,codex和claude貌似原始形态来做格式对照效果并不好,可能是我的使用方法有问题,总之就是还会让我发现一些地方,或者干脆就特别明显,演都不演了那种。唯一比较好用的就是team的pro,倒是真的还不错,但是实际上也会有一点小问题,而且修改时间动则1h以上。 所以基于以上问题我在L站搜索了一下,发现貌似没有特别好的解决方案,于是就比较针对性的vibe了一个skills来解决这个问题,发现效果意外的还不错,但是难免会有一些粗糙的地方,所以分享在这里,抛砖引玉,看看能不能集众人之力来完善这个方案qwq github: GitHub - ooyyh/templates-papers-matching · GitHub 如果帮到你了~请给我一个star~ 2 个帖子 - 2 位参与者 阅读完整话题
Anthropic拉了两代,所以我的论文写作一直停留在Opus 4.6。最近fable 5出来了,有没有佬试过学术论文写作的效果?和Opus 4.6相比如何? 另外,各位佬的effort用的是哪个等级?在Opus中,我写作一般都使用Max,不知道对于fable 5来讲应该用哪个 10 个帖子 - 8 位参与者 阅读完整话题
想问一下各位佬,如果是读纯理论文章的话,claude搭配那个最好。用了cherry studio感觉效果不是很好。各位佬有什么好的科研工作流吗? 1 个帖子 - 1 位参与者 阅读完整话题
前言+思路来源 昨天我看论文的时候,看到一个很有意思的概念:“元编程”。其含义大概就是opus等处理完全没见过的编码语言问题时,会先将问题转化成python等他熟悉的语言脚本编写问题。然后再用脚本输出答案,而不是直接去编码,大大提高了正确率。 我就在想,对于ai来说,复杂任务的分析,是不是可以参考“元编程”的概念,再结合残差的先做一个基线,再在此基础上慢慢调优的想法,做一个复杂任务分析流程。 整体思路与实现的一些关键 先让ai将复杂问题转化成已知领域的问题,然后做一个基线的版本,再在此基础上调优,最后达到可交付版本的水准。 这样的话,也可以大幅度减少复杂任务分析时token的用量,即仅在一些关键节点时使用高性能模型,其他时候可用低性能模型。 我写了执行分工和任务等级判定模块,各位佬可以根据需求来写,包括如何判断等。 我是用的deepseek-v4-pro,所以我写的是一般都用思考等级“high”正常处理,仅在关键时刻用QQ发信息给我说要调“max”来进行更为复杂的处理。各位佬可以用不同的模型,我也测了用deepseek-v4-flash来处理一般问题,在复杂的时候提醒我用/model来手动切,效果也不错(我主要是嫌麻烦再加上deepseek真的便宜吧) 整体优化与规范化我让gpt-5.5帮我做的,skill文件分享在这里,各位佬根据需要来取,我的Agent是hermes的Agent,各位佬如果用的是别的Agent还请优化一下做个适配以后再用。 我没什么工程的经验,所以可能还有很多可以优化的地方,还请各位佬看看以后觉得有问题或者有可以优化的点的话还请告诉我,我会尽快去改的。 complex-task-protocol-v5.0.0-final.zip (4.3 KB) 笔者碎碎念 哦我的上帝,这deepseek的api也太便宜了,真的还有更有性价比的模型吗 参考论文: Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages (arXiv:2606.10933) Deep Residual Learning for Image Recognition (arXiv:1512.03385) 1 个帖子 - 1 位参与者 阅读完整话题
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 TLDR 上传论文PDF/BibTeX,自动提取并检测引用条目是否正确,是不是大模型生成的幻觉引用。 介绍 大模型在论文写作中的应用越来越广泛,但有很多论文投稿后因为引用条目中存在由大模型生成的幻觉引用而被直接拒稿。我曾经在投稿之前一条一条地手动搜索,检查自己的参考文献部分写得是否真实,这样机械重复的事情应该交给Agent来干。 所以我开发了ValiRef。只需要上传论文的PDF,ValiRef会自动提取里面的参考文献部分,并交给多个并行的Agent进行验证。不仅可以检测引用的论文是否存在,还可以验证论文实际上的内容和文中引用时的描述是否一致。 项目链接 github.com GitHub - Gianthard-cyh/ValiRef: detect hallucinated citations in academic papers. detect hallucinated citations in academic papers. 在线体验 http://valiref.com/ 演示截图 5 个帖子 - 3 位参与者 阅读完整话题
创作这个精读skill其实是有些故事的,因为博主最近有一些需要精读论文的任务,搜遍全网感觉没有能满足我的需求的,所以开发了这个skill,希望能帮助到和我一样状况的佬友们,大佬轻喷。 简单来说,skill的名称是 paper-reading-tutor ,很明显,他是一个类似于 导师 教你阅读论文的skill,灵感来源于我从小到大学习的一个习惯。 没错,就是: 需要一个了解你,专业知识强的人手把手教你 。在这种情况下,我对于任何知识点都能够非常快速的上手,我相信一定有不少佬友和我一样,而这个教人的角色从 老师->同学->AI 逐步的演化了下来,以前不会的要问老师,后面上中学老师忙碌找不到人,就会问班上厉害的大佬,或者是请教同桌,现在这个时代,我觉得AI完全可以取代这个工作,扮演这个角色。 介绍一下skill的功能和模块: 支持本地 PDF、 arXiv / DOI / OpenReview等论文链接、Markdown / HTML / text 转换版、论文标题、PDF 加已有笔记、PPT、部分总结输入,简单来说覆盖了绝大部分的输入方式,最好使用PDF,因为有的地方需要图。 skill输出模板(按顺序): 标题 :正在读的部分是哪个section?原文位置在哪? 中文翻译 :这一部分会展示这一部分的原文翻译,对特殊名词会展示为xxxx(啊吧啊吧)这样的格式,可能会有点臃肿,但是对于新手来说是极好的,虽然我知道,最后所有的论文阅读都要回归到English的原文阅读,培养语感、写作能力、风格,但是对于新手来说,那都是后话了,到时候再去修改skill的侧重也来得及。 导读 :这部分是我设想的核心内容,也是这个skill中最重要的内容,在这部分,LLM会表现为一个mentor(导师),来一步一步的教你怎么阅读、知识点的内容、写作的特点等等…对于新手来说,最重要的不是读多少文章,而是能够在阅读的过程中,弄清楚里面的知识,并且搞清楚为什么某某顶会的作者要这么写?(写作的艺术),假如一篇文章能阅读完毕这些细节精华,比粗读10篇文章带来的收益都更多。 当然每一个人对于论文的要求都不一样,在这里我认为每一个人去定制化的修补、DIY属于自己的skill才是最完美的解决方案 问题 :这一部分是我自己的一些感悟理解,因为自己阅读一篇文章,不说一知半解了,就算是读明白,可能也还是有一些地方没有注意到,特别是对于新手而言,所以要LLM提出一些问题,不一定是要求你回答,也是给你提供一些新的思路,怎么样去用什么角度分析一篇文章的内容 纠偏 :这部分仁者见仁智者见智,有的人比较厌恶这么复杂的询问,因为他们基本上读一遍就全了解了,但是有的呆呆的(博主)就很需要来提醒一下自己,所以这部分各位佬友也可以根据自己的时间、心情、状态来进行跳过。 记录 :每次阅读完一段,LLM会帮助记录聊天和知识点的笔记,包括不太了解的部分,方便后续查看 skill还有些特点 : AI会自动判断这篇论文应该以一种什么级别的精读方式进行阅读 :这一部分说白了比较黑盒,但是默认分类规则是按照分区和CCF等级来进行划分的、会根据综述/方法文、引用来进行综合分析,有可能会将一些好文章筛选掉,此时用户需要针对这篇论文对自己的重要性进行定制化分析(老师给的?自己找的?AI找的?) 针对Method和Experiment部分会进行细读 :简单来说就是abstract、intro这些,会一大段一大段的讲解,但是到了method和exp部分这种重要的内容,会一小节小节的进行讲解分析,对于新手来说非常友好 图文同步 :阅读的过程中,会通过原PDF进行截图,将原文需要了解的图直接输出,方便阅读的效率,不用zotero什么的来回切换,同时 LateX 公式代码也会直接渲染出来,方便解析和阅读 保证所有的背景知识都是强制联网搜索验证 :所有的背景知识、以及不确定的信息,都是强制联网搜索的,所以基本上不会出现大问题 剧透 总体来说,都是方便读者去阅读的一些安排, 最后想和各位佬友说的是,我自己其实也是一个新手,所以站在新手的角度来说,这对我来说是最合适的,不仅仅是应付各种任务:组会、汇报… 更多的是对自己的提高(学术审美,风格,知识等等),同时也证明了此skill并不一定适合所有人,因为每个人的学习进度和要求都不一样, 我希望我的skill能作为一个粗糙的模板,启发不同的人去自定义,创造自己的学习方法 ,共勉。 paper-reading-tutor.zip (14.3 KB) 3 个帖子 - 3 位参与者 阅读完整话题
最近我给自己搭了一套自动化流程:每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目,然后自动筛选、整理、生成中文摘要,最后沉淀成日报。 这套系统的目标很简单: 不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿,而是让 AI Agent 每天帮我完成第一轮信息筛选。 我用的是 OpenClaw ,主要让它承担三件事: 定时抓取 arXiv 最新论文和 GitHub 热门项目; 按主题、质量和工程价值做过滤; 自动生成中文摘要、深度解读和每日归档。 这篇文章简单分享一下系统是怎么搭的,以及目前踩到的一些坑。 1. 为什么要做这套东西? 如果你关注 AI 工程化,信息源会非常碎: arXiv 每天都有大量新论文; GitHub Trending 每天都有新项目冒出来; Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告; 很多有价值的项目不是一开始就爆火,而是在小范围技术圈里先出现。 手动追踪的问题是: 很容易漏掉重要论文; GitHub Trending 噪声很大,很多项目只是短期热闹; 标题和 README 经常看起来很强,但实际工程价值一般; 每天都刷一遍非常耗时间。 所以我想做一个自动化系统,先让 Agent 帮我做“第一轮粗筛”,把候选论文和项目整理出来,再对其中高价值内容做中文精读。 2. 整体架构 目前流程大概是这样: 定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发 核心不是“抓取”,抓取其实不难。真正麻烦的是: 怎么过滤垃圾信息; 怎么避免每天重复写同一个方向; 怎么判断一个项目是不是真的值得看; 怎么让生成内容尽量可验证,而不是 AI 胡编。 3. 论文部分:从 arXiv 候选到中文精读 论文侧主要关注这些方向: RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ,例如: cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分 每篇论文进入候选池后,会先做基础解析: 标题 作者 arXiv ID 摘要 分类 发布时间 PDF 链接 关键词 然后做几层过滤: 主题相关性 :是否和 AI 工程化、RAG 、搜索、Agent 等方向有关; 新鲜度 :优先最近 1 个月,越新越优先; 机构/作者可信度 :顶级实验室、大厂、知名高校会加权,但不绝对迷信; 工程价值 :有没有方法、框架、评测或实践启发; 重复度 :是否和之前已经写过的主题过于接近。 通过过滤后,Agent 会读取论文摘要、PDF 或 HTML 版本,生成结构化产物: paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ,因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分:不只看 Star ,更看工程价值 GitHub Trending 的噪声非常大。 有些项目一天几千 Star ,但可能只是: 一个简单 UI 壳子; 复刻已有项目; README 写得很夸张; Demo 很漂亮,但代码不可复用; Star 暴涨,但最近维护质量一般。 所以我没有只按 Star 排序,而是做了几个维度: Star 总数; 最近增长速度; 最近 commit 活跃度; README 是否清晰; 是否有真实代码结构; 是否有 license ; 是否有 release / examples / docs ; 是否和 RAG 、Agent 、搜索、LLM 应用工程相关; 是否解决真实工程痛点。 一个项目进入精读流程前,至少要检查: repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害,大家快去看”的营销文,而是能回答几个问题: 它解决了什么问题? 它和已有方案相比有什么不同? 它的架构或实现有什么可复用点? 它现在成熟吗?适不适合生产使用? 如果我要试用,第一步应该看哪里? 5. 为什么用 OpenClaw ? 我需要的不是单次 ChatGPT 问答,而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点: 可以读写本地工作区文件; 可以跑脚本、定时任务; 可以维护长期记忆和每日日志; 可以把流程拆给多个子 Agent ; 可以把产物写成 Markdown / JSON / SQLite ; 可以接入公众号草稿、Discord 、QQ 等通知渠道。 换句话说,它更像一个“能干活的个人自动化工作台”,而不是只会聊天的模型。 当然,最重要的是:所有自动生成内容都要有检查门禁。比如: 没有来源链接不能进正式稿; 没读 primary source 不能写深度解读; 不能出现“待补充”“TODO”“正式发布前请检查”这类占位词; 标题不能为了吸引点击而歪曲论文或项目本意; GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出 现在我的目标是每天产出两类内容: 论文精读 :偏研究方法、技术路线、评测和启发; GitHub 项目精读 :偏架构、代码、工程价值和可落地性。 每日内容会先进入本地归档,再进入公众号草稿箱,最后人工检查后发布。 我也准备把其中一部分公开成 GitHub 仓库,作为每日 AI 论文和 GitHub Trending 的中文索引: 每日论文列表; 每日热门项目列表; 中文简介; 原始链接; 主题标签; 后续可能补充脚本。 完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤,否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤 如果 prompt 不约束,论文解读很容易变成: 本文提出了一种创新方法,显著提升了性能,具有重要意义。 这种话基本没信息量。 所以我现在要求每篇都必须回答: 方法具体是什么; 输入输出是什么; 对比基线是什么; 适用边界是什么; 工程上能学到什么。 7.3 需要保留证据文件 自动化写作最怕“看起来很完整,但来源不可查”。 所以每个 slot 都会保留来源文件,例如: arXiv 链接; PDF 链接; GitHub repo 链接; README 摘要; 关键文件路径; 生成时的判断理由。 这样后面出了问题可以回溯。 7.4 公众号不是终点,归档和分发更重要 如果内容只存在公众号里,后续搜索和复用都不方便。 所以我会同时保留: Markdown 版本; JSON 元数据; SQLite 主账本; GitHub 公开索引; 后续可能加网页展示。 8. 后续计划 接下来我想继续做几件事: 开源每日论文和 GitHub Trending 中文索引仓库; 加入更细的主题分类,比如 RAG 、Agent 、Search 、Evaluation ; 对高价值论文做系列化追踪; 对 GitHub 项目增加“可运行性”和“维护质量”评分; 把日报沉淀成一个可搜索的 AI 工程知识库。 如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报,欢迎交流。 我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。 最后放一句软广:如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地,可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。 也把文章放在了 github: https://github.com/AltenLi/daily-paper-github-trends
最近我给自己搭了一套自动化流程:每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目,然后自动筛选、整理、生成中文摘要,最后沉淀成日报。 这套系统的目标很简单: 不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿,而是让 AI Agent 每天帮我完成第一轮信息筛选。 我用的是 OpenClaw ,主要让它承担三件事: 定时抓取 arXiv 最新论文和 GitHub 热门项目; 按主题、质量和工程价值做过滤; 自动生成中文摘要、深度解读和每日归档。 这篇文章简单分享一下系统是怎么搭的,以及目前踩到的一些坑。 1. 为什么要做这套东西? 如果你关注 AI 工程化,信息源会非常碎: arXiv 每天都有大量新论文; GitHub Trending 每天都有新项目冒出来; Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告; 很多有价值的项目不是一开始就爆火,而是在小范围技术圈里先出现。 手动追踪的问题是: 很容易漏掉重要论文; GitHub Trending 噪声很大,很多项目只是短期热闹; 标题和 README 经常看起来很强,但实际工程价值一般; 每天都刷一遍非常耗时间。 所以我想做一个自动化系统,先让 Agent 帮我做“第一轮粗筛”,把候选论文和项目整理出来,再对其中高价值内容做中文精读。 2. 整体架构 目前流程大概是这样: 定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发 核心不是“抓取”,抓取其实不难。真正麻烦的是: 怎么过滤垃圾信息; 怎么避免每天重复写同一个方向; 怎么判断一个项目是不是真的值得看; 怎么让生成内容尽量可验证,而不是 AI 胡编。 3. 论文部分:从 arXiv 候选到中文精读 论文侧主要关注这些方向: RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ,例如: cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分 每篇论文进入候选池后,会先做基础解析: 标题 作者 arXiv ID 摘要 分类 发布时间 PDF 链接 关键词 然后做几层过滤: 主题相关性 :是否和 AI 工程化、RAG 、搜索、Agent 等方向有关; 新鲜度 :优先最近 1 个月,越新越优先; 机构/作者可信度 :顶级实验室、大厂、知名高校会加权,但不绝对迷信; 工程价值 :有没有方法、框架、评测或实践启发; 重复度 :是否和之前已经写过的主题过于接近。 通过过滤后,Agent 会读取论文摘要、PDF 或 HTML 版本,生成结构化产物: paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ,因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分:不只看 Star ,更看工程价值 GitHub Trending 的噪声非常大。 有些项目一天几千 Star ,但可能只是: 一个简单 UI 壳子; 复刻已有项目; README 写得很夸张; Demo 很漂亮,但代码不可复用; Star 暴涨,但最近维护质量一般。 所以我没有只按 Star 排序,而是做了几个维度: Star 总数; 最近增长速度; 最近 commit 活跃度; README 是否清晰; 是否有真实代码结构; 是否有 license ; 是否有 release / examples / docs ; 是否和 RAG 、Agent 、搜索、LLM 应用工程相关; 是否解决真实工程痛点。 一个项目进入精读流程前,至少要检查: repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害,大家快去看”的营销文,而是能回答几个问题: 它解决了什么问题? 它和已有方案相比有什么不同? 它的架构或实现有什么可复用点? 它现在成熟吗?适不适合生产使用? 如果我要试用,第一步应该看哪里? 5. 为什么用 OpenClaw ? 我需要的不是单次 ChatGPT 问答,而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点: 可以读写本地工作区文件; 可以跑脚本、定时任务; 可以维护长期记忆和每日日志; 可以把流程拆给多个子 Agent ; 可以把产物写成 Markdown / JSON / SQLite ; 可以接入公众号草稿、Discord 、QQ 等通知渠道。 换句话说,它更像一个“能干活的个人自动化工作台”,而不是只会聊天的模型。 当然,最重要的是:所有自动生成内容都要有检查门禁。比如: 没有来源链接不能进正式稿; 没读 primary source 不能写深度解读; 不能出现“待补充”“TODO”“正式发布前请检查”这类占位词; 标题不能为了吸引点击而歪曲论文或项目本意; GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出 现在我的目标是每天产出两类内容: 论文精读 :偏研究方法、技术路线、评测和启发; GitHub 项目精读 :偏架构、代码、工程价值和可落地性。 每日内容会先进入本地归档,再进入公众号草稿箱,最后人工检查后发布。 我也准备把其中一部分公开成 GitHub 仓库,作为每日 AI 论文和 GitHub Trending 的中文索引: 每日论文列表; 每日热门项目列表; 中文简介; 原始链接; 主题标签; 后续可能补充脚本。 完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤,否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤 如果 prompt 不约束,论文解读很容易变成: 本文提出了一种创新方法,显著提升了性能,具有重要意义。 这种话基本没信息量。 所以我现在要求每篇都必须回答: 方法具体是什么; 输入输出是什么; 对比基线是什么; 适用边界是什么; 工程上能学到什么。 7.3 需要保留证据文件 自动化写作最怕“看起来很完整,但来源不可查”。 所以每个 slot 都会保留来源文件,例如: arXiv 链接; PDF 链接; GitHub repo 链接; README 摘要; 关键文件路径; 生成时的判断理由。 这样后面出了问题可以回溯。 7.4 公众号不是终点,归档和分发更重要 如果内容只存在公众号里,后续搜索和复用都不方便。 所以我会同时保留: Markdown 版本; JSON 元数据; SQLite 主账本; GitHub 公开索引; 后续可能加网页展示。 8. 后续计划 接下来我想继续做几件事: 开源每日论文和 GitHub Trending 中文索引仓库; 加入更细的主题分类,比如 RAG 、Agent 、Search 、Evaluation ; 对高价值论文做系列化追踪; 对 GitHub 项目增加“可运行性”和“维护质量”评分; 把日报沉淀成一个可搜索的 AI 工程知识库。 如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报,欢迎交流。 我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。 最后放一句软广:如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地,可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。 也把文章放在了 github: https://github.com/AltenLi/daily-paper-github-trends
最近我给自己搭了一套自动化流程:每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目,然后自动筛选、整理、生成中文摘要,最后沉淀成日报。 这套系统的目标很简单: 不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿,而是让 AI Agent 每天帮我完成第一轮信息筛选。 我用的是 OpenClaw ,主要让它承担三件事: 定时抓取 arXiv 最新论文和 GitHub 热门项目; 按主题、质量和工程价值做过滤; 自动生成中文摘要、深度解读和每日归档。 这篇文章简单分享一下系统是怎么搭的,以及目前踩到的一些坑。 1. 为什么要做这套东西? 如果你关注 AI 工程化,信息源会非常碎: arXiv 每天都有大量新论文; GitHub Trending 每天都有新项目冒出来; Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告; 很多有价值的项目不是一开始就爆火,而是在小范围技术圈里先出现。 手动追踪的问题是: 很容易漏掉重要论文; GitHub Trending 噪声很大,很多项目只是短期热闹; 标题和 README 经常看起来很强,但实际工程价值一般; 每天都刷一遍非常耗时间。 所以我想做一个自动化系统,先让 Agent 帮我做“第一轮粗筛”,把候选论文和项目整理出来,再对其中高价值内容做中文精读。 2. 整体架构 目前流程大概是这样: 定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发 核心不是“抓取”,抓取其实不难。真正麻烦的是: 怎么过滤垃圾信息; 怎么避免每天重复写同一个方向; 怎么判断一个项目是不是真的值得看; 怎么让生成内容尽量可验证,而不是 AI 胡编。 3. 论文部分:从 arXiv 候选到中文精读 论文侧主要关注这些方向: RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ,例如: cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分 每篇论文进入候选池后,会先做基础解析: 标题 作者 arXiv ID 摘要 分类 发布时间 PDF 链接 关键词 然后做几层过滤: 主题相关性 :是否和 AI 工程化、RAG 、搜索、Agent 等方向有关; 新鲜度 :优先最近 1 个月,越新越优先; 机构/作者可信度 :顶级实验室、大厂、知名高校会加权,但不绝对迷信; 工程价值 :有没有方法、框架、评测或实践启发; 重复度 :是否和之前已经写过的主题过于接近。 通过过滤后,Agent 会读取论文摘要、PDF 或 HTML 版本,生成结构化产物: paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ,因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分:不只看 Star ,更看工程价值 GitHub Trending 的噪声非常大。 有些项目一天几千 Star ,但可能只是: 一个简单 UI 壳子; 复刻已有项目; README 写得很夸张; Demo 很漂亮,但代码不可复用; Star 暴涨,但最近维护质量一般。 所以我没有只按 Star 排序,而是做了几个维度: Star 总数; 最近增长速度; 最近 commit 活跃度; README 是否清晰; 是否有真实代码结构; 是否有 license ; 是否有 release / examples / docs ; 是否和 RAG 、Agent 、搜索、LLM 应用工程相关; 是否解决真实工程痛点。 一个项目进入精读流程前,至少要检查: repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害,大家快去看”的营销文,而是能回答几个问题: 它解决了什么问题? 它和已有方案相比有什么不同? 它的架构或实现有什么可复用点? 它现在成熟吗?适不适合生产使用? 如果我要试用,第一步应该看哪里? 5. 为什么用 OpenClaw ? 我需要的不是单次 ChatGPT 问答,而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点: 可以读写本地工作区文件; 可以跑脚本、定时任务; 可以维护长期记忆和每日日志; 可以把流程拆给多个子 Agent ; 可以把产物写成 Markdown / JSON / SQLite ; 可以接入公众号草稿、Discord 、QQ 等通知渠道。 换句话说,它更像一个“能干活的个人自动化工作台”,而不是只会聊天的模型。 当然,最重要的是:所有自动生成内容都要有检查门禁。比如: 没有来源链接不能进正式稿; 没读 primary source 不能写深度解读; 不能出现“待补充”“TODO”“正式发布前请检查”这类占位词; 标题不能为了吸引点击而歪曲论文或项目本意; GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出 现在我的目标是每天产出两类内容: 论文精读 :偏研究方法、技术路线、评测和启发; GitHub 项目精读 :偏架构、代码、工程价值和可落地性。 每日内容会先进入本地归档,再进入公众号草稿箱,最后人工检查后发布。 我也准备把其中一部分公开成 GitHub 仓库,作为每日 AI 论文和 GitHub Trending 的中文索引: 每日论文列表; 每日热门项目列表; 中文简介; 原始链接; 主题标签; 后续可能补充脚本。 完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤,否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤 如果 prompt 不约束,论文解读很容易变成: 本文提出了一种创新方法,显著提升了性能,具有重要意义。 这种话基本没信息量。 所以我现在要求每篇都必须回答: 方法具体是什么; 输入输出是什么; 对比基线是什么; 适用边界是什么; 工程上能学到什么。 7.3 需要保留证据文件 自动化写作最怕“看起来很完整,但来源不可查”。 所以每个 slot 都会保留来源文件,例如: arXiv 链接; PDF 链接; GitHub repo 链接; README 摘要; 关键文件路径; 生成时的判断理由。 这样后面出了问题可以回溯。 7.4 公众号不是终点,归档和分发更重要 如果内容只存在公众号里,后续搜索和复用都不方便。 所以我会同时保留: Markdown 版本; JSON 元数据; SQLite 主账本; GitHub 公开索引; 后续可能加网页展示。 8. 后续计划 接下来我想继续做几件事: 开源每日论文和 GitHub Trending 中文索引仓库; 加入更细的主题分类,比如 RAG 、Agent 、Search 、Evaluation ; 对高价值论文做系列化追踪; 对 GitHub 项目增加“可运行性”和“维护质量”评分; 把日报沉淀成一个可搜索的 AI 工程知识库。 如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报,欢迎交流。 我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。 最后放一句软广:如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地,可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。 也把文章放在了 github: https://github.com/AltenLi/daily-paper-github-trends
我们的呢,整天在造假。。。。
我们的呢,整天在造假。。。。
论文是这篇 2 个帖子 - 2 位参与者 阅读完整话题
提前声明,测试不一定严谨,仅供参考,图一乐测试 从 现在写英语文章最好的大模型是什么? 继续讨论: 最近导师看我的论文中文稿大概没啥问题了,就让我开始翻译成中文。但是因为自身英语水平过差,所以决定让大模型直接编辑我的letex文件包,然后翻译我的论文。用以下提示词: 翻译提示词 (点击了解更多详细信息) 参赛选手: 如题所示,我邀请了11位当前最新的大模型来翻译文献,它们分别是gpt-5.5,claude-opus-4.8( 截至发文,它已不是最新,但是最新的用不起 ),Doubao-Seed-2.0-Code,deepseek-v4-pro,deepseek-v4-flash,Gemini-3.5-flash,GLM-5.1,kimi-k2.5,mimo-v2.5pro,minimax-m3,qwen-3.7max。如果还有遗漏的最新模型,那就是没搞到好的渠道。 评分: 裁判员gpt-5.5 每个模型的翻译结果分别打分三次,求平均值 环境: coding agent用的是站内佬@Mufasa_Dot 的 snow cli ,使用了里面的ultra todo模式;只有Doubao-Seed-2.0-Code是在trea里面用的; 正如上所述,除了豆包,其余的都是直接用能保证满血的api接入的snow, 到处找满血api真的是幸苦啊,这反而是花时间最久的环节 能设置推理强度的皆设置为最高。 结果: 因为我的要求是不仅要翻译好,而且还要把latex写对写好,所以实际上任务除了翻译维度的评估之外,还需要看是否熟练掌握latex语法,让文本编译正确,所以首先给出一下我要求的维度的结果: 总分排名 排名 模型 第1次 第2次 第3次 平均分 / 92 1 deepseek-v4-pro 80 80 80 80.00 2 claude-opus4.8 79 80 79 79.33 3 mimo-v2.5pro 80 79 78 79.00 4 deepseek-v4-flash 77 79 80 78.67 5 minimax-m3 79 78 78 78.33 6 qwen-3.7-max 78 79 77 78.00 7 gpt5.5 79 77 76 77.33 8 glm-5.1 76 78 73 75.67 9 gemini-3.5flash 76 74 76 75.33 10 kimi-k2.6 77 76 71 74.67 11 doubao-2.0-code 61 71 65 65.67 各能力维度平均分 模型 平均总分 / 92 内容忠实与逻辑一致 /25 术语准确与一致 /18 英文准确与简洁 /17 学术风格与自然度 /12 时态与论文叙述 /8 LaTeX与源码一致 /12 deepseek-v4-pro 80.00 23.00 15.00 14.00 10.00 8.00 10.00 claude-opus4.8 79.33 23.00 15.00 14.00 10.00 7.67 9.67 mimo-v2.5pro 79.00 22.33 14.67 14.00 10.00 8.00 10.00 deepseek-v4-flash 78.67 23.00 15.00 14.33 10.00 7.33 9.00 minimax-m3 78.33 23.00 15.00 14.00 10.00 7.33 9.00 qwen-3.7-max 78.00 21.67 14.00 14.33 10.00 8.00 10.00 gpt5.5 77.33 21.33 15.00 14.00 10.00 7.67 9.33 glm-5.1 75.67 21.33 14.33 13.67 9.67 7.67 9.00 gemini-3.5flash 75.33 21.33 14.00 13.00 9.00 7.67 10.33 kimi-k2.6 74.67 22.33 14.00 13.00 9.00 8.00 10.00 doubao-2.0-code 65.67 16.33 14.00 12.33 8.33 7.33 7.33 多数结果其实跟大家的印象是一样的,deepseek和claude的语言能力还是相对来说很强大,但是deepseek便宜多了,翻译我这一篇论文只用了几毛钱;豆包能力这么次,不知道是因为模型本身的问题还是trea这个工具太差了。但是可能让佬友们比较意外的可能是mimo和minimax两位能在前面,还有就是部分国模还能排在gpt后面,不过5.5也确实是改了自己的说话风格,可能也不奇怪(?)。另外,除了后面几位之外,实际上前几名的分数都差不多,T1大概就是ds、claude、mimo这几位了。 当然,正如我所说,我的这个任务同时是需要latex语法编译的,所以不是纯翻译,等于是顺便测试了一点编程能力,为了直观,下面也展示了去掉了letax相关的结果 总分排名 排名 模型 第1次 第2次 第3次 平均分 / 80 排名变化 1 deepseek-v4-pro 70 70 70 70.00 — 2 claude-opus4.8 69 70 70 69.67 — 3 deepseek-v4-flash 69 69 71 69.67 ↑1 4 minimax-m3 70 69 69 69.33 ↑1 5 mimo-v2.5pro 70 69 68 69.00 ↓2 6 gpt5.5 69 68 67 68.00 ↑1 7 qwen-3.7-max 68 69 67 68.00 ↓1 8 glm-5.1 67 68 65 66.67 — 9 gemini-3.5flash 65 64 66 65.00 — 10 kimi-k2.6 67 66 61 64.67 — 11 doubao-2.0-code 56 62 57 58.33 — 各能力维度平均分 模型 平均总分 / 80 内容忠实与逻辑一致 /25 术语准确与一致 /18 英文准确与简洁 /17 学术风格与自然度 /12 时态与论文叙述 /8 deepseek-v4-pro 70.00 23.00 15.00 14.00 10.00 8.00 claude-opus4.8 69.67 23.00 15.00 14.00 10.00 7.67 deepseek-v4-flash 69.67 23.00 15.00 14.33 10.00 7.33 minimax-m3 69.33 23.00 15.00 14.00 10.00 7.33 mimo-v2.5pro 69.00 22.33 14.67 14.00 10.00 8.00 gpt5.5 68.00 21.33 15.00 14.00 10.00 7.67 qwen-3.7-max 68.00 21.67 14.00 14.33 10.00 8.00 glm-5.1 66.67 21.33 14.33 13.67 9.67 7.67 gemini-3.5flash 65.00 21.33 14.00 13.00 9.00 7.67 kimi-k2.6 64.67 22.33 14.00 13.00 9.00 8.00 doubao-2.0-code 58.33 16.33 14.00 12.33 8.33 7.33 这就是纯翻译能力了,如果latex格式可以自己调整,或者根本不需要直接latex,只看翻译水平,那就只看这个结果。 写在最后 其实kimi和minimax都出现过几次死循环,但是还是给了几次机会,对其他参赛选手来说可能有点不公平,这两个死循环的模型应该直接给零分才对,但因为测试的重点还是翻译,所以就还是希望他们给出结果来。 实际上我也知道这个测试可能让一个模型多翻译几次分别给分才算严谨,但是我已经没有这么多精力去搞了。 所以才说大家看个乐,能给到有需求的佬参考就更好了 1 个帖子 - 1 位参与者 阅读完整话题
我们的呢,整天在造假。。。。
我们的呢,整天在造假。。。。
我们的呢,整天在造假。。。。
我们的呢,整天在造假。。。。
我们的呢,整天在造假。。。。
我们的呢,整天在造假。。。。