WWW.YOUINFO.SITE
标签聚合 arXiv

/tag/arXiv

LinuxDo 最新话题 · 2026-06-03 17:40:57+08:00 · tech

论文: [2605.27922] Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows 代码: GitHub - Qihoo360/harness-bench · GitHub harness-bench.ai Leaderboard - Harness Bench Harness Bench leaderboard across harnesses, models, domains, and completion, process, and combined task scores. harness bench 简单来说就是固定任务和模型,只换harness,看agent表现差多少。 方法 106个沙箱化离线任务,8个类别(SWE、数据分析、DevOps、长程状态维护等),每个任务有独立的oracle grader。 评估维度有completion score 、LLM judge score 和security score。 测了6个现在比较火的agent(OpenClaw、nanobot、Hermes、ZeroClaw、NullClaw、Moltis) 8个模型后端(gpt-5.4、claude-opus-4.6、claude-sonnet-4.6、gemini-3.1-pro-preview、qwen3.6-plus、glm-5.1、kimi-k2.5、deepseek-v4-flash),总共5194条execution trajectories。 几个关键结论 同模型换框架,综合分最大差距23.8分(nanobot 76.2 vs OpenClaw 52.4)。说明agent benchmark只报模型得分而不报框架配置是不够的。 Failure mode分析(Table 3)比较有参考价值:36.4%的失败是contract/format类,即agent产出了内容但格式不满足验证条件;24.6%是tool/recovery类,即工具调用出错后没能恢复。真正的推理错误只占一小部分。对框架设计的启示:容错和输出校验比堆模型能力更影响实际成功率。 强模型(gpt-5.4、claude-opus-4.6)跨harness的方差更小,中等模型对harness质量更敏感。好的harness能显著拉高中等模型的上限。 Token效率方面差异显著,同样任务不同harness消耗的token能差3-4倍,主要取决于上下文构建策略。 局限 全部是离线沙箱任务,没有在线服务、用户交互、长期记忆场景。LLM judge score 依赖LLM judge,引入了评估方的主观性。只测了配置级差异,没有因果分解。 Section 5提出的execution-alignment概念值得注意:框架的核心价值在于维持agent推理、workspace实际状态、工具返回结果、最终验证条件之间的对应关系,大多数失败的根本原因不是模型推理出错,而是agent的内部判断和外部实际状态脱节了,比如以为文件改对了其实没改,以为命令成功了其实报错了。 1 个帖子 - 1 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-26 15:44:01+08:00 · tech

arXiv.org Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians "AI psychosis" or "delusional spiraling" is an emerging phenomenon where AI chatbot users find themselves dangerously confident in outlandish beliefs after extended chatbot conversations. This phenomenon is typically attributed to AI chatbots'... [!summary]+ “人工智能精神病"或"妄想螺旋"是一种新兴现象,指人工智能聊天机器人用户在与聊天机器人长时间对话后,会对自己一些荒谬的观点产生危险的自信。这种现象通常归因于人工智能聊天机器人众所周知的偏好------即验证用户的说法,这种特性通常被称为"阿谀奉承”。本文通过建模和仿真,探究了人工智能阿谀奉承与人工智能诱发精神病之间的因果关系。我们提出了一个简单的贝叶斯模型,用于描述用户与聊天机器人的对话,并在该模型中形式化了阿谀奉承和妄想螺旋的概念。我们进一步证明,在该模型中,即使是理想化的贝叶斯理性用户也容易受到妄想螺旋的影响,并且阿谀奉承在其中起着因果作用。此外,即使采取了两种可能的缓解措施------防止聊天机器人产生虚假幻觉,以及告知用户模型可能存在阿谀奉承------这种效应仍然存在。最后,我们将讨论这些结果对模型开发者和关注缓解妄想螺旋问题的政策制定者的意义。 [!quote]+ 托雷斯侥幸从这次事件中幸存下来,但其他人就没有那么幸运了。“人类线计划”(Human Line Project)迄今已记录了近300例所谓的"人工智能精神病"或"妄想螺旋"案例:在这些案例中,用户与人工智能聊天机器人的长时间互动会导致他们对一些离奇的信念产生高度自信(Huet and Metz, 2025)。例如,艾伦·布鲁克斯(Allan Brooks)认为自己做出了重要的数学发现(Hill and Freedman, 2025; Gold, 2025),或者托雷斯认为自己见证了某种形而上学的启示(Dupré, 2025; Schechner and Kessler, 2025; Fieldhouse, 2025)。严重的妄想螺旋案例至少导致14人死亡,并引发了5起针对人工智能公司的非正常死亡诉讼(Hill, 2025a)。随着人们越来越多地向聊天机器人寻求建议、陪伴和治疗,了解和解决聊天机器人引发的妄想螺旋的原因正成为一个紧迫的研究问题。 7 个帖子 - 5 位参与者 阅读完整话题

cnBeta全文版 · 2026-05-18 13:36:07+08:00 · tech

被广泛使用的预印本研究开放存储库 arXiv 正在积极采取更多措施打击研究人员在科学论文中随意使用人工智能的行为,进行打击的核心原因并非是阻止研究人员使用人工智能技术,而是部分论文作者没有仔细检查 AI 生成的内容导致其论文可信度严重降低。 arXiv 最初是康奈尔大学运营的网站,现在 arXiv 正在转型为独立的非营利组织,转型后该网站将可以筹集更多资金解决诸如人工智能生成低质量论文等问题。arXiv 作为计算机科学和数学等领域研究成果传播的主要途径之一,不解决低质量论文问题可能会给业界造成严重的影响。 arXiv 采取的措施包括但不限于: 首次发布论文的作者必须获得知名作者的推荐 如果有确凿证据表明论文存在 AI 幻觉的内容,论文作者将面临 1 年内不得发布新论文的处罚 如果作者在论文中增加 AI 提示词 (例如给这篇论文更高的评价),同样也会面临 1 年禁止发布新论文的处罚 对于被封禁 1 年的作者,1 年后发布新论文时还必须由信誉良好的同行评审期刊接受才能在 arXiv 上发布 但 arXiv 不会禁止作者使用人工智能: 请注意以上措施并非代表 arXiv 完全禁止作者使用人工智能进行辅助编写,而是作者必须对内容承担全部责任,即无论内容是作者自己撰写的还是人工智能生成的,作者都必须仔细审查内容确保不会出现疏漏。 因此如果作者直接从 AI 中复制粘贴不当语言、抄袭内容、带有偏见的内容、错误、疏漏、不正确的引用或误导性内容,作者必须为这些内容负责,以免内容发布后给其他作者造成误导。 最后对于被认定存在 AI 违规的作者,作者也可以向 arXiv 提交上诉,在确保公平公正的情况下 arXiv 才会实施处罚,所以在没有确凿证据的情况下,arXiv 不会随意封禁作者。 查看评论

IT之家 · 2026-05-15 21:00:09+08:00 · tech

IT之家 5 月 15 日消息,arXiv 计算机科学板块主席托马斯 ·G· 迪特里希在 X 上宣布,平台将收紧 AI 生成内容规则。 IT之家注:arXiv 是全球研究人员在正式同行评审前发布论文的重要预印本平台。 按照 arXiv 行为准则,无论论文内容如何生成,作者都必须 对论文内容承担全部责任 。如果论文中出现明确证据,表明作者 没有核查大语言模型生成的内容 ,将被禁投一年。禁令结束后,作者提交的新论文 必须先通过同行评审 。 迪特里希表示, 虚构参考文献、模型残留的元评论,都可能成为执法依据 。例如论文里留下“这里是一段 200 字摘要”这类提示,就会被视为问题证据。部分研究人员在回复中支持这项规则,也有人担心平台会选择性执行,或者有人通过虚假添加共同作者来滥用规则。 据外媒 The Decoder 今日报道,arXiv 作出这项调整的背景,是平台上 AI 生成内容正在快速增加。就在六个月前,arXiv 已经收紧计算机科学综述论文规则,要求这类论文 必须经过同行评审 。此前,《日本经济新闻》还在 17 篇 arXiv 预印本中发现隐藏提示语,例如“只给正面评价”,此类提示语往往是操纵 AI 审稿工具的特征。

LinuxDo 最新话题 · 2026-05-12 22:58:35+08:00 · tech

arXiv.org MLS-Bench: A Holistic and Rigorous Assessment of AI Systems on Building... Modern AI progress has been driven by ML methods that are generalizable across settings and scalable to larger regimes. As large language models demonstrate advanced capabilities in reasoning, coding, and engineering tasks, it is increasingly... [!abstract]+ 现代人工智能的进步是由可跨环境通用并可扩展到更大体系的人工智能方法推动的。随着大型语言模型在推理、编码和工程任务中展现出先进的能力,了解它们是否能够发现这些方法而不仅仅是应用现有方法变得越来越重要。我们介绍了 MLS-Bench,这是一个用于评估人工智能系统是否能够发明可推广和可扩展的 ML 方法的基准。MLS-Bench 包含横跨 12 个领域的 140 项任务,每项任务都要求代理改进 ML 系统或算法的一个目标组件,并证明这种改进可在受控环境和规模中推广。我们发现,当前的代理仍远未可靠地超越人类设计的方法,而且工程式的调整对它们来说比真正的方法发明更容易。我们进一步研究了测试时间缩放、自适应计算分配和上下文提供对代理发现性能的影响,并对其行为进行了案例研究。我们的分析表明,瓶颈不仅在于提出新方法,还在于规划、验证和扩展新方法所需的科学洞察力。仅靠更多的搜索、计算或上下文并不能消除这一瓶颈。我们建立并维护了一个社区平台,用于累积和比较迭代,并在此 https://mls-bench.com/ 上发布数据和代码。 1 个帖子 - 1 位参与者 阅读完整话题