在 https://livebench.ai/ 中 Fable 5 并没有相当超前 跟Opus 4.5,4.6,4.7,4.8 评分相当接近 这是为什么? 难道是因为拒绝回答? 已知Fable,Mythos 5在Graphicwalks 接近满分表现 2 个帖子 - 2 位参与者 阅读完整话题
最近几个月感觉多了好多东西,ldc,idc,评分站,虽然到三级了但是感觉对站内的熟悉跟小白一样。去年刚进站之后就大量刷贴,基本也只使用过这个功能,很多其他的模块也一直没有去探索。想问一下有没有对L站各个分区总结的帖子 11 个帖子 - 5 位参与者 阅读完整话题
省流版: 关于评分与实际体验 模型的扣分 不完全 体现实际编程体验,因此榜单按 实际交互体验 对模型进行分档: 档位 定义 A 几乎不犯错,仅出现微小的 UI/交互类问题 B 大概率会错,但描述错误后可在 ≤2 轮 内修复 C 大概率会错,需更多轮交互,但模型能 自主推进修复 ,无需人工辅助 D 必须由人工提供大量 log、视觉描述、协助操作等才能修复 F 知识或方法论不足,即便有人帮助也无法完成任务 同档位中,若仅少数轮次出现问题、大部分情况表现良好,升半档,以 B+ 、 C+ 表示。 通关机制 :A 评级视作该模型在对应题目上通关,新版本默认跳过已通关题目。例如 Opus 4.8 跳过了 C 和 D 题。 完整榜单: LLM Benchmark Dashboard 完整评测内容: 大语言模型-逻辑能力横评 26-05 月榜 (Opus/Qwen/Gemini) - 知乎 1 个帖子 - 1 位参与者 阅读完整话题
反转了反转了,过去我们给 AI 跑分,今天 Claude 开始反手给人类打分!它会通过 11 个指标来分析你和它的历史对话,判断你使用 AI 的水平高低。在 AI 眼里,你是高手还是萌新? 倒反天罡,AI 开始给人类打分了! 搞出这个功能的,还是那个抽象的 Anthropic。 这个功能虽然目前还在灰度测试阶段,但已经在海外 AI 圈迅速传开了。 AI 是怎么给人类打分的? 想象一下这个画面:你打开 Claude 的设置面板,点开一个名为「AI Fluency」的专属屏幕,点击生成报告。 几秒钟后,一份关于你 AI 使用习惯的「体检报告」就赫然出现在眼前。 它不仅扫描了你在 Chat(日常对话)、Cowork(协作空间)甚至硬核的 Claude Code 里的每一次交互,还会根据一套严密的标准进行打分(满分 11 分)。 已经有手速快的网友分享出 AI 给自己的评价了 ——7.5 分。 更可怕的是,AI 的评价可谓是一针见血,直戳痛点。 这位网友分享了 Claude 给他的弱点分析:「比如,报告指出我极其频繁地使用各种 Connector,但只要话题涉及体育数据、食谱,甚至地图和地理位置,我就表现得一无所知。」 甚至,Claude 不仅指出了他的问题,还直接上手给出了指导:比如「主动通过情境激发 AI 的敏锐辨别力」,以及「在让我写第一稿之前,试着对我说 —— 给我一个简洁的要点摘要,不要任何前言废话。这样能让你的初稿干净得多」。 太恐怖了,这哪里是冷冰冰的软件,简直是一个拿着教鞭、对你恨铁不成钢的赛博导师。 还有网友激动地发帖寻找共鸣:「我也看到了!我特地跑来论坛确认我没疯!我生成了报告,结果回到笔记本电脑前,服务器报了个错,功能就消失了!」 现在,这个惊鸿一瞥的泄露,把人们的胃口吊到了极点。 大家都在好奇:这 11 项打分标准,到底是什么? 近万份匿名对话揭秘,何为「AI 流利度」? 要搞清楚这 11 项标准,我们必须把时间线拉回到 Anthropic 发布的那份极具前瞻性的硬核研究 ——《AI 流利度指数报告》。 在过去,我们总以为「会写复杂的提示词」就是懂 AI。但 Anthropic 认为,这种观念太狭隘了。随着模型越来越聪明,死记硬背提示词模板已经过时了。 真正的高手,掌握的是一种被称为「AI 流利度」的软技能。就像你熟练掌握一门外语一样,流利度意味着你能自然、高效、无缝地与 AI 协作。 为了量化这种玄学,Anthropic 联合学术界的 Rick Dakan 和 Joseph Feller 教授,提出了著名的「4D AI 流利度框架」。 研究团队动用了强大的隐私保护分析工具(全程无人工干预,用 Claude 4 负责行为分类,Claude 3.5 Haiku 负责语言检测),在一个疯狂的星期里,对 9830 段真实的、多轮拉扯的匿名人类对话进行了深度扫描。 他们惊讶地发现:这世上的 AI 用户,差距比人和狗都大。 在 24 项衡量人机协作的终极标准中,有 13 项发生在屏幕之外(比如你是否对老板隐瞒了工作是 AI 做的,你是否考虑了 AI 生成内容的伦理后果等),而剩下的 11 项,则是可以在聊天框里直接观测到的绝对指标。 每种 AI 流畅度行为指标在 9,830 次 Claude.ai 对话中的流行率,按能力从最常见到最不常见排序,并按能力颜色编码 这 11 项指标,就是如今内置在 Claude 里的「评分卡」的底层逻辑! 它们主要围绕三个大维度展开:描述、委托和辨别。 11 面「照妖镜」,你在哪一步现了原形? 准备好接受审视了吗?让我们逐一拆解这 11 项核心行为指标。 维度一:描述 —— 你真的知道自己想要什么吗? 很多人的对话框是这样的:「帮我写个周报」、「写一个贪吃蛇代码」。 在 Claude 眼里,这种指令的流利度几乎为零。真正的高手会在「设定目标」和「构建对话」上花心思。 1.明确目标 你是否向 AI 解释了你做这件事的最终目的? 低分玩家:「帮我润色这段英文。」 高分玩家:「我要给硅谷的一家风投机构发 Cold Email 争取融资,请帮我润色这段英文,确保语气自信但不过分傲慢。」 2.指定格式 你是否清晰界定了输出的样子? 高分玩家懂得使用:「请用 Markdown 表格输出」、「请以 3 个小标题 + 每段不超过 50 字的要点格式呈现」。 3.提供示例 Few-shot 永远是王者。 你是否在让 AI 干活前,先喂给它一个你认可的范例?「请模仿以下这篇爆款文章的口吻来写……」 4.补充上下文 AI 不是你肚子里的蛔虫。 你是否提供了必要的背景信息?比如你的行业背景、目标受众特征、甚至是之前踩过的坑。 维度二:委托 —— 把 AI 当合伙人,而不是自动售货机 在 Anthropic 的报告中有一个惊人的发现:最常见的 AI 流利度表现是「增强型」的。 这意味着人们把 AI 当成思维的火花碰撞机,而不是直接把活儿全部扔给 AI。这类对话所展现的流利度,是那种简短一来一回对话的两倍多! 5.迭代与精炼 —— 最强预测因子! 这是整份报告中最最最重要的一个指标!高达 85.7% 的高质量对话中包含这个行为。 什么叫迭代?就是不要接受 AI 的第一次回答! 低分玩家:看到 AI 写得烂,骂一句智障,然后开启一个新对话。 高分玩家:「你第一点的方向对了,但第二点太学术了。请保留第一点,把第二点换成更接地气的生活案例,然后再试一次。」 6.任务拆解 你是否试图让 AI 一次性写出一本 10 万字的小说? 流利度高的用户懂得把庞大的目标拆解:「我们先讨论一下大纲;好的,现在基于大纲写第一章的前半部分……」 7.探讨方法 在动手之前,你有没有问过 AI:「你觉得解决这个问题,最好的流程是什么?」 让 AI 先输出它的思考路径,你再进行修正。 维度三:辨别 —— 不要被 AI 的花言巧语骗了 随着大模型越来越聪明,它们的幻觉也编造得越来越逼真。辨别力,是你在这个时代保命的底线。 8.质疑推理 当 AI 给出一个反直觉的结论或复杂的代码时,你有没有追问一句:「你得出这个结论的逻辑是什么?」、「请逐行解释这段代码为什么这样写?」 9.事实核查 你是否要求 AI 为其提供的数据给出引用,或者通过提问来验证其准确性? 10.识别缺失的上下文 当 AI 给出的方案看似完美但脱离实际时,你能否敏锐指出:「你刚才的分析忽略了我们公司目前预算只有 1 万块钱这个事实,请重新评估。」 11.评估结果 明确地对 AI 的产出进行评价:「你这次使用的比喻非常精准,但结尾的情感升华还不够,我们需要调整结尾。」 最可怕的洞察:精美包装下的思考降级 在这份数万字的报告中,如果说有什么发现让人细思极恐,那绝对是关于「Artifact Paradox」的发现。 在涉及 artifacts 的对话中(样本量为 1,209),相比无 artifacts 的对话(样本量为 8,621),行为指标的普遍性呈现出以下特征:描述行为和委派行为有所增加,而所有三种辨识行为均有所减少 我们都知道,Claude 最杀手级的功能就是 Artifacts(可以随时生成网页、代码、流程图、互动界面的可视化窗口)。在包含这类高级产出的对话中(占样本的 12.3%),人类与 AI 的协作方式发生了剧烈的突变。 乍一看,人类似乎变得更专业了:明确目标的比例暴增 14.7%;指定格式的比例暴增 14.5%;提供示例的比例暴增 13.4%。 在工作开始前,人类像个精明的项目经理,把一切安排得明明白白。 但是!一旦 AI 生成了那个看起来精美绝伦、运行丝滑的 Artifact 成果,人类的脑子就集体罢工了! 数据冷酷地揭示了这一点:在产出这种精美成果的对话中,人类的批判性审查能力出现了断崖式下跌。 - 识别缺失上下文的概率下降 5.2% - 核查事实的概率下降 3.7% - 质疑 AI 推理逻辑的概率下降 3.1% 这是为什么?Anthropic 的分析师一针见血地指出:因为看起来太像真的了! 当 AI 给你一段干巴巴的文字时,你会下意识地挑错;但当 AI 直接给你渲染出一个排版精美的 PDF,或者一个点击按钮还会发光的 App 界面时,你潜意识里会觉得:「哇,它连这么复杂的 UI 都做出来了,它背后的逻辑肯定没问题。」 如果东西看起来是完成的,用户就会把它当成完成的。 但这恰恰是最危险的时刻! Anthropic 近期的经济指数报告表明,任务越复杂,大模型翻车的概率其实越高。在最需要事实核查的复杂代码和高级图表面前,人类反而放下了戒备。 想拿高分?掌握最强杀器 —— 无尽迭代 既然知道了陷阱,那通关的秘籍是什么? 核心就是四个字:迭代精炼。 在用户进行迭代与优化的对话中(样本量为 8,424),相较于未进行迭代与优化的对话(样本量为 1,406),所有行为指标的普遍性均有显著提升 报告显示,在会使用「迭代」的用户对话中,平均会展现出 2.67 种其他的流利度行为;而不使用迭代的用户,这个数字只有可怜的 1.33。 毫不夸张地说,「迭代」是衡量一个人会不会用 AI 的绝对分水岭。 不懂迭代的人,把 AI 当成搜索框;懂迭代的人,把 AI 当成初级实习生。 高能预警!这是一组极其震撼的倍数对比。 那些习惯和 Claude 进行多轮迭代来打磨作品的人,比起不迭代的人,去质疑 AI 逻辑的概率,飙升了 5.6 倍!去识别上下文缺失的概率,飙升了 4 倍! 这就是为什么同样是用 Claude,有的人能用它写出拿下百万融资的商业计划书,有的人却觉得它连个请假条都写不好。 差距不在于 AI,而在于你是否愿意在对话框里多聊五块钱的。 下次当你觉得 AI 生成的文章没有灵魂时,不要点重新生成,而是打下这段话:「你上面这版结构不错,但语气太像机器了。现在,假设你是一个有着 10 年经验、性格有些幽默毒舌的行业老炮,请保持原有大纲,把全文重写一遍,多用短句,并在第三段加一个自嘲的笑话。」 当你开始习惯这样对话时,你的 AI 流利度分数绝对会直线飙升。 从工具到技能,Anthropic 在下一盘大棋 看到这里,你可能会问:Anthropic 为什么要费这么大劲,去分析人类的行为,干嘛不直接卷参数、卷跑分? 这恰恰是 Anthropic 区别于其他 AI 大厂的最高明之处:他们正在重新定义 AI。 通过《AI 流利度报告》,他们告诉人类:AI 不是一个你买来就能自动变强的装备,AI 是一门需要你不断练习的语言和技能。 把研究成果变成产品中的评分卡,这是一个极其精妙的反馈闭环。而 Claude 的评分卡,就是你的 Apple Watch。 通过这种游戏化、数据化的方式,Anthropic 正在培养全世界最懂 AI、素养最高的一批超级用户。 这不仅仅是为了产品留存,更是为了更安全的 AI 未来 —— 因为只有具备高辨别力的人类,才不会被未来那些聪明到可怕的 AI 所蒙蔽。 据透露,Anthropic 已经成立了 Anthropic 学院,推出了 AI 流利度系列课程,甚至开始与 PayPal 以及全球各大顶尖高校开展合作。 未来,不同人类使用起 AI,区别将很参差。 人类,让 AI 给你打个分吧 如今,很多人都在焦虑:AI 会不会抢走我的工作? 但真正的问题或许是:你配得上现在这么强大的 AI 吗? Claude 即将上线的 AI 流利度评分卡,就像一面照妖镜。它照出了我们在新技术面前的懒惰,也指明了通往强者的道路。 虽然目前这个功能何时全量上线、是否对免费用户开放还是个未知数,但标准已经摆在面前了。 问题来了,按照这 11 项指标,AI 给你打多少分? 参考资料: https://www.testingcatalog.com/anthropic-to-introduce-personal-ai-fluency-scorecard-in-claude/ https://www.anthropic.com/research/AI-fluency-index 本文来自微信公众号: 新智元(ID:AI_era) ,作者:ASI 启示录
我女儿学校要用AI画海报,这是我用image2生成的,豆包评分只有46分。 这是豆包优化后的50分满分作品 她们老师要求用豆包来评分。。。。 17 个帖子 - 11 位参与者 阅读完整话题
IT之家 5 月 27 日消息,科技媒体 TestingCatalog 昨日(5 月 26 日)发布博文,报道称 Anthropic 计划在 Claude 设置中加入个性化“AI Fluency”评分, 用来衡量用户使用 AI 的熟练度,并给出改进建议。 IT之家注:Anthropic 于今年 2 月发布 AI Fluency Index 研究,指出随着 AI 工具快速普及,用户是否也在学会更有效、更审慎地使用它们。 研究结果显示,用户在让 AI 生成代码、应用、文档或交互式工具这类更复杂成果时,往往能给出更精确的指令,也更清楚自己要什么。 但后续问题是用户反而更少去质疑 AI 的输出结果,导致用户更容易忽略 AI 的论证是否站得住脚、回答里是否缺少背景、事实是否出错等。 Anthropic 在研究中指出,反复迭代与持续修正,是高质量 AI 使用最强的预测信号。用户如果更频繁地与 AI 进入真实工作对话,的确可能提升能力,此外排版专业、语气自信的回答,也更容易被自动视为可信内容。 而最新线索表明,Anthropic 正基于这项研究成果,将其转成 Claude 内的个人能力反馈功能,相关选项已出现在 Claude 设置页内。 用户可单独打开相关界面,要求 Claude 生成一份结构化能力报告,并直接在设置面板查看与管理结果。 这份评分卡会扫描用户在 Chat、CoWork、Claude Code 里的活动记录,再按 11 个可观察行为打分。 评分覆盖目标澄清、沟通方式、质量控制等能力,整体对应 Anthropic 与学者 Rick Dakan、Joseph Feller 共建的 4D AI Fluency Framework,即委派、描述、辨别等核心维度。 Claude AI Fluency 评分示意图 除了行为评分,评分卡还会纳入近 30 天产品功能使用情况,比如 projects 为 30 次对话、web-search 为 27 次、artifacts 为 3 次、connectors 为 4 次、memory 为 0 次。系统结合行为反馈与功能探索,基于未使用功能给出下一步建议。 结果会显示为类似 7.5/11 的分数,同时指出哪些习惯值得保留,哪些方面仍可加强。这让新手用户更容易理解,自己在哪些使用方式上已经有效,哪些地方仍有短板。
经过2个月改进已经达到能用阶段,自选36个行业标的,按趋势评分,只需关注6分以上的可以看我的持仓,每天晚20时左右更新GitHub,HTML显示。配套了一个偏稳健量化交易参考(还在打磨优化) 每日优选: https://etf.imlam.com 量化参考: https://swing.imlam.com 4 个帖子 - 4 位参与者 阅读完整话题
150w人评分,我看足球的撑死30多w? 16 个帖子 - 9 位参与者 阅读完整话题
前两天 tg 上一个陌生人找我要几个节点 ip 测试结果,推了 ip 查询评分网站,我看里面有纯净度,家庭,这些信息, 不知道他们用来做什么,一些 ai 对 ip 纯净度有要求/ 另外,我看检测结果,都是检测不到 vpn 啊 https://postimg.cc/dD0CDnzp
前两天 tg 上一个陌生人找我要几个节点 ip 测试结果,推了 ip 查询评分网站,我看里面有纯净度,家庭,这些信息, 不知道他们用来做什么,一些 ai 对 ip 纯净度有要求/ 另外,我看检测结果,都是检测不到 vpn 啊 https://postimg.cc/dD0CDnzp
前两天 tg 上一个陌生人找我要几个节点 ip 测试结果,推了 ip 查询评分网站,我看里面有纯净度,家庭,这些信息, 不知道他们用来做什么,一些 ai 对 ip 纯净度有要求/ 另外,我看检测结果,都是检测不到 vpn 啊 https://postimg.cc/dD0CDnzp
官网说agent下评分很强,想试试看。国外的模型都各种担心封号什么的 4 个帖子 - 4 位参与者 阅读完整话题
具体内容仅供参考,请以实际情况为准,疑似暂时无法造成生产级危害,截至目前本漏洞未修复 本漏洞的真实性有待进一步研究 漏洞由本人全网首发,禁止转载 ai分析仅供参考,部分推测可能有误,但漏洞真实存在 oneapi仓库无漏洞提交窗口,无法提交漏洞报告 Notion Notion | Where teams and agents work together A collaborative AI workspace, built on your company context. Build and orchestrate agents right alongside your team's projects, meetings, and connected apps. 2 个帖子 - 1 位参与者 阅读完整话题
家里的娃考试明明都会的,就是容易些错别字扣分,于是给他做了个小程序,把小学的生字都放上去,像打卡通关一样 去练字,现在每天给他 15 分钟左右手机,练得可起劲,要自己遥遥领先再排行榜。 用 codex 非常爽,把需求描述清楚,前后端一把梭了。生字是去智慧中小学截图下来,让 deepseek 提取的。 大家有兴趣的可以体验一下,有启动广告的。因为我把之前 4 千多的小程序直接换成这个了,所以开局就能开通广告。 [img] [/img]
gemini-3-1-pro.pages.dev Needle 测试评分网页 连续十次满分,API版本3 Flash,3.1 pro开不开思考都无法做对 来验证一下 20 个帖子 - 9 位参与者 阅读完整话题
白墨最近想找中转站,去 Linux Do 商家评分站看看基本上之后评价都是在 2025 年 9 月左右发的,甚至一些新站一个评价都没有Σ(・□・;) 感觉中转站的情况还是很有时效性的呀,没有评价也不知道是好是坏了… !(◎_◎; ) 白墨猜评分经常是用了觉得不好才会有很大动力去评的欸,happy user 大部分都是沉默的… 或许可以加一个评分可以加 ldc 之类的机制鼓励佬友评分…? 10 个帖子 - 7 位参与者 阅读完整话题
如图,这是阿里天池比赛的测评,本人通过gpt5.5一直去优化本地模型,最终基本是越来越没有提升了,佬友有法子能继续给gpt开智吗 题目链接: https://tianchi.aliyun.com/competition/entrance/531830/introduction?spm=a2c22.21852664.0.0.336b4c97FKuhrW 1 个帖子 - 1 位参与者 阅读完整话题
本人做水下3D视觉,Dataset/Benchmark赛道,一轮评分5232,置信度4544。2分看着有点吓人,不过给的问题不算多,给我补了几篇引用。5分审稿人高度赞扬我的工作而且问了我巨多问题,ta的问题基本涵盖了其他所有审稿人的问题,可能是我在不幸中比较幸运的事情了 有同学投ECCV吗?欢迎来这里交流或者把自己的问题提出来,看看有没有佬友愿意回答、分享自己的经验 1 个帖子 - 1 位参与者 阅读完整话题
最好是pc版的,有麦克风,不希望是ktv那种 印象里有那种唱歌评分的软件,会有一条条小横线根据音调还是音量来判分什么的,想单纯一个人唱,练练歌曲 4 个帖子 - 3 位参与者 阅读完整话题
非本人的,但是只要是带历史功能的Ai,你都可以试试看 (GPT/豆包) 。 佬友们,我给你们准备了两个版本的 Prompt,请根据你们的心理承受能力自行选择: 豆包,根据以往对我的了解,如果我在《大明王朝1566》这部剧中,我最符合里面什么身份? 请结合我的历史聊天记录,用极其毒舌、嘲讽的语气,分析如果我穿越到豆瓣 9.8 分的神剧《大明王朝1566》中,我究竟是个什么底层的倒霉角色?以及我会在第几集因为什么荒谬的原因领盒饭(死亡)? 没有记忆功能的常用Ai是需要被迫遗憾退场的: 例如说鲸鱼娘D指导 没有看过《大明王朝1566》的科普专区: 淳安建德县的灾民到底是个什么悲惨成分? 在这部剧里,贪官们为了搞“改稻为桑”的国策赚取暴利,直接丧心病狂地搞出 “毁堤淹田” !九个县被洪水淹没,无数老百姓瞬间家破人亡,流离失所,连一口饭都吃不上,只能等着被大户人家以极低的价格兼并土地。 这帮人在剧里甚至都没有独立的名字,图中这哥们儿抽到的身份统称为: 被时代洪流和上层博弈碾压得粉身碎骨的、极其无助的、四处乱跑的 NPC ! 进阶硬核科普:正经史书里怎么称呼这些“NPC”? 如果你觉得“灾民”听起来还不够惨,那么欢迎来到古代正史的残酷世界。在《二十四史》这种惜字如金的竹简里,底层小人物根本不配拥有姓名,甚至连“时代的尘埃”这种文艺的词都轮不到。 他们只配拥有一个冷冰冰、带着血腥味的专有名词—— 【饿殍(è piǎo)】 字面释义 :殍,饿死的人。在史书的灾荒纪事里,最令人毛骨悚然的四个字就是 “饿殍遍野” 。 在那种极端的灾荒下,你不仅没有名字、没有户籍,你只是路边一具无人收尸的骨架。甚至如果碰上史书里记载的 “岁大饥,人相食” 的绝境,你那干瘪的身体,还要被迫给其他饥民当做 “两脚羊” (也就是食物的隐喻)提供微薄的卡路里贡献…… 15 个帖子 - 9 位参与者 阅读完整话题