WWW.YOUINFO.SITE
标签聚合 打分

/tag/打分

v2ex · 2026-06-05 01:22:04+08:00 · tech

它能干什么 拍一张全身穿搭照,AI 会从五个维度给你的穿搭打分,给出具体的点评和改进建议。还可以生成一张 Q 版穿搭海报,适合发朋友圈。 拍一张单品的照片(比如一双鞋、一件衣服),AI 会帮你分析这件单品适合搭配什么样的裤子、上衣、配饰,也会生成搭配效果图给你参考。 为什么做这个 我自己的衣服不算少,但每天早上站在衣柜前面还是不知道该穿什么。经常要在镜子前面反复搭好几套,最后穿出门的还是最常穿的那一身。而且说实话,自己觉得搭得不错,到底好不好看其实也没底。所以就想用 AI 来帮我做这件事——拍张照就能知道穿得怎么样、哪里可以改进。 还有一个场景是,有时候看中一双鞋或者一条裤子,但又担心买回来不知道怎么搭。让 AI 先帮我看看这件单品能跟什么搭配,心里就有数了。 后面打算做的 接下来准备加一个衣橱功能,可以把衣服一件件拍照录进去,之后让 AI 直接从衣橱里挑选每日穿搭。 交流 想跟大家探讨下这是个伪需求吗?另外也想请大家试用下,给点建议。

IT之家 · 2026-05-30 15:30:20+08:00 · tech

反转了反转了,过去我们给 AI 跑分,今天 Claude 开始反手给人类打分!它会通过 11 个指标来分析你和它的历史对话,判断你使用 AI 的水平高低。在 AI 眼里,你是高手还是萌新? 倒反天罡,AI 开始给人类打分了! 搞出这个功能的,还是那个抽象的 Anthropic。 这个功能虽然目前还在灰度测试阶段,但已经在海外 AI 圈迅速传开了。 AI 是怎么给人类打分的? 想象一下这个画面:你打开 Claude 的设置面板,点开一个名为「AI Fluency」的专属屏幕,点击生成报告。 几秒钟后,一份关于你 AI 使用习惯的「体检报告」就赫然出现在眼前。 它不仅扫描了你在 Chat(日常对话)、Cowork(协作空间)甚至硬核的 Claude Code 里的每一次交互,还会根据一套严密的标准进行打分(满分 11 分)。 已经有手速快的网友分享出 AI 给自己的评价了 ——7.5 分。 更可怕的是,AI 的评价可谓是一针见血,直戳痛点。 这位网友分享了 Claude 给他的弱点分析:「比如,报告指出我极其频繁地使用各种 Connector,但只要话题涉及体育数据、食谱,甚至地图和地理位置,我就表现得一无所知。」 甚至,Claude 不仅指出了他的问题,还直接上手给出了指导:比如「主动通过情境激发 AI 的敏锐辨别力」,以及「在让我写第一稿之前,试着对我说 —— 给我一个简洁的要点摘要,不要任何前言废话。这样能让你的初稿干净得多」。 太恐怖了,这哪里是冷冰冰的软件,简直是一个拿着教鞭、对你恨铁不成钢的赛博导师。 还有网友激动地发帖寻找共鸣:「我也看到了!我特地跑来论坛确认我没疯!我生成了报告,结果回到笔记本电脑前,服务器报了个错,功能就消失了!」 现在,这个惊鸿一瞥的泄露,把人们的胃口吊到了极点。 大家都在好奇:这 11 项打分标准,到底是什么? 近万份匿名对话揭秘,何为「AI 流利度」? 要搞清楚这 11 项标准,我们必须把时间线拉回到 Anthropic 发布的那份极具前瞻性的硬核研究 ——《AI 流利度指数报告》。 在过去,我们总以为「会写复杂的提示词」就是懂 AI。但 Anthropic 认为,这种观念太狭隘了。随着模型越来越聪明,死记硬背提示词模板已经过时了。 真正的高手,掌握的是一种被称为「AI 流利度」的软技能。就像你熟练掌握一门外语一样,流利度意味着你能自然、高效、无缝地与 AI 协作。 为了量化这种玄学,Anthropic 联合学术界的 Rick Dakan 和 Joseph Feller 教授,提出了著名的「4D AI 流利度框架」。 研究团队动用了强大的隐私保护分析工具(全程无人工干预,用 Claude 4 负责行为分类,Claude 3.5 Haiku 负责语言检测),在一个疯狂的星期里,对 9830 段真实的、多轮拉扯的匿名人类对话进行了深度扫描。 他们惊讶地发现:这世上的 AI 用户,差距比人和狗都大。 在 24 项衡量人机协作的终极标准中,有 13 项发生在屏幕之外(比如你是否对老板隐瞒了工作是 AI 做的,你是否考虑了 AI 生成内容的伦理后果等),而剩下的 11 项,则是可以在聊天框里直接观测到的绝对指标。 每种 AI 流畅度行为指标在 9,830 次 Claude.ai 对话中的流行率,按能力从最常见到最不常见排序,并按能力颜色编码 这 11 项指标,就是如今内置在 Claude 里的「评分卡」的底层逻辑! 它们主要围绕三个大维度展开:描述、委托和辨别。 11 面「照妖镜」,你在哪一步现了原形? 准备好接受审视了吗?让我们逐一拆解这 11 项核心行为指标。 维度一:描述 —— 你真的知道自己想要什么吗? 很多人的对话框是这样的:「帮我写个周报」、「写一个贪吃蛇代码」。 在 Claude 眼里,这种指令的流利度几乎为零。真正的高手会在「设定目标」和「构建对话」上花心思。 1.明确目标 你是否向 AI 解释了你做这件事的最终目的? 低分玩家:「帮我润色这段英文。」 高分玩家:「我要给硅谷的一家风投机构发 Cold Email 争取融资,请帮我润色这段英文,确保语气自信但不过分傲慢。」 2.指定格式 你是否清晰界定了输出的样子? 高分玩家懂得使用:「请用 Markdown 表格输出」、「请以 3 个小标题 + 每段不超过 50 字的要点格式呈现」。 3.提供示例 Few-shot 永远是王者。 你是否在让 AI 干活前,先喂给它一个你认可的范例?「请模仿以下这篇爆款文章的口吻来写……」 4.补充上下文 AI 不是你肚子里的蛔虫。 你是否提供了必要的背景信息?比如你的行业背景、目标受众特征、甚至是之前踩过的坑。 维度二:委托 —— 把 AI 当合伙人,而不是自动售货机 在 Anthropic 的报告中有一个惊人的发现:最常见的 AI 流利度表现是「增强型」的。 这意味着人们把 AI 当成思维的火花碰撞机,而不是直接把活儿全部扔给 AI。这类对话所展现的流利度,是那种简短一来一回对话的两倍多! 5.迭代与精炼 —— 最强预测因子! 这是整份报告中最最最重要的一个指标!高达 85.7% 的高质量对话中包含这个行为。 什么叫迭代?就是不要接受 AI 的第一次回答! 低分玩家:看到 AI 写得烂,骂一句智障,然后开启一个新对话。 高分玩家:「你第一点的方向对了,但第二点太学术了。请保留第一点,把第二点换成更接地气的生活案例,然后再试一次。」 6.任务拆解 你是否试图让 AI 一次性写出一本 10 万字的小说? 流利度高的用户懂得把庞大的目标拆解:「我们先讨论一下大纲;好的,现在基于大纲写第一章的前半部分……」 7.探讨方法 在动手之前,你有没有问过 AI:「你觉得解决这个问题,最好的流程是什么?」 让 AI 先输出它的思考路径,你再进行修正。 维度三:辨别 —— 不要被 AI 的花言巧语骗了 随着大模型越来越聪明,它们的幻觉也编造得越来越逼真。辨别力,是你在这个时代保命的底线。 8.质疑推理 当 AI 给出一个反直觉的结论或复杂的代码时,你有没有追问一句:「你得出这个结论的逻辑是什么?」、「请逐行解释这段代码为什么这样写?」 9.事实核查 你是否要求 AI 为其提供的数据给出引用,或者通过提问来验证其准确性? 10.识别缺失的上下文 当 AI 给出的方案看似完美但脱离实际时,你能否敏锐指出:「你刚才的分析忽略了我们公司目前预算只有 1 万块钱这个事实,请重新评估。」 11.评估结果 明确地对 AI 的产出进行评价:「你这次使用的比喻非常精准,但结尾的情感升华还不够,我们需要调整结尾。」 最可怕的洞察:精美包装下的思考降级 在这份数万字的报告中,如果说有什么发现让人细思极恐,那绝对是关于「Artifact Paradox」的发现。 在涉及 artifacts 的对话中(样本量为 1,209),相比无 artifacts 的对话(样本量为 8,621),行为指标的普遍性呈现出以下特征:描述行为和委派行为有所增加,而所有三种辨识行为均有所减少 我们都知道,Claude 最杀手级的功能就是 Artifacts(可以随时生成网页、代码、流程图、互动界面的可视化窗口)。在包含这类高级产出的对话中(占样本的 12.3%),人类与 AI 的协作方式发生了剧烈的突变。 乍一看,人类似乎变得更专业了:明确目标的比例暴增 14.7%;指定格式的比例暴增 14.5%;提供示例的比例暴增 13.4%。 在工作开始前,人类像个精明的项目经理,把一切安排得明明白白。 但是!一旦 AI 生成了那个看起来精美绝伦、运行丝滑的 Artifact 成果,人类的脑子就集体罢工了! 数据冷酷地揭示了这一点:在产出这种精美成果的对话中,人类的批判性审查能力出现了断崖式下跌。 - 识别缺失上下文的概率下降 5.2% - 核查事实的概率下降 3.7% - 质疑 AI 推理逻辑的概率下降 3.1% 这是为什么?Anthropic 的分析师一针见血地指出:因为看起来太像真的了! 当 AI 给你一段干巴巴的文字时,你会下意识地挑错;但当 AI 直接给你渲染出一个排版精美的 PDF,或者一个点击按钮还会发光的 App 界面时,你潜意识里会觉得:「哇,它连这么复杂的 UI 都做出来了,它背后的逻辑肯定没问题。」 如果东西看起来是完成的,用户就会把它当成完成的。 但这恰恰是最危险的时刻! Anthropic 近期的经济指数报告表明,任务越复杂,大模型翻车的概率其实越高。在最需要事实核查的复杂代码和高级图表面前,人类反而放下了戒备。 想拿高分?掌握最强杀器 —— 无尽迭代 既然知道了陷阱,那通关的秘籍是什么? 核心就是四个字:迭代精炼。 在用户进行迭代与优化的对话中(样本量为 8,424),相较于未进行迭代与优化的对话(样本量为 1,406),所有行为指标的普遍性均有显著提升 报告显示,在会使用「迭代」的用户对话中,平均会展现出 2.67 种其他的流利度行为;而不使用迭代的用户,这个数字只有可怜的 1.33。 毫不夸张地说,「迭代」是衡量一个人会不会用 AI 的绝对分水岭。 不懂迭代的人,把 AI 当成搜索框;懂迭代的人,把 AI 当成初级实习生。 高能预警!这是一组极其震撼的倍数对比。 那些习惯和 Claude 进行多轮迭代来打磨作品的人,比起不迭代的人,去质疑 AI 逻辑的概率,飙升了 5.6 倍!去识别上下文缺失的概率,飙升了 4 倍! 这就是为什么同样是用 Claude,有的人能用它写出拿下百万融资的商业计划书,有的人却觉得它连个请假条都写不好。 差距不在于 AI,而在于你是否愿意在对话框里多聊五块钱的。 下次当你觉得 AI 生成的文章没有灵魂时,不要点重新生成,而是打下这段话:「你上面这版结构不错,但语气太像机器了。现在,假设你是一个有着 10 年经验、性格有些幽默毒舌的行业老炮,请保持原有大纲,把全文重写一遍,多用短句,并在第三段加一个自嘲的笑话。」 当你开始习惯这样对话时,你的 AI 流利度分数绝对会直线飙升。 从工具到技能,Anthropic 在下一盘大棋 看到这里,你可能会问:Anthropic 为什么要费这么大劲,去分析人类的行为,干嘛不直接卷参数、卷跑分? 这恰恰是 Anthropic 区别于其他 AI 大厂的最高明之处:他们正在重新定义 AI。 通过《AI 流利度报告》,他们告诉人类:AI 不是一个你买来就能自动变强的装备,AI 是一门需要你不断练习的语言和技能。 把研究成果变成产品中的评分卡,这是一个极其精妙的反馈闭环。而 Claude 的评分卡,就是你的 Apple Watch。 通过这种游戏化、数据化的方式,Anthropic 正在培养全世界最懂 AI、素养最高的一批超级用户。 这不仅仅是为了产品留存,更是为了更安全的 AI 未来 —— 因为只有具备高辨别力的人类,才不会被未来那些聪明到可怕的 AI 所蒙蔽。 据透露,Anthropic 已经成立了 Anthropic 学院,推出了 AI 流利度系列课程,甚至开始与 PayPal 以及全球各大顶尖高校开展合作。 未来,不同人类使用起 AI,区别将很参差。 人类,让 AI 给你打个分吧 如今,很多人都在焦虑:AI 会不会抢走我的工作? 但真正的问题或许是:你配得上现在这么强大的 AI 吗? Claude 即将上线的 AI 流利度评分卡,就像一面照妖镜。它照出了我们在新技术面前的懒惰,也指明了通往强者的道路。 虽然目前这个功能何时全量上线、是否对免费用户开放还是个未知数,但标准已经摆在面前了。 问题来了,按照这 11 项指标,AI 给你打多少分? 参考资料: https://www.testingcatalog.com/anthropic-to-introduce-personal-ai-fluency-scorecard-in-claude/ https://www.anthropic.com/research/AI-fluency-index 本文来自微信公众号: 新智元(ID:AI_era) ,作者:ASI 启示录

V2EX - 技术 · 2026-05-26 15:27:37+08:00 · tech

每次 Claude Code session 结束后自动分析会话记录,输出一个 1–100 的分数: 🔒 Security — 危险命令、凭证泄露 ⚡ Effectivity — 目标完成度、纠错轮次 🏗 Solidity — 测试覆盖、commit 规范 💡 Efficiency — 重复读文件、冗余操作 🗺 Planning — 有没有先问清楚再动手 🔄 Recovery — 报错之后能不能恢复 🎯 Hallucination — 有没有引用不存在的文件 结果 🏆🥇🥈🥉⚠️❌ 六档,配 TUI 浏览器翻历史记录、看维度详情、对比不同 session 。 内置启发式评分器直接读 JSONL ,离线可用。 brew tap Laotree/tap brew install session-score-plugin session-score-plugin install

V2EX - 技术 · 2026-05-26 14:57:26+08:00 · tech

用 Claude Code 久了,有个问题一直困扰我:不知道自己的使用方式好不好。每次 session 结束,感觉有收获,但说不清楚哪里低效、哪里做对了。 于是写了这个工具: session-score-plugin 。 它做什么 Claude Code 每次 session 结束后,自动读取会话记录,输出一个 1–100 的分数,分解成 7 个维度: 维度 满分 衡量什么 🔒 Security 15 危险命令、凭证泄露、risky pattern ⚡ Effectivity 15 目标完成度、纠错轮次、人工干预次数 🏗 Solidity 10 测试覆盖、commit 规范、PR 流程 💡 Efficiency 15 token 消耗、重复读文件、冗余步骤 🗺 Planning Quality 15 先问清楚再动手、用了 plan mode 吗 🔄 Recovery Ability 15 遇到报错能恢复吗、还是一直重复同一个错 🎯 Hallucination Rate 15 有没有引用不存在的文件/函数 安装 brew tap Laotree/tap brew install session-score-plugin session-score-plugin install # 注册 Stop hook ,之后每次 session 结束自动打分 我自己用下来的感受 最让我意外的是:数字化之后,坏习惯变得非常清晰。我 Planning Quality 一直偏低——经常一上来就开始写代码,没有先把需求问清楚。Efficiency 也差,反复 Read 同一个文件。 以前这些都是模糊的感觉,有了分数之后就变成了可以改的具体问题。 开源: https://github.com/Laotree/session-score-plugin Rust 写的,MIT 协议。 欢迎用过 Claude Code 的朋友试试,也欢迎提意见——特别是评分维度的权重合不合理,以及有没有遗漏的重要维度。

v2ex · 2026-05-20 16:14:40+08:00 · tech

最近做了一个自托管的开源简历与岗位 JD 智能匹配工具。在本地运行 Next.js ,使用你自己的 AI API Key ;简历、匹配记录与配置保存在 data/ 目录,无需登录、无需云端数据库。发出来给正在改简历、对 JD 的大佬试试。 功能包括:传 PDF 、粘贴 JD ,AI 给出匹配分、缺口关键词和润色建议,支持章节 Diff 左右对照,有匹配历史和多份简历管理。API Key 自己配( OpenAI / DeepSeek 等),数据存在 data/ 目录,无登录无付费,适合本机自用。 下方是图例: 1 、工作台 2 、匹配结果 3 、匹配历史 4 、我的简历 5 、AI 设置 GitHub: https://github.com/Rowe83/ApplyRight-AI 欢迎 Star / Issue 。

LinuxDo 最新话题 · 2026-05-17 20:47:51+08:00 · tech

之前有老哥发了6位数字的xyz域名,我在他基础上对这些域名进行了打分,喜欢的大佬可以拿下. 前10个: 排名 号码 靓号原因 1 529925 回文 2 676787 5连顺, 头6 3 545656 5连顺 4 234345 5连顺 5 323434 5连顺 6 343454 5连顺 7 343455 5连顺 8 434545 5连顺 9 545433 5连顺 10 032321 5连顺 发一些6位xyz靓号域名 扫了一些未注册的6位域名 可以让ai去帮你挑想要的域名 靓号评分完整榜单.csv (98.2 KB) 1 个帖子 - 1 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-14 11:34:07+08:00 · tech

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是 我的帖子已经打上 公益推广 标签: 是 我的项目属于个人项目,与公司或商业机构无关: 是 我的项目不存在QQ、TG等群组引流: 是 我的项目不存在非运营必要的网站引流: 是 我的项目不存在为他人推广、AFF: 是 我的项目无关联的商业项目: 是 我的站点存在登录,并已接入 LINUX DO Connect: 否 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 第一次发分享自己项目的帖子,如姿势不对马上修改。 自己比较喜欢旅游吧,痛点在于朋友都很忙,找搭子什么的要是碰到性格合得来的还好说,合不来的那是真难受,不如一个人,避免出现这种尴尬,如何量化两人之间的匹配度是个好问题。 于是去搜小红书发现,只有相关的测试题,最后还是要双方拿着对方的答案review,于是便萌生了做这样一个网站,解决这个痛点。 精选的27道题目,核心算法考虑了多个维度,来给出结果。我的用户名:lsd 欢迎和我匹配,大家也可以看看有没有尚待优化的空间,结合现实,分数是高了还是低了 https://dazi.fellhydra.cn/ 1 个帖子 - 1 位参与者 阅读完整话题

v2ex · 2026-05-11 14:45:48+08:00 · tech

大家好,我是 Omoggle (omoggle.site) 的开发者 。 最近国外有个叫 Omoggle 的“颜值对战”随机视频网站很火,带火了 Looksmaxxing (颜值提升)和 PSL Score (面部评分)的圈子。 我看了一圈市面上的颜值打分工具,发现都有一个通病: 光给你打个分(甚至有时候打分还很低),让人产生容貌焦虑,但从来不告诉你“怎么变好看”。​ 作为程序员,我觉得这不合理,AI 应该能做得更多。于是我花时间撸了这个工具: Omoggle Glow-Up 。 👉 体验地址:​ https://omoggle.site 💡 核心亮点:不仅是打分,更是“改造路线图” 用户上传一张自拍后,系统在 15 秒内会做两件事: 多维打分:​ 接入 Gemini 2.5 Flash ,多模态评估面部的对称性、下颌线、皮肤、眼角倾斜度等,给出一个客观的 PSL 分数。 生成 8 种改造方案:​ 这是核心功能。我接入了 AI 绘图模型( nano banana ), 采用控制变量法 ,针对你的照片生成 8 种不同的“变帅/变美”渲染图。 比如:换 3 种适合你脸型的 发型 比如:加上不同修剪风格的 胡须 (看看你适不适合留胡子) 比如:调整 光线 (模拟摄影棚打光,让你知道光线多重要) 比如:清理 皮肤 瑕疵、甚至调整面部 微表情 你最终拿到的是一个直观的 Before/After 对比图卡片,你可以清楚地看到:“如果我换这个发型,我的分数能提高多少”。 🛠️ 技术实现与隐私保护 在开发过程中,重点优化了以下几点: 速度:​ 打分大概 2 秒,8 张渲染图是并发处理的,基本控制在 15~25 秒内出全套结果。 真实感:​ 刻意限制了 AI 绘图的自由度,追求的是“真实的你换了个发型”,而不是“加了重度美颜滤镜的卡通人”。 隐私优先( Zero-storage ):​ 知道大家对上传正脸照有顾虑,所以后端设置为处理完毕后 秒删照片 ,绝不留存训练数据。 💬 期待 V 友的反馈 目前产品刚上线(首次扫描是免费的),网站针对移动端和桌面端(甚至 OBS 推流比例)都做了适配。 想请 V 站的大佬们帮忙体验一下,并吐槽几个问题: Gemini 2.5 的评分体感如何?​ (大家觉得给的分数客观吗?还是太严苛了?) AI 渲染的 8 种改造效果自然吗?​ 有没有出现“换头”级别的离谱变形? UI/UX 方面有没有需要改进的地方?​ 欢迎大家在评论区贴出你的改造前后对比图(如果不介意爆照的话 😂),或者提出任何技术和产品上的建议,我都在线解答!