打分 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

v2ex · 2026-06-09 18:38:46+08:00 · tech

我想做一款打分评论的 app 。不同于虎扑或大众点评的打分，我想做一款专注于奶茶、零食、包装饮料，连锁店食物如肯德基麦当劳，以及一些常见日用品如牙膏打分的 app 或小程序，欢迎对这个想法感兴趣的人与我合作，或者也可以单纯交流，谢谢！

v2ex · 2026-06-05 01:22:04+08:00 · tech

它能干什么拍一张全身穿搭照，AI 会从五个维度给你的穿搭打分，给出具体的点评和改进建议。还可以生成一张 Q 版穿搭海报，适合发朋友圈。拍一张单品的照片（比如一双鞋、一件衣服），AI 会帮你分析这件单品适合搭配什么样的裤子、上衣、配饰，也会生成搭配效果图给你参考。为什么做这个我自己的衣服不算少，但每天早上站在衣柜前面还是不知道该穿什么。经常要在镜子前面反复搭好几套，最后穿出门的还是最常穿的那一身。而且说实话，自己觉得搭得不错，到底好不好看其实也没底。所以就想用 AI 来帮我做这件事——拍张照就能知道穿得怎么样、哪里可以改进。还有一个场景是，有时候看中一双鞋或者一条裤子，但又担心买回来不知道怎么搭。让 AI 先帮我看看这件单品能跟什么搭配，心里就有数了。后面打算做的接下来准备加一个衣橱功能，可以把衣服一件件拍照录进去，之后让 AI 直接从衣橱里挑选每日穿搭。交流想跟大家探讨下这是个伪需求吗？另外也想请大家试用下，给点建议。

AI 开始给人类打分：Claude 评分标准曝光，优秀人类得 7.5 分

IT之家 · 2026-05-30 15:30:20+08:00 · tech

反转了反转了，过去我们给 AI 跑分，今天 Claude 开始反手给人类打分！它会通过 11 个指标来分析你和它的历史对话，判断你使用 AI 的水平高低。在 AI 眼里，你是高手还是萌新？倒反天罡，AI 开始给人类打分了！搞出这个功能的，还是那个抽象的 Anthropic。这个功能虽然目前还在灰度测试阶段，但已经在海外 AI 圈迅速传开了。 AI 是怎么给人类打分的？想象一下这个画面：你打开 Claude 的设置面板，点开一个名为「AI Fluency」的专属屏幕，点击生成报告。几秒钟后，一份关于你 AI 使用习惯的「体检报告」就赫然出现在眼前。它不仅扫描了你在 Chat（日常对话）、Cowork（协作空间）甚至硬核的 Claude Code 里的每一次交互，还会根据一套严密的标准进行打分（满分 11 分）。已经有手速快的网友分享出 AI 给自己的评价了 ——7.5 分。更可怕的是，AI 的评价可谓是一针见血，直戳痛点。这位网友分享了 Claude 给他的弱点分析：「比如，报告指出我极其频繁地使用各种 Connector，但只要话题涉及体育数据、食谱，甚至地图和地理位置，我就表现得一无所知。」甚至，Claude 不仅指出了他的问题，还直接上手给出了指导：比如「主动通过情境激发 AI 的敏锐辨别力」，以及「在让我写第一稿之前，试着对我说 —— 给我一个简洁的要点摘要，不要任何前言废话。这样能让你的初稿干净得多」。太恐怖了，这哪里是冷冰冰的软件，简直是一个拿着教鞭、对你恨铁不成钢的赛博导师。还有网友激动地发帖寻找共鸣：「我也看到了！我特地跑来论坛确认我没疯！我生成了报告，结果回到笔记本电脑前，服务器报了个错，功能就消失了！」现在，这个惊鸿一瞥的泄露，把人们的胃口吊到了极点。大家都在好奇：这 11 项打分标准，到底是什么？近万份匿名对话揭秘，何为「AI 流利度」？要搞清楚这 11 项标准，我们必须把时间线拉回到 Anthropic 发布的那份极具前瞻性的硬核研究 ——《AI 流利度指数报告》。在过去，我们总以为「会写复杂的提示词」就是懂 AI。但 Anthropic 认为，这种观念太狭隘了。随着模型越来越聪明，死记硬背提示词模板已经过时了。真正的高手，掌握的是一种被称为「AI 流利度」的软技能。就像你熟练掌握一门外语一样，流利度意味着你能自然、高效、无缝地与 AI 协作。为了量化这种玄学，Anthropic 联合学术界的 Rick Dakan 和 Joseph Feller 教授，提出了著名的「4D AI 流利度框架」。研究团队动用了强大的隐私保护分析工具（全程无人工干预，用 Claude 4 负责行为分类，Claude 3.5 Haiku 负责语言检测），在一个疯狂的星期里，对 9830 段真实的、多轮拉扯的匿名人类对话进行了深度扫描。他们惊讶地发现：这世上的 AI 用户，差距比人和狗都大。在 24 项衡量人机协作的终极标准中，有 13 项发生在屏幕之外（比如你是否对老板隐瞒了工作是 AI 做的，你是否考虑了 AI 生成内容的伦理后果等），而剩下的 11 项，则是可以在聊天框里直接观测到的绝对指标。每种 AI 流畅度行为指标在 9,830 次 Claude.ai 对话中的流行率，按能力从最常见到最不常见排序，并按能力颜色编码这 11 项指标，就是如今内置在 Claude 里的「评分卡」的底层逻辑！它们主要围绕三个大维度展开：描述、委托和辨别。 11 面「照妖镜」，你在哪一步现了原形？准备好接受审视了吗？让我们逐一拆解这 11 项核心行为指标。维度一：描述 —— 你真的知道自己想要什么吗？很多人的对话框是这样的：「帮我写个周报」、「写一个贪吃蛇代码」。在 Claude 眼里，这种指令的流利度几乎为零。真正的高手会在「设定目标」和「构建对话」上花心思。 1.明确目标你是否向 AI 解释了你做这件事的最终目的？低分玩家：「帮我润色这段英文。」高分玩家：「我要给硅谷的一家风投机构发 Cold Email 争取融资，请帮我润色这段英文，确保语气自信但不过分傲慢。」 2.指定格式你是否清晰界定了输出的样子？高分玩家懂得使用：「请用 Markdown 表格输出」、「请以 3 个小标题 + 每段不超过 50 字的要点格式呈现」。 3.提供示例 Few-shot 永远是王者。你是否在让 AI 干活前，先喂给它一个你认可的范例？「请模仿以下这篇爆款文章的口吻来写……」 4.补充上下文 AI 不是你肚子里的蛔虫。你是否提供了必要的背景信息？比如你的行业背景、目标受众特征、甚至是之前踩过的坑。维度二：委托 —— 把 AI 当合伙人，而不是自动售货机在 Anthropic 的报告中有一个惊人的发现：最常见的 AI 流利度表现是「增强型」的。这意味着人们把 AI 当成思维的火花碰撞机，而不是直接把活儿全部扔给 AI。这类对话所展现的流利度，是那种简短一来一回对话的两倍多！ 5.迭代与精炼 —— 最强预测因子！这是整份报告中最最最重要的一个指标！高达 85.7% 的高质量对话中包含这个行为。什么叫迭代？就是不要接受 AI 的第一次回答！低分玩家：看到 AI 写得烂，骂一句智障，然后开启一个新对话。高分玩家：「你第一点的方向对了，但第二点太学术了。请保留第一点，把第二点换成更接地气的生活案例，然后再试一次。」 6.任务拆解你是否试图让 AI 一次性写出一本 10 万字的小说？流利度高的用户懂得把庞大的目标拆解：「我们先讨论一下大纲；好的，现在基于大纲写第一章的前半部分……」 7.探讨方法在动手之前，你有没有问过 AI：「你觉得解决这个问题，最好的流程是什么？」让 AI 先输出它的思考路径，你再进行修正。维度三：辨别 —— 不要被 AI 的花言巧语骗了随着大模型越来越聪明，它们的幻觉也编造得越来越逼真。辨别力，是你在这个时代保命的底线。 8.质疑推理当 AI 给出一个反直觉的结论或复杂的代码时，你有没有追问一句：「你得出这个结论的逻辑是什么？」、「请逐行解释这段代码为什么这样写？」 9.事实核查你是否要求 AI 为其提供的数据给出引用，或者通过提问来验证其准确性？ 10.识别缺失的上下文当 AI 给出的方案看似完美但脱离实际时，你能否敏锐指出：「你刚才的分析忽略了我们公司目前预算只有 1 万块钱这个事实，请重新评估。」 11.评估结果明确地对 AI 的产出进行评价：「你这次使用的比喻非常精准，但结尾的情感升华还不够，我们需要调整结尾。」最可怕的洞察：精美包装下的思考降级在这份数万字的报告中，如果说有什么发现让人细思极恐，那绝对是关于「Artifact Paradox」的发现。在涉及 artifacts 的对话中（样本量为 1,209），相比无 artifacts 的对话（样本量为 8,621），行为指标的普遍性呈现出以下特征：描述行为和委派行为有所增加，而所有三种辨识行为均有所减少我们都知道，Claude 最杀手级的功能就是 Artifacts（可以随时生成网页、代码、流程图、互动界面的可视化窗口）。在包含这类高级产出的对话中（占样本的 12.3%），人类与 AI 的协作方式发生了剧烈的突变。乍一看，人类似乎变得更专业了：明确目标的比例暴增 14.7%；指定格式的比例暴增 14.5%；提供示例的比例暴增 13.4%。在工作开始前，人类像个精明的项目经理，把一切安排得明明白白。但是！一旦 AI 生成了那个看起来精美绝伦、运行丝滑的 Artifact 成果，人类的脑子就集体罢工了！数据冷酷地揭示了这一点：在产出这种精美成果的对话中，人类的批判性审查能力出现了断崖式下跌。 - 识别缺失上下文的概率下降 5.2% - 核查事实的概率下降 3.7% - 质疑 AI 推理逻辑的概率下降 3.1% 这是为什么？Anthropic 的分析师一针见血地指出：因为看起来太像真的了！当 AI 给你一段干巴巴的文字时，你会下意识地挑错；但当 AI 直接给你渲染出一个排版精美的 PDF，或者一个点击按钮还会发光的 App 界面时，你潜意识里会觉得：「哇，它连这么复杂的 UI 都做出来了，它背后的逻辑肯定没问题。」如果东西看起来是完成的，用户就会把它当成完成的。但这恰恰是最危险的时刻！ Anthropic 近期的经济指数报告表明，任务越复杂，大模型翻车的概率其实越高。在最需要事实核查的复杂代码和高级图表面前，人类反而放下了戒备。想拿高分？掌握最强杀器 —— 无尽迭代既然知道了陷阱，那通关的秘籍是什么？核心就是四个字：迭代精炼。在用户进行迭代与优化的对话中（样本量为 8,424），相较于未进行迭代与优化的对话（样本量为 1,406），所有行为指标的普遍性均有显著提升报告显示，在会使用「迭代」的用户对话中，平均会展现出 2.67 种其他的流利度行为；而不使用迭代的用户，这个数字只有可怜的 1.33。毫不夸张地说，「迭代」是衡量一个人会不会用 AI 的绝对分水岭。不懂迭代的人，把 AI 当成搜索框；懂迭代的人，把 AI 当成初级实习生。高能预警！这是一组极其震撼的倍数对比。那些习惯和 Claude 进行多轮迭代来打磨作品的人，比起不迭代的人，去质疑 AI 逻辑的概率，飙升了 5.6 倍！去识别上下文缺失的概率，飙升了 4 倍！这就是为什么同样是用 Claude，有的人能用它写出拿下百万融资的商业计划书，有的人却觉得它连个请假条都写不好。差距不在于 AI，而在于你是否愿意在对话框里多聊五块钱的。下次当你觉得 AI 生成的文章没有灵魂时，不要点重新生成，而是打下这段话：「你上面这版结构不错，但语气太像机器了。现在，假设你是一个有着 10 年经验、性格有些幽默毒舌的行业老炮，请保持原有大纲，把全文重写一遍，多用短句，并在第三段加一个自嘲的笑话。」当你开始习惯这样对话时，你的 AI 流利度分数绝对会直线飙升。从工具到技能，Anthropic 在下一盘大棋看到这里，你可能会问：Anthropic 为什么要费这么大劲，去分析人类的行为，干嘛不直接卷参数、卷跑分？这恰恰是 Anthropic 区别于其他 AI 大厂的最高明之处：他们正在重新定义 AI。通过《AI 流利度报告》，他们告诉人类：AI 不是一个你买来就能自动变强的装备，AI 是一门需要你不断练习的语言和技能。把研究成果变成产品中的评分卡，这是一个极其精妙的反馈闭环。而 Claude 的评分卡，就是你的 Apple Watch。通过这种游戏化、数据化的方式，Anthropic 正在培养全世界最懂 AI、素养最高的一批超级用户。这不仅仅是为了产品留存，更是为了更安全的 AI 未来 —— 因为只有具备高辨别力的人类，才不会被未来那些聪明到可怕的 AI 所蒙蔽。据透露，Anthropic 已经成立了 Anthropic 学院，推出了 AI 流利度系列课程，甚至开始与 PayPal 以及全球各大顶尖高校开展合作。未来，不同人类使用起 AI，区别将很参差。人类，让 AI 给你打个分吧如今，很多人都在焦虑：AI 会不会抢走我的工作？但真正的问题或许是：你配得上现在这么强大的 AI 吗？ Claude 即将上线的 AI 流利度评分卡，就像一面照妖镜。它照出了我们在新技术面前的懒惰，也指明了通往强者的道路。虽然目前这个功能何时全量上线、是否对免费用户开放还是个未知数，但标准已经摆在面前了。问题来了，按照这 11 项指标，AI 给你打多少分？参考资料： https://www.testingcatalog.com/anthropic-to-introduce-personal-ai-fluency-scorecard-in-claude/ https://www.anthropic.com/research/AI-fluency-index 本文来自微信公众号：新智元（ID：AI_era），作者：ASI 启示录

我写了一个工具，给 Claude Code 会话自动打分，开源

V2EX - 技术 · 2026-05-26 15:27:37+08:00 · tech

每次 Claude Code session 结束后自动分析会话记录，输出一个 1–100 的分数： 🔒 Security — 危险命令、凭证泄露 ⚡ Effectivity — 目标完成度、纠错轮次 🏗 Solidity — 测试覆盖、commit 规范 💡 Efficiency — 重复读文件、冗余操作 🗺 Planning — 有没有先问清楚再动手 🔄 Recovery — 报错之后能不能恢复 🎯 Hallucination — 有没有引用不存在的文件结果 🏆🥇🥈🥉⚠️❌ 六档，配 TUI 浏览器翻历史记录、看维度详情、对比不同 session 。内置启发式评分器直接读 JSONL ，离线可用。 brew tap Laotree/tap brew install session-score-plugin session-score-plugin install

我做了一个工具，给 Claude Code 会话打分——找出 AI 协作里的得分点

V2EX - 技术 · 2026-05-26 14:57:26+08:00 · tech

用 Claude Code 久了，有个问题一直困扰我：不知道自己的使用方式好不好。每次 session 结束，感觉有收获，但说不清楚哪里低效、哪里做对了。于是写了这个工具： session-score-plugin 。它做什么 Claude Code 每次 session 结束后，自动读取会话记录，输出一个 1–100 的分数，分解成 7 个维度：维度满分衡量什么 🔒 Security 15 危险命令、凭证泄露、risky pattern ⚡ Effectivity 15 目标完成度、纠错轮次、人工干预次数 🏗 Solidity 10 测试覆盖、commit 规范、PR 流程 💡 Efficiency 15 token 消耗、重复读文件、冗余步骤 🗺 Planning Quality 15 先问清楚再动手、用了 plan mode 吗 🔄 Recovery Ability 15 遇到报错能恢复吗、还是一直重复同一个错 🎯 Hallucination Rate 15 有没有引用不存在的文件/函数安装 brew tap Laotree/tap brew install session-score-plugin session-score-plugin install # 注册 Stop hook ，之后每次 session 结束自动打分我自己用下来的感受最让我意外的是：数字化之后，坏习惯变得非常清晰。我 Planning Quality 一直偏低——经常一上来就开始写代码，没有先把需求问清楚。Efficiency 也差，反复 Read 同一个文件。以前这些都是模糊的感觉，有了分数之后就变成了可以改的具体问题。开源： https://github.com/Laotree/session-score-plugin Rust 写的，MIT 协议。欢迎用过 Claude Code 的朋友试试，也欢迎提意见——特别是评分维度的权重合不合理，以及有没有遗漏的重要维度。

[分享创造] 开源自托管：简历 × JD 匹配打分 + 章节 Diff 润色，使用自己的 API Key

v2ex · 2026-05-20 16:14:40+08:00 · tech

最近做了一个自托管的开源简历与岗位 JD 智能匹配工具。在本地运行 Next.js ，使用你自己的 AI API Key ；简历、匹配记录与配置保存在 data/ 目录，无需登录、无需云端数据库。发出来给正在改简历、对 JD 的大佬试试。功能包括：传 PDF 、粘贴 JD ，AI 给出匹配分、缺口关键词和润色建议，支持章节 Diff 左右对照，有匹配历史和多份简历管理。API Key 自己配（ OpenAI / DeepSeek 等），数据存在 data/ 目录，无登录无付费，适合本机自用。下方是图例： 1 、工作台 2 、匹配结果 3 、匹配历史 4 、我的简历 5 、AI 设置 GitHub： https://github.com/Rowe83/ApplyRight-AI 欢迎 Star / Issue 。

6位数字的xyz域名(根据价值排名)

LinuxDo 最新话题 · 2026-05-17 20:47:51+08:00 · tech

之前有老哥发了6位数字的xyz域名,我在他基础上对这些域名进行了打分,喜欢的大佬可以拿下. 前10个: 排名号码靓号原因 1 529925 回文 2 676787 5连顺, 头6 3 545656 5连顺 4 234345 5连顺 5 323434 5连顺 6 343454 5连顺 7 343455 5连顺 8 434545 5连顺 9 545433 5连顺 10 032321 5连顺发一些6位xyz靓号域名扫了一些未注册的6位域名可以让ai去帮你挑想要的域名靓号评分完整榜单.csv (98.2 KB) 1 个帖子 - 1 位参与者阅读完整话题

我做了一个旅行搭子匹配打分的网站~

LinuxDo 最新话题 · 2026-05-14 11:34:07+08:00 · tech

本帖使用社区公益推广，符合推广要求。我申明并遵循社区要求的以下内容：我的项目是免费使用的，无收费（变相收费、赞助）部分：是我的帖子已经打上公益推广标签：是我的项目属于个人项目，与公司或商业机构无关：是我的项目不存在QQ、TG等群组引流：是我的项目不存在非运营必要的网站引流：是我的项目不存在为他人推广、AFF：是我的项目无关联的商业项目：是我的站点存在登录，并已接入 LINUX DO Connect：否我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出第一次发分享自己项目的帖子，如姿势不对马上修改。自己比较喜欢旅游吧，痛点在于朋友都很忙，找搭子什么的要是碰到性格合得来的还好说，合不来的那是真难受，不如一个人，避免出现这种尴尬，如何量化两人之间的匹配度是个好问题。于是去搜小红书发现，只有相关的测试题，最后还是要双方拿着对方的答案review，于是便萌生了做这样一个网站，解决这个痛点。精选的27道题目，核心算法考虑了多个维度，来给出结果。我的用户名：lsd 欢迎和我匹配，大家也可以看看有没有尚待优化的空间，结合现实，分数是高了还是低了 https://dazi.fellhydra.cn/ 1 个帖子 - 1 位参与者阅读完整话题

[分享创造] 结合 Gemini 2.5 和 AI 绘图，做了一个带“8 种面部改造方案”的颜值打分器

v2ex · 2026-05-11 14:45:48+08:00 · tech

大家好，我是 Omoggle (omoggle.site) 的开发者。最近国外有个叫 Omoggle 的“颜值对战”随机视频网站很火，带火了 Looksmaxxing （颜值提升）和 PSL Score （面部评分）的圈子。我看了一圈市面上的颜值打分工具，发现都有一个通病：光给你打个分（甚至有时候打分还很低），让人产生容貌焦虑，但从来不告诉你“怎么变好看”。作为程序员，我觉得这不合理，AI 应该能做得更多。于是我花时间撸了这个工具： Omoggle Glow-Up 。 👉 体验地址： https://omoggle.site 💡 核心亮点：不仅是打分，更是“改造路线图” 用户上传一张自拍后，系统在 15 秒内会做两件事：多维打分：接入 Gemini 2.5 Flash ，多模态评估面部的对称性、下颌线、皮肤、眼角倾斜度等，给出一个客观的 PSL 分数。生成 8 种改造方案：这是核心功能。我接入了 AI 绘图模型（ nano banana ），采用控制变量法，针对你的照片生成 8 种不同的“变帅/变美”渲染图。比如：换 3 种适合你脸型的发型比如：加上不同修剪风格的胡须（看看你适不适合留胡子）比如：调整光线（模拟摄影棚打光，让你知道光线多重要）比如：清理皮肤瑕疵、甚至调整面部微表情你最终拿到的是一个直观的 Before/After 对比图卡片，你可以清楚地看到：“如果我换这个发型，我的分数能提高多少”。 🛠️ 技术实现与隐私保护在开发过程中，重点优化了以下几点：速度：打分大概 2 秒，8 张渲染图是并发处理的，基本控制在 15~25 秒内出全套结果。真实感：刻意限制了 AI 绘图的自由度，追求的是“真实的你换了个发型”，而不是“加了重度美颜滤镜的卡通人”。隐私优先（ Zero-storage ）：知道大家对上传正脸照有顾虑，所以后端设置为处理完毕后秒删照片，绝不留存训练数据。 💬 期待 V 友的反馈目前产品刚上线（首次扫描是免费的），网站针对移动端和桌面端（甚至 OBS 推流比例）都做了适配。想请 V 站的大佬们帮忙体验一下，并吐槽几个问题： Gemini 2.5 的评分体感如何？（大家觉得给的分数客观吗？还是太严苛了？） AI 渲染的 8 种改造效果自然吗？有没有出现“换头”级别的离谱变形？ UI/UX 方面有没有需要改进的地方？欢迎大家在评论区贴出你的改造前后对比图（如果不介意爆照的话 😂），或者提出任何技术和产品上的建议，我都在线解答！

搜集一些令人惊艳的GPT生图（持续更新）

linux.do · 2026-04-28 23:21:40+08:00 · tech

评论区发图，大家一起来打分百分制，打分使用小火箭🚀 欢迎大家积极分享自己的图片 2 个帖子 - 2 位参与者阅读完整话题

让deepseek4p审查仓库，然后opus4.6和gpt5.5对审查结果打分

linux.do · 2026-04-25 01:47:04+08:00 · tech

opus给了6.5分 gpt给了7分 1 个帖子 - 1 位参与者阅读完整话题

相关专题

/tag/打分