WWW.YOUINFO.SITE
标签聚合 满分

/tag/满分

LinuxDo 最新话题 · 2026-06-10 10:20:34+08:00 · tech

放一些案例 每个都让人感叹 国模,你在哪 几乎都是满分答案 那问题在哪呢 这个问题和 Claude Opus 4.8测评:幽默A÷,风味4.7 开发调优 先放私有bench [image] 模型的直觉还是那样,claude的代码水平还是在线的 [image] [image] [image] 但主要扣分点就是,这个模型一次必然写不好,必须返工(不过agent会自己返工也行吧) [image] 神秘typos [image] 他是知道自己写错字了的,不用报错就知道,但还是写错 还很频繁,错字大模型来了。关键你写码写错字那不就爆了 … 中4.8的问题一样 错字 吞空格导致程序报错。而且依旧是知道自己写错了,马上去改。但在实际agent中我觉得相对致命,特别是价格翻倍了,分词器也翻倍了的情况下 实际日用Agent体验就是,太安全了,什么都给你拒绝 谁不想急头白脸一晚上吃一万个赛博安全拒绝呢。 原版mythos不仅没有这么厚的安全截断,而且也根本不存在错字问题。我的倾向是,原版mythos,mythos-5/fable-5其实是对4.6/4.8的DeepThink特化训练。以超长思考和agent换取性能。事实证明做到的,但同时也把底模的问题都带过来了 唉,A出 5 个帖子 - 5 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-09 00:39:11+08:00 · tech

从 【已公布部分结果,继续测其他模型~】佬们觉得哪个AI高考数学肯定能考满分? 以及 新高考数学一卷出炉,测测哪些 AI 有实力 继续讨论 本次测试为一次性全部发送,看模型能答多少分 叠甲: 问 1: 为什么不是一个一个题发送? 答 1: 因为现在的模型都太强大了,先用这个方式来测试,后续再继续测试,一个一个题发送,写另一个排行榜。另外还可以针对这个排行榜里面做错的题,对各个模型进行多次的询问,取最差结果。 我 GPT OSS 120b 和 GPT OSS 20b 是用的一个一个题问的方式(新开对话) 问 2: 为什么国产模型只测了Qwen 3.7 Max?为什么国外模型没测 Muse Spark、Grok?为什么 Claude 4.8 Opus 只测了一次? 答 2: 测了 Qwen 3.7 Max 是因为千问官网太好了,20 分钟思考不截断,而且一点都不卡,比 GPT 网页版还好! 没测 Kimi 是因为我没有 API 和官网会员 没测小米是因为,我忘了Xiaomi Mimo Studio,对不起 会补上的 没测 Deepseek 是因为我没有 API,官网又不是 max 思考强度,所以对他不公平 没测 GLM 5.1 是因为我没有 API,用官网也不行,因为思维链太长了官网截断了 没测 Muse Spark 是因为我没有 API,用官网也不行,因为思维链太长了官网截断了 没测 Grok 是因为我没有 API,用官网也不行,因为思维链太长了官网截断了 Claude 4.8 Opus 只测了一次是因为我完全没钱,感谢 @Nobody_233 佬帮忙测试一次(官网 max thinking) 问 3: 为什么没测试 GPT 5.4 Pro 和 GPT 5.5 Pro? 答 3: 不测试 GPT 5.4 Pro 是因为官网的 512 juice 的 GPT 5.4 已经有比较大的可能性拿到满分,不测试 GPT 5.5 Pro 是因为 GPT 5.5 在本次测试中,连续 4 次拿到满分,而且 GPT 5.5 Pro 这种数学水平已经不需要做一张高考卷子来证明自己的实力了 问 4: 为什么没测试不同答题策略?例如人类可以先做最难的题,再做最简单的题 答 4: 没错,本次测试并没有测试不同的答题策略,因为我认为把最难的题放在最后面,考验他的长上下文注意力,大大提高了这份卷子的难度,这也可以作为一个测试,所以我并不希望他先做难的,再做简单的 模型环境 GPT-5.2 Pro (官网 Extended Pro);GPT-5.5 / GPT-5.4 / GPT-5.2 Thinking(推理强度:Extra High): 官网 Pro 20X 账号;无 Personalization;无任何 Memory / Dreaming;无法参考对话历史记录;未使用临时聊天;已检查每次都没有使用任何工具(联网搜索、代码解释器等 Gemini Deep Think: 官网,无 personalization,无记忆 Gemini 3.1 Pro / Gemini 3.5 Flash: Google AI Studio,未设置 system prompt,思考强度全部都开的 high,Temperature 等参数全都是默认,未开启任何工具 Claude 4.8 Opus: @Nobody_233 佬帮忙测试,他是 5x max,官网对话,Max thinking,但由于我的失误,不是用的我最后一版 prompt,导致 Claude 在最后一题上表现不佳,或许用最后一版 prompt,Claude 就可以满分,明后天继续测试 Qwen 3.7 Max: 无其他设置,直接在官网问 测试流程: 新高考一卷校正版【 来源 】: exam_full.txt (6.9 KB) 一次性发测试时使用的prompt: exam_prompt.txt (7.1 KB) 各模型各run的原始输出 :(公平公正公开,大家可以帮忙检查过程,纠错) exam_source_public.zip (144.8 KB) 评分流程 客观题(1-14 题)(单选、多选、填空) Grok Build CLI - Composer 2.5 直接打分 主观题简单题(15-18 题) 15-18 题为一组,每次发 1-8 组,双 GPT 5.5 Pro 评分,有争议则互评 主观题困难题(19 题) 19 题单独为一组,每次发 1-5 组,双 GPT 5.5 Pro 评分,有争议则互评 (特别感谢 @fsmallcold 拉我上 Pro 车,抱歉今天刷 5.5 Pro 刷得都降智了 ) 测评结果(截至目前) 按最高分排序 满分 150;每错一小问扣 4 分。分数为各次 run 的最低–最高;排序按最高分,同分按最低分。 排名 分数 模型 次数 1 150 GPT 5.5 heavy 4 2 146–150 GPT 5.2 Pro extended 3 3 146–150 GPT 5.4 heavy 3 4 146–150 Gemini DeepThink 3 5 146 Claude Opus 4.8 1 6 146 GPT 5.2 heavy 3 7 142–146 Gemini 3.1 Pro extended 3 8 138–146 Qwen 3.7 Max 3 9 142 Gemini 3.5 Flash 3 按最低分排序 满分 150;每错一小问扣 4 分。分数为各次 run 的最低–最高;排序按最低分,同分按最高分。 排名 分数 模型 次数 1 150 GPT 5.5 heavy 4 2 146–150 GPT 5.2 Pro extended 3 3 146–150 GPT 5.4 heavy 3 4 146–150 Gemini DeepThink 3 5 146 Claude Opus 4.8 1 6 146 GPT 5.2 heavy 3 7 142–146 Gemini 3.1 Pro extended 3 8 142 Gemini 3.5 Flash 3 9 138–146 Qwen 3.7 Max 3 详细榜 markdown版 (点击了解更多详细信息) 分数-时长 图(将就着看吧 ) 用时 格式: mm:ss ;估计区间用 mm:ss–mm:ss ;超过 59 分用 H:mm:ss 。 模型 run1 run2 run3 run4 Claude Opus 4.8 未计时 — — — Gemini 3.1 Pro extended 5:30–6:30 5:30–6:30 5:30–6:30 — Gemini 3.5 Flash 4:30–5:00 4:30–5:00 4:30–5:00 — Gemini DeepThink 20:00 20:00 20:00 — GPT 5.2 Pro extended 1:49:00 1:40:00 1:41:00 — GPT 5.2 heavy 20:00–25:00 20:00–25:00 20:00–25:00 — GPT 5.4 heavy 15:23 25:21 27:00 — GPT 5.5 heavy 12:22 13:59 13:53 6:44 Qwen 3.7 Max 22:17 18:49 9:09 — 点评: 编辑 ing… 致谢(排名不分先后) 感谢 @aucura 考试结束后光速提供试卷 感谢 @Xsc15926 陪伴测试,明天加上 Gemma~ 感谢 @fsmallcold 拉我上车 GPT Pro 号 感谢 @Nobody_233 帮忙测试 Claude Opus 4.8 Max Thinking 感谢 无敌 @0v0 巨佬提供的 OpenAI 官 key, 感谢 @VonEquinox 提供的 Gemini 3 Deep Think,DT 宝刀未老 感谢 @Neptune1 提供的 Deepseek 50元 官 Key,明天测~ 26 个帖子 - 16 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-07 12:30:17+08:00 · tech

禁用联网,禁用代码执行 尽可能测试所有卷子,每个题测 3 次, 3 次全做对才算对 因为我没钱买 api 所以大部分只能测官网了 不能多模态的模型不测多模态题目,除非是可以通过非常简单的无歧义的语言描述的题 星光组:特别特别有希望拿满分的模型 OpenAI - GPT 5.5 OpenAI - GPT 5.4 OpenAI - GPT 5.2 OpenAI - o3 Pro Google - Gemini 3 DeepThink Google - Gemini 3.1 Pro Google - Gemini 3.5 Flash Meta - Muse Spark Alibaba - Qwen 3.7 Max Alibaba - Qwen 3.7 Plus 智谱 AI - GLM 5.1 DeepSeek - DeepSeek V4-Pro Anthropic - Claude 4.8 Opus Moonshot AI - Kimi K2.6 点击以查看投票。 阳光组:也有希望,但优先级略低一档的模型 OpenAI - o3 OpenAI - GPT-OSS-120b OpenAI - GPT-OSS-20b Google - Gemma 4 31B IT xAI - Grok 4.3 xAI - Grok 4.2 Heavy ByteDance - Doubao Seed 2.0 Pro 百度 - ERNIE 5.1 Thinking 小米 - Mimo 2.5 Pro 小米 - Mimo 2.5 MiniMax - MiniMax M3 阶跃星辰 - Step 3.7 Flash 点击以查看投票。 神仙组:不满分拉出来批斗,由于成本过高,每个题就测一次了 OpenAI - GPT 5.5 Pro OpenAI - GPT 5.4 Pro OpenAI - GPT 5.2 Pro 点击以查看投票。 注: 所有模型必须都禁用联网、禁用代码执行。 OpenAI GPT 5.5 / 5.4 / 5.2 使用官网 heavy。 Google Gemini 3.1 Pro / 3.5 Flash 使用 Google AI Studio,设置为 High。 OpenAI GPT-OSS-120b / GPT-OSS-20b 使用 Groq API,设置为 High + 65536,这是最大值了, Groq 好像不能设置 128K 思考。 Google Gemini 3 DeepThink 使用 Gemini App 官网。 ByteDance Doubao Seed 2.0 Pro 使用豆包 App 专家模式,尽可能测,怕 rate limit。 GLM 5.1 使用官网,尽可能测,因为官网总是繁忙。 Grok 4.3 / Grok 4.2 Heavy、Meta Muse Spark 如果联网搜索或调用工具,就重测。 DeepSeek V4-Pro、Claude 4.8 Opus、Kimi K2.6、MiniMax M3、Step 3.7 Flash 对不起,我没钱测 希望佬们帮忙测试测试 40 个帖子 - 13 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-01 15:04:00+08:00 · tech

感谢L站,高中生拿下广东省粤港澳学生科创大赛智能体冠军 搞七捻三 感谢L站,高中生拿下广东省粤港澳学生科创大赛智能体冠军 跟着站内佬友学了很多agent编排的干货 这下真的是 学AI 上L站了 [wxcamera1780113637533] 还剪了一个两分多钟的冠军速通第一视角vlog,发在视频号了 补充 很多佬友想要赛题,我周一回学校整理一下发出来给大家。 其实题目场景并不难,但是组委会限定用qwen3.5 2B Q4量化… 很多佬想要题目,今天整理了一下打包给到大家 其实场景并不是很难,毕竟是省教育厅面向小学到高中的比赛,需要兼顾各个年龄段 这个应该是全国范围内教育局最早推出的智能体比赛,大家都在摸索中 但是比赛现场要求全程离线,没办法vibe coding,只能自己手搓 而且限定智能体使用qwen3.5:2b q4量化作为基座,这种小模型上下文一场就会崩,逻辑能力几乎等于零,格式输出也经常炸 而且限时250min完成比赛,还有一些答辩的环节,平摊下来给到一题的时间就40~50min,在当时120多只队伍的现场确实还挺紧张的 这里是完整题包,包含测试程序,相信佬们可以轻轻松松满分复现 最终的产物需要搭建一个本地服务调用智能体,详见下文 2026 年广东省学生信息科技创新大赛-智能体设计与应用项目.zip (21.8 KB) 压缩包里有最终测试的裁判机程序,每题有十个检查点,每点10分 题目描述 赛项:2026 年广东省学生信息科技创新大赛——智能体设计与应用项目 场景:家用电器说明书阅读智能体\ 数据:基于真实电磁炉说明书(型号 HI1995G 等) 场景 本次任务围绕“家用电器说明书阅读智能体”展开。裁判机下发一份家用电器的说明书(JSON 格式),智能体需要阅读说明书内容并回答用户问题。 重要要求:智能体必须调用大语言模型,赛后将对参赛队伍提交的程序进行核验;若未调用大模型(纯规则/纯程序解),将按违规处理并不得分。 API 接口格式 裁判机 POST → 智能体 ip:端口/solve 请求体:{ "task_id": "T1", "input": { "说明书": { ... }, "问题": "...", "选项": { ... } } } 响应体:{"answer": 答案} 答案类型必须严格遵守各题要求,裁判机用 == 直接比对,不能有任何额外文字或格式错误。若该轮题目无法唯一确定答案或数据不足,返回 {"answer": "不确定"} 。 计时规则:5 秒为软超时起点,超过 5 秒开始按秒扣分(超出部分按秒向上取整,每轮最多扣 10 分);超过 15 秒(5+10)则该轮 0 分。 输入数据中(10组测试数据中一部分)的 说明书 可能包含较长的说明文字:注意事项、故障排查、售后条款等字段。 任务零(T0):握手测试 (点击了解更多详细信息) 任务一(T1):信息提取 (点击了解更多详细信息) 任务二(T2):条件判断 (点击了解更多详细信息) 任务三(T3):排序 (点击了解更多详细信息) 任务四(T4):判断推理 (点击了解更多详细信息) 任务五(T5):综合应用 (点击了解更多详细信息) 2 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-15 18:03:39+08:00 · tech

本榜单是按照未来期望评价的,满分 100 分,得分越高,未来期望越好。 这里列出了国内常见的 11 款 AI: DeepSeek 豆包 元宝(Hunyuan) Kimi Xiaomi MiMo 通义千问(Qwen) 文心一言 智谱清言(GLM) Minimax 讯飞星火 阶跃 我认为是这样的: 第一名 DeepSeek:95 分 第二名 Kimi:93 分 第三名 元宝:85 分 第四名 通义千问:75 分 第五名 Minimax:70 分 第六名 Xiaomi MiMo:60 分 第七名 阶跃:55 分 第八名 讯飞星火:40 分 第九名 豆包:25 分 第十名 智谱清言:15 分 第十一名 文心一言:0 分 13 个帖子 - 11 位参与者 阅读完整话题

IT之家 · 2026-05-08 16:24:15+08:00 · tech

IT之家 5 月 8 日消息,独立游戏工作室 Beethoven & Dinosaur 旗下叙事冒险作品《混音青春(Mixtape)》现已正式发售, 本作在 Steam 国区定价为 68 元 ,5 月 22 日前可享首发优惠价 61.2 元 ,截至IT之家发稿游戏好评率 96%“好评如潮”,游戏商品页( https://store.steampowered.com/app/2582320/Mixtape/ ) 本作在 Metacritic 平台 PC 版评分 93 分(14 家评论)、PS5 版 85 分(22 家评论)、Switch 2 版 89 分(6 家评论), 而 IGN 为本作打出了今年首个 10 分的满分评价 。 《混音青春》并不是单纯在复刻某个年代,而是在复刻一种“怀旧的感觉”。它讲述的并非玩家真正经历过的人生,而是那些似曾相识、带着青春滤镜的情绪碎片。即便你没在 90 年代长大、没玩过滑板、也没经历过美国青春电影里的校园生活,它依然能精准击中你对“青春岁月”的想象。 游戏围绕少女 Stacey Rockford 与朋友们的最后一天展开。在她即将离开家乡、前往纽约追梦前,一群人开始回忆彼此曾经历的青春片段。与很多强调“选择导向”的叙事游戏不同,《混音青春》并不让玩家决定剧情走向,而是更像陪伴这些角色一起重温人生。也正因为如此,角色显得更加真实自然:他们会尴尬、会嘴贫、会胡闹,也会在不经意间流露情感。整体对白风格不像某些青春题材作品那样刻意文艺,而更接近现实中的朋友聊天 —— 轻松、幽默,却偶尔真诚得让人措手不及。 游戏最大的特色,是把每段回忆都包装成一支“可游玩的 MV”。开发团队通过大量风格化演出,把普通青春记忆变成极具视觉张力的片段。例如伴随经典摇滚乐进行的迷幻垒球训练、坐购物车高速冲坡逃离警察突袭派对等桥段,都充满青春电影式的荒唐感。它既有《Jackass》式的疯狂,也有《伯德小姐》《年少时代》那类成长电影的细腻情绪。 玩法本身并不复杂,也几乎不存在失败惩罚。它更强调“沉浸在当下”的体验。例如跟着音乐节奏甩头、调配冰沙口味,每段互动都服务于情绪表达,而非挑战性。相比传统游戏,它更像一场融合电影、音乐与互动艺术的体验。 音乐更是《混音青春》的灵魂。游戏大量采用 90 年代及更早时期的流行与摇滚歌曲,但并非只挑最热门的经典,而是像真正热爱音乐的人精心制作的一盘“私人磁带”。从 That's Good 到 Love,再到不少冷门曲目,每首歌都与场景氛围高度契合。它不是单纯“放 BGM”,而是真正让音乐推动情绪与叙事。 视觉表现同样令人印象深刻。游戏融合了类似 《Spider-Man: Into the Spider-Verse》的动画风格、颗粒感真人素材、音乐录像带式剪辑以及大量打破第四面墙的演出方式,让整个流程始终保持新鲜感。开发团队显然非常热爱青春题材电影,而这种热爱也完整体现在作品中。 虽然《混音青春》流程并不长,大约只有 3 小时,但它更像一部值得反复回味的青春电影。你明知道剧情不会改变,却依旧愿意重新回到这些角色身边,再体验一次那些短暂却耀眼的时刻。 整体来看,《混音青春》成功把“怀旧”这种复杂情绪转化成了互动体验。它不只是让人回忆过去,更像是在创造一种“你仿佛经历过”的新记忆。凭借精准的音乐选择、自然生动的角色塑造,以及极具风格化的表现形式,它几乎重新定义了电子游戏中的“青春成长故事”。

www.ithome.com · 2026-05-04 18:07:19+08:00 · tech

IT之家 5 月 4 日消息,5 月 2 日,中国摩托车制造商“张雪机车”的法国车手瓦伦丁 · 德比斯在 2026 世界超级摩托车锦标赛匈牙利站 WorldSSP 组别夺得第三个分站冠军。5 月 3 日,德比斯接受总台记者采访时,回应了有关赛车性能的问题。 德比斯说,能骑着机车拿下比赛胜利,就足以说明一切。他对“张雪机车”非常有信心,打满分!随着车手与机车之间的磨合越来越顺畅, 未来必定会取得更好的成绩 。他同时也希望粉丝多一些耐心, 毕竟赛事竞争激烈,没有人能每场比赛都赢,但他和车队将在每一站赛事中全力以赴 。 据IT之家了解,2026 世界超级摩托车锦标赛(WSBK)匈牙利站 WorldSSP 组别第一回合正赛中,中国摩托车制造商“张雪机车”的法国车手瓦伦丁 · 德比斯 最后 20 秒连超两台雅马哈 ,夺得冠军。 此次匈牙利站第一回合的“逆风登顶”,是张雪机车继 WSBK 葡萄牙站包揽双冠之后,拿下的又一座冠军奖杯,也是张雪机车本赛季拿下的 第三个分站赛冠军 。