WWW.YOUINFO.SITE
标签聚合 重点

/tag/重点

v2ex · 2026-06-09 14:37:17+08:00 · tech

直接说重点: 月薪最高 150k + 期权 杭州 头部 FinTech 平台,注册用户规模大 关于这个 CEO:连续创业者,有成功退出经历,亲自投过多位独角兽创始人。他特别欣赏有创业心的人。如果你有创业梦,他可以成为你未来的天使投资人——这不是画饼,是他一直在做的事。 你要做的事: 从 0 搭建财务 AI Agent ,包括意图识别、长链路推理、记忆机制、RAG+知识图谱; 全栈架构统筹+金融级数据安全; 组建算法×工程融合团队。技术方向你定,不是来执行别人方案的。 需要你有: 8 年+研发经验,带过 5 人以上团队; 真实落地过 0 到 1 的 AI 产品; 算法和工程都能说得上话,自己能写代码; FinTech 经验优先。 能给到这个薪资的公司很多,但老板本身就是你创业路上潜在贵人的机会,可遇不可求。 自荐或推荐都欢迎,评论区回复或私信均可。成功推荐重酬感谢。 可以加 vx:heysoso1 ,发简历 or LinkedIn 来聊

LinuxDo 最新话题 · 2026-06-09 11:26:38+08:00 · tech

叠个甲:这里重点讨论的是复杂度、规模都中高以上的项目,不是简单的CRUD、数据面板等等。后者大部分情况下完全AI编程没问题。 最近 Vibe coding 了不少。在很简单的项目上,AI 无往不利,效率极高。但是在某些复杂的场景上,我自己出现了 AI 写的代码,不管在功能上和架构设计上都跟我的设想相去甚远的情况,最终只能推倒重来。 思考了很多,刚好知乎推送了这一篇回答给我,我发现说得很有道理,分享给各位。 特别是这几句,越用AI编程越觉得说得很准确: “问题就在于,很多项目真正难的地方,不是把代码写出来,而是设计先站住。什么抽象该有,什么抽象不该有;什么状态应该通过设计保证,什么不该留到运行时去兜底;这些东西,AI 现在还不稳定。它在“做”上很强,但在“该不该这么做”上,经常差一口气。” “AI 则很容易多写几层判断。这类代码不能简单说错,但在 nginx 这种项目里,它很多时候会把本来应该由设计保证的东西,退化成运行时到处打补丁。” (原文链接在最后) 来源知乎链接 12 个帖子 - 12 位参与者 阅读完整话题

IT之家 · 2026-06-09 09:15:30+08:00 · tech

IT之家 6 月 9 日消息,工业和信息化部办公厅、国务院国资委办公厅 6 月 8 日发布关于联合开展 2026 年度人形机器人与具身智能实景实训专项行动的通知。 通知提到, 到 2026 年底,人形机器人等重点产品在一批代表性场景中率先完成应用验证和常态部署,开启“作业模式” ;凝练形成百个以上高价值应用场景,进一步丰富具身智能应用谱系,带动形成万台级规模落地能力。 IT之家附主要任务如下: (一) 打造实景实训空间 。围绕工业、服务、特种领域,聚焦生产制造、检测分析、维修维护、仓储物流、餐饮零售、医疗康养、安全生产、应急救援、防灾减灾等重点场景的人形机器人、四足机器人应用需求,组织相关企事业单位,选取一批目标需求明确、工作状况清晰、标准化程度高且具备经济可行性的真实场景单元(包括但不限于生产作业工位、服务操作点位、应急处置站点),作为实景实训空间载体。确定场景单元提供单位(即用户单位),支持其按照“最小干预、利旧复用”原则开展作业环境适配改造,明确场景实训关键技术要求,打造可训练、可测试、可验证的实景实训空间。各省级地区、各央企应坚持需求牵引、因地制宜、择优遴选、错位布局,避免场景类型扎堆。各省级地区应选取重点场景单元不少于 20 个,至少覆盖工业、服务、特种领域中的两类,各央企应结合所处行业领域,选取重点场景不少于 10 个。 (二) 组建创新应用联合体 。支持以用户单位、整机企业(或应用服务商)为主体,会同模型算法、零部件等供应链企业以及科研院所等,针对每个场景组建创新应用联合体。用户单位负责开放实景实训空间,量化部署应用目标,围绕感知决策、操作执行、交互协作、环境适应性和可靠性等细化场景要求,提供必要的作业流程数据与环境语义信息,配合场景攻关与成效验证评估。整机企业(或应用服务商)用好实景实训空间,着力攻关场景理解、任务规划、操作执行、人机协同、持续学习、可靠运行能力,推动人形机器人、四足机器人等整机产品与场景需求深度适配。供应链企业、科研院所发挥自身优势,加速关键部组件迭代升级,加强关键共性技术攻关,为应用验证和规模部署做好服务保障。鼓励创新应用联合体编制任务书,确定牵头单位,签订合作协议,明确攻关指标、任务边界、知识产权归属和利益分配方式,形成长效运行机制。 (三) 攻关实用化作业技能 。指导创新应用联合体对照真实岗位能力要求,通过实景实训打造作业技能包,形成可落地、可复制的整机解决方案。打造一批场景适配性强、性能指标领先的具身智能基础模型和运动控制算法,持续提升“大小脑”模型算法抗扰和自适应水平,强化复杂或异常工况下的泛化与容错能力,鼓励在国家级开源社区开放。构建一批高质量、高保真数据集,提升全身运动轨迹、力位控制曲线、操作执行序列及时序逻辑等全维度信息记录的精度准度,持续丰富空间语义、物体属性以及异常处置、突发干扰、边界工况等真实场景数据。加强数据治理,在保障数据安全、隐私保护、商业秘密前提下稳妥有序开放共享。针对不同场景需求,优化模型压缩、推理加速技术,凝练云边端协同、离网自治等一批多样化算力部署模式。强化结构耐久、热管理、功耗优化等抗疲劳设计,提升长时间、高负荷连续作业能力,完善碰撞检测、力控限制、紧急制动、黑匣子等安全能力,确保人机混行环境下的使用安全。 (四) 加强实景应用验证与常态部署 。指导用户单位(或委托第三方机构)结合场景特性制定应用验证测试规程与达标条件,科学评估整机解决方案的真实作业成功率、效率提升率、安全可靠性及经济可行性等关键指标,出具应用验证报告。对验证通过的整机解决方案,各省级地区、各央企推动在用户单位及同类场景、关联领域常态化部署。对验证成熟的操作系统、仿真平台、关键零部件等基础软硬件产品,推动在相关整机企业拓展应用,实现“验证一个、部署一批、带动一片”。各省级地区、各央企建立规模化部署风险预警与动态调整机制,对技术迭代快、场景变化大的领域,预留技术升级窗口与退出通道。鼓励探索“人形机器人即服务”模式,通过按效用付费、经营性租赁等商业创新手段降低用户投入门槛,加速市场化推广。 (五) 强化关键要素保障 。支持创新应用联合体参与工业和信息化部人形机器人与具身智能标准化技术委员会工作,强化关键标准贯标与落地应用。参考人形机器人全生命周期管理有关标准规范,强化整机“身份证”信息管理能力,持续健全完善人机安全协作管理机制。培养既掌握核心技术、又精通行业场景应用的多元复合型人才,加快构建结构合理、素质优良的产业人才梯队。统筹运用股权、债权、保险等手段,为企业提供全链条金融服务。各省份结合产业发展实际,探索促进人形机器人、具身智能产业发展和应用的地方性制度安排,探索人形机器人保险等政策。 (六) 凝练成熟经验 。对技术领先、成效显著、模式成熟的实训方案,提炼场景改造、环境适配、部署验证、日常运维等全流程操作指南,以点带面促进跨区域、跨行业交流。结合工作实际,各省级地区可推荐优秀实训方案不超过 10 个,各央企推荐优秀实训方案不超过 5 个。系统总结人机协作管理、产品安全准入、运维责任界定、安全应急处置等管理规范,沉淀创新应用联合体组建、数据确权共享、商业利益分配等机制经验,支撑专项行动快速复制推广。

IT之家 · 2026-06-07 15:27:55+08:00 · tech

IT之家 6 月 7 日消息,据科技媒体 Wccftech 昨天报道,AMD 认为统一内存架构(UMA)正迅速崛起,并为公司带来巨大发展机遇。 AMD 高级副总裁兼客户业务总经理大卫 · 迈克菲(IT之家注:David McAfee)在媒体圆桌采访时表示,未来几年,统一内存架构将成为行业关注重点,公司也将大力投入。AMD 目前的第一代锐龙 AI MAX 平台至高支持 128GB 内存,最多可将 112GB 内存分配给 GPU 使用。 而英伟达的 RTX Spark 也采用类似思路,可根据工作负载动态分配 CPU、GPU 所需内存资源,让系统资源更加适配广泛的工作场景。 AMD 透露,统一内存架构将深刻影响其未来产品,该公司正在开发新一代锐龙 AI MAX 400 Series 芯片, 最高支持 192GB 统一内存 ,GPU 可使用 160GB,能够本地运行 300B+ 参数的大语言模型。 有记者在采访中询问:“公司未来是否会研发 UMA 设计的锐龙游戏处理器?或者类似 Strix Halo 搭配 3D V-Cache、封装内存的高阶设计?”。 大卫 · 迈克菲对此回答道:“我不知道答案,所以我暂时无法给出结论。但随着 Strix Halo 推出、英伟达进军同一领域, 未来几年业界将高度关注 UMA 技术 。我们需要找到最适合 UMA 的架构,同时不断改进技术。我不知道未来两三年的技术发展方向, 但它确实开创了一个良机无限的世界 ”。 值得注意的是,这名 AMD 高管在现场对英伟达 RTX Spark 给予高度评价。他认为,英伟达推出竞品实际上是认可了 AMD 的理念。他说道:“我们依然认为 Halo 的统一架构,是这类平台的最优解。 英伟达推出类似产品表明他们也认同这一点 ”。

IT之家 · 2026-06-07 11:21:58+08:00 · tech

IT之家 6 月 7 日消息,快手平台现已发布《2026 年度未成年人保护报告》,过去一年里快手持续加强未成年人相关内容治理能力建设,平台全年累计清理涉未成年人违规信息 82 万条。 针对网络欺凌、诱导打赏、不良社交、虚假信息等重点风险场景,快手平台持续加强内容巡查与专项治理。在未成年人模式内容安全治理方面,平台建立“机器审核 + 人工抽检 + 人工审核 + 专项审核”多层次审核机制。 针对未成年人的直播行为,平台实行分级、从严管理。具体来看:对 16 岁及以下的未成年人,平台坚持“零容忍”原则,严禁开播,一经发现,将立即关停直播、回收直播权限;针对疑似 17 至 18 岁的用户,平台要求完成成年人身份核验后方可开播,同时严格限制涉及未成年人身心健康风险的内容,禁止诱导未成年人参与打赏、充值等。 同时,快手持续升级技术,迭代优化智能预警能力,加强对未成年人的网络安全守护。2025 年平台累计开展未成年人社会救助 8425 例, 通过研判识别存在轻生倾向的风险并触发报警机制,全年成功干预挽救 87 名未成年人 。 平台还持续聚焦危害未成年人身心健康的突出问题。报告显示,平台针对“危险驾驶”“隔空猥亵”“售卖未成年人情色资源”“爆破盗窃”等违法违规内容开展专项治理,专项处置涉未成年人违规账号 16762 个,并主动向公安机关移交风险线索 718 例。依托用户举报和专项研判机制,平台梳理形成 28 起典型案件,升级 36 项风控策略,举报处置涉未成年人违规账号 13476 个。 同时,平台持续加强与全国公安机关的协同打击力度,协助侦破多个冒充平台客服及公检法人员实施诈骗的犯罪团伙, 抓获犯罪嫌疑人 35 名,打掉涉案公会 5 家,涉案金额达 1190 万元 。 快手安全相关负责人表示,平台将持续完善未成年人保护体系,不断提升产品安全能力、内容治理能力,积极推动平台治理、家庭教育、学校引导与社会协同深度融合,让未成年人得到更好守护。

IT之家 · 2026-06-05 22:01:13+08:00 · tech

IT之家 6 月 5 日消息,BOE(京东方)今日与 vivo 正式揭牌成立北极星联合实验室。 官方表示,基于长期合作积淀的技术默契与产业互信,北极星联合实验室确立清晰的运作模式与研发定位: 由 vivo 输出产品核心卖点与消费者真实体验需求 , 京东方针对性攻克产品痛点 , 持续实现画质升级、器件性能提升。 双方联合聚焦极致视效、品质可靠、消费市场等三大核心维度,共同打造极致用户视觉与使用体验: 极致视效 :从真实色彩、低灰阶高亮度低反射清晰画质,到低灰阶展开、真 10bit 画面层次,再到高刷拖影优化,全方位升级终端显示观感。 品质可靠 :建立新技术品质评价标准,完成双方品质基准全面对齐。 消费市场 :开展模组与整机系统联合评价、消费者体验调研、多场景联合仿真,让技术创新贴合真实用户需求。 IT之家获悉,未来京东方与 vivo 将持续加码前沿技术布局, 重点围绕折叠、窄边框、通透及高刷人因研究等方向深化联合攻关 。

v2ex · 2026-06-04 22:36:28+08:00 · tech

复杂局域网里的 WebRTC 稳定性,重点不只是 WebRTC offer/answer 怎么转发,还包括外围控制链路如何恢复。 这个场景不是 2C 通话,而是更接近医疗、养老等机构里的设备群:大量共享设备长时间在线,集中运维,现场环境可能比较嘈杂,同时还要保证一定收音距离和通话音质。 我遇到的核心问题是:长连接不一定会明确断开,有时会出现“看起来还连着,但应用消息已经不通”的状态。结果是设备页面显示在线,但呼叫事件发不到对端,超时、挂断、多人通话清理都会变得不一致。 这篇文章聚焦几个点: WebSocket 长连接假连接为什么危险 为什么只依赖客户端主动重连不够 gRPC Gateway 如何做双向控制 自动发现和主节点状态表怎么帮助恢复 呼叫超时、自动挂断、一对一挂断、多人挂断如何收敛 嘈杂环境下,音频可观测性为什么也属于稳定性的一部分 我的结论是:这不是简单的 WebSocket 换 gRPC ,而是要补齐发现、状态和恢复闭环。媒体链路仍然走 WebRTC ,Go/gRPC 更适合做控制面和状态收敛。 原文地址: https://www.lodan.me/posts/webrtc-grpc-gateway-discovery-recovery/ 想听听大家在局域网、弱网、设备长时间运行场景里,是怎么处理长连接假在线和通话状态恢复的。

v2ex · 2026-06-04 22:26:01+08:00 · tech

复杂局域网里的 WebRTC 稳定性,重点不只是 WebRTC offer/answer 怎么转发,还包括外围控制链路如何恢复。 这个场景不是 2C 通话,而是更接近医疗、养老等机构里的设备群:大量共享设备长时间在线,集中运维,现场环境可能比较嘈杂,同时还要保证一定收音距离和通话音质。 我遇到的核心问题是:长连接不一定会明确断开,有时会出现“看起来还连着,但应用消息已经不通”的状态。结果是设备页面显示在线,但呼叫事件发不到对端,超时、挂断、多人通话清理都会变得不一致。 这篇文章聚焦几个点: WebSocket 长连接假连接为什么危险 为什么只依赖客户端主动重连不够 gRPC Gateway 如何做双向控制 自动发现和主节点状态表怎么帮助恢复 呼叫超时、自动挂断、一对一挂断、多人挂断如何收敛 嘈杂环境下,音频可观测性为什么也属于稳定性的一部分 我的结论是:这不是简单的 WebSocket 换 gRPC ,而是要补齐发现、状态和恢复闭环。媒体链路仍然走 WebRTC ,Go/gRPC 更适合做控制面和状态收敛。 原文地址: https://www.lodan.me/posts/webrtc-grpc-gateway-discovery-recovery/ 想听听大家在局域网、弱网、设备长时间运行场景里,是怎么处理长连接假在线和通话状态恢复的。

v2ex · 2026-06-04 22:18:53+08:00 · tech

复杂局域网里的 WebRTC 稳定性,重点不只是 WebRTC offer/answer 怎么转发,还包括外围控制链路如何恢复。 这个场景不是 2C 通话,而是更接近医疗、养老等机构里的设备群:大量共享设备长时间在线,集中运维,现场环境可能比较嘈杂,同时还要保证一定收音距离和通话音质。 我遇到的核心问题是:长连接不一定会明确断开,有时会出现“看起来还连着,但应用消息已经不通”的状态。结果是设备页面显示在线,但呼叫事件发不到对端,超时、挂断、多人通话清理都会变得不一致。 这篇文章聚焦几个点: WebSocket 长连接假连接为什么危险 为什么只依赖客户端主动重连不够 gRPC Gateway 如何做双向控制 自动发现和主节点状态表怎么帮助恢复 呼叫超时、自动挂断、一对一挂断、多人挂断如何收敛 嘈杂环境下,音频可观测性为什么也属于稳定性的一部分 我的结论是:这不是简单的 WebSocket 换 gRPC ,而是要补齐发现、状态和恢复闭环。媒体链路仍然走 WebRTC ,Go/gRPC 更适合做控制面和状态收敛。 原文地址: https://www.lodan.me/posts/webrtc-grpc-gateway-discovery-recovery/ 想听听大家在局域网、弱网、设备长时间运行场景里,是怎么处理长连接假在线和通话状态恢复的。

LinuxDo 最新话题 · 2026-06-01 23:18:26+08:00 · tech

你们闹得太大了,我们被迫来道个歉 M3更大计算成本更高更好用,你们先体验一下 后续token plan的调整就这么定了,你们既然只关注5小时限额和周限额,那套餐总额度我就不管了 6.1日到6.7日的5小时额度和周限额双倍,并且今晚重置总额度,重置完之后你们就赶紧用,用完就别说退款了 啥时候再有调整啥时候再说,现在就先这么滴了 但是实际上minimax的tokenplan最大的变化是以前的算请求次数变成了现在的总token 额度,同时5小时限额和周限额也是限制了token的使用数量,由于计费逻辑变化造成的用户损失,只字未提 17 个帖子 - 8 位参与者 阅读完整话题

IT之家 · 2026-06-01 19:24:04+08:00 · tech

IT之家 6 月 1 日消息,在今天的华为 nova 16 系列及全场景新品发布会,华为终端 BG CEO 何刚正式发布了一款平板的集大成之作 —— MatePad Pro Max。新平板搭载麒麟 T93 系列旗舰芯片, 定价 5999 元起 。 目前,华为 MatePad Pro Max 系列旗舰平板重点参数配置差异已公布,IT之家汇总如下: 华为 MatePad Pro Max 重点参数配置差异 型号 HUAWEI MatePad Pro Max HUAWEI MatePad Pro Max 悦享款 操作系统 HarmonyOS 6.1 CPU 型号 麒麟 T93 Pro 麒麟 T93 内存颜色 WiFi 版 12GB+256GB:深空灰、皓月银 WiFi 版 12GB+512GB:深空灰、皓月银 柔光版 WiFi 版 12GB+256GB:凝光蓝、曜石灰 柔光版 WiFi 版 12GB+512GB:凝光蓝、曜石灰 柔光版 WiFi 版 20GB+1TB:凝光蓝 WiFi 版 12GB+256GB:深空灰、皓月银 WiFi 版 12GB+512GB:深空灰、皓月银 WiFi 版 16GB+512GB:深空灰、皓月银 屏幕 屏占比 94% 屏幕尺寸 13.2 英寸 屏幕类型 OLED 分辨率 3000×2000 像素 刷新率 最高 144Hz 电源与充电 有线充电 最大支持 120W (20V/6A) 兼容 20V/5A 或 20V/4.4A 或 20V/3.3A 或 11V/6A 或 10V/4A 或 10V/2.25A 超级快充,兼容 9V/2A 快充 最大支持 40W 有线反向超级快充 无线充电 不支持 电池容量 10400mAh(典型值) 理论待机时间 最长可达 17.16 天(实验室数据,实际待机时间请以实际为准) 摄像头和像素 前置摄像头 摄像头个数:1 个 1200 万像素摄像头(F2.4 光圈) 后置摄像头 摄像头个数:2 个 5000 万像素主摄像头(F1.8 光圈) 第二代红枫原色摄像头 通信 卫星通信 柔光版 WiFi 版 20GB+1TB 支持畅连北斗卫星消息 其余均不支持 不支持 星闪 支持 华为 MatePad Pro Max 系列旗舰平板配置差异一图知:

IT之家 · 2026-06-01 17:22:39+08:00 · tech

IT之家 6 月 1 日消息,华为 nova 16 系列新机已于今日正式发布,新机共四款机型, 定价 2699 元起 。 ▲ IT之家现场实拍:华为 nova 16 系列真机 目前,华为 nova 16 系列新机重点参数配置差异已公布,IT之家汇总如下: 型号 nova 16 nova 16 Pro nova 16 Ultra nova 16z 外观颜色 天际白、星空黑、幻彩贝母、晴空蓝 天际白、星空黑、晴空蓝 天际白、星空黑、幻彩贝母 内存规格 256GB / 512GB 256GB / 512GB / 1TB 256GB / 512GB 操作系统 HarmonyOS 6.1 CPU 型号 麒麟 9010S 麒麟 8020 后置摄像头 摄像头个数:3 个 5000 万像素超高清镜头 5000 万像素 RYYB 潜望长焦镜头 红枫原色镜头 摄像头个数:4 个 2 亿像素 RYYB 超高清大底防抖镜头 5000 万像素 RYYB 潜望长焦镜头 5000 万像素超广角微距镜头 红枫原色镜头 摄像头个数:4 个 2 亿像素 RYYB 超高清大底防抖镜头 5000 万像素 RYYB 大光圈潜望长焦镜头 5000 万像素 RYYB 超广角微距镜头 红枫原色镜头 摄像头个数:3 个 5000 万像素超高清镜头 1200 万像素 RYYB 长焦人像防抖镜头 红枫原色镜头 电源与充电 电池容量 典型容量:7000mAh 典型容量:7000mAh 典型容量:7000mAh 典型容量:6000mAh 有线充电 支持最大超级快充 100W (20V/5A) 兼容 11V/6A 或 10V/4A 或 10V/2.25A 或 4.5V/5A 或 5V/4.5A 超级快充 兼容 9V/2A 快充 支持最大超级快充 100W (20V/5A) 兼容 11V/6A 或 10V/4A 或 10V/2.25A 或 4.5V/5A 或 5V/4.5A 超级快充 兼容 9V/2A 快充 支持最大超级快充 100W (20V/5A) 兼容 11V/6A 或 10V/4A 或 10V/2.25A 或 4.5V/5A 或 5V/4.5A 超级快充 兼容 9V/2A 快充 支持最大超级快充 100W (20V/5A) 兼容 11V/6A 或 10V/4A 或 10V/2.25A 或 4.5V/5A 或 5V/4.5A 超级快充 兼容 9V/2A 快充 无线充电 不支持 不支持 支持 50W 华为无线超级快充 支持 7.5W 无线反向充电 不支持 屏幕参数 玻璃材质 铝硅玻璃 昆仑玻璃 昆仑玻璃 铝硅玻璃 刷新率 120Hz 刷新率 1-120Hz LTPO 自适应刷新 1-120Hz LTPO 自适应刷新 120Hz 刷新率 通信 卫星通信 畅连北斗卫星消息 运营商北斗卫星短信 畅连北斗卫星消息 运营商北斗卫星短信 畅连北斗卫星消息 运营商北斗卫星短信 天通卫星通信 畅连北斗卫星消息 运营商北斗卫星短信 华为 nova 16 系列新机配置差异一图知: ▲ 图源:华为官方 | nova 16 系列新机配置差异 相关阅读: 《 2699 元起:华为 nova 16z 手机发布,麒麟 8020 芯片、后置 5000 万像素红枫影像 》 《 3899 元起:华为 nova 16 Pro / Ultra 手机发布,麒麟 9010S 芯片、业界独家红枫 2 亿影像 》 《 nova 史上最强数字版发布,华为 nova 16 手机售价 2999 元起 》

IT之家 · 2026-06-01 14:41:11+08:00 · tech

IT之家 6 月 1 日消息,上海市新闻发布会今天召开,介绍《上海市服务业发展“十五五”规划》相关情况。 上海市经济信息化委副主任葛东波表示,预计到 2030 年,上海市软件和信息服务业营收规模有望达到 3 万亿元左右,行业增加值突破 1 万亿元。上海将集中力量,重点突破工业软件、基础软件等领域的底层关键核心技术。 IT之家注意到,上海将加快推动人工智能全面赋能软件全生命周期,覆盖需求分析、代码生成、测试验证等各个关键环节,积极培育“智能体即服务”“结果即服务”等新型业态。

LinuxDo 最新话题 · 2026-05-29 16:57:31+08:00 · tech

Claude上线了Opus4.8,于是立刻开始了对话测试,重点考察数理推理能力,包含和其他模型的对比。 测试条件 Claude家族:官网web对话 Gpt 家族 (只有5.5 xhigh):官网web对话 D老师:官网api + web对话 彩蛋模型:官网api + web对话 第一轮:测试数学直觉 测试模型:Opus4.8-high(默认配置 + ad thinking) 这不是脑筋急转弯啊喂!不过还好没上来一刀捅一个朋友 ,所以是思维预算没给够?开max试试。 测试模型:Opus4.8-max 依旧固执认为是脑筋急转弯,而且一下烧掉好多token.. 但至少是当作正常问题推理了。接下来看看同门的4.6。 测试模型:Opus4.6-midium(默认配置 + extend thinking) 没毛病,准确、高效、简洁。这可只是midium.. 再看看奥特曼家呢 测试模型:Gpt-5.5-xhigh 和4.6的表述顺序稍有不同,但一样的简洁直观,官网web还做了公式渲染。好了,接下来是一刀一个小朋友的D老师了。 测试模型:Deepseek-v4-pro(默认配置) 啊什么?D老师竟然只用了31秒思考就正确回答了?除了回复格式不如前面简洁直观,答案本身是没问题的。 第二轮:追问任意情况拓展 测试模型:Opus4.8-high(默认配置 + ad thinking) 第二轮4.8high似乎回过味儿来了,但为何感觉文字量不少但信息密度这么低呢?也没解释公式的证明过程.. max太费额度就不测了,直接4.6 测试模型:Opus4.6-midium(默认配置 + extend thinking) 不说别的,4.6的回答十分的清晰简洁,并且没有多余的话,还是厉害!再看看gpt吧 测试模型:Gpt-5.5-xhigh 这里gpt-5.5理解成了求解“小朋友比西瓜多一个”的特定情况,不得不说官网对公式的展示优化还是很舒服的,可能是因为有很多研究者用pro模型的与缘故?但内容角度说没有推理任意n、m场景下的结论,这一点是不如Opus4.6的。好了,接下来到我们的D老师了。 测试模型:Deepseek-v4-pro(默认配置) D老师你怎么了?一直思考了20分钟还没停下来,手动中断再跑还是一样.. 展开思维链可以看到D老师一直再自我怀疑“等等”和反问“可能吗”,算了算了先停了。 结论:4.8数理推理未超越4.6与Gpt-5.5,但tool use增强 意图理解 :固执默认为脑筋急转弯,初始的high effort下甚至没当一个数学问题去思考,这一点连Deepseek都不如。max effort虽然当作数学问题解答了,但依旧认为是脑筋急转弯。 推理能力 :第一轮均分问题都给出了正确的解法,这个比较惊艳的反倒是D老师也没踩坑。算平局。 发散思维 :按任意场景发散推理时,high effort直接给出了答案没给推理过程,差强人意吧。只有4.6和Gpt-5.5还是严格按照任意情形去推理本质规律了的,可惜Gpt-5.5默认给自己多加了个m = n-1的条件。目前看4.6还是综合较强。 工具使用 :4.8明显会更主动的调用工具,比如画一个图来辅助说明,这一点其他所有模型都没有这类倾向。在我的另一个场景下还会用python画svg来讨论。不过opus4.8 max的token开销是很大的,至于多出来的token消耗值不值得就因人而异了。 输出风格 :这是最可惜的一项,4.8在表达层还是没有超越4.6,会感觉信息密度非常低,比如特地解释什么是“一刀”,频繁使用“xxx(不是xxx)”等废话句式,整体阅读体验很差。 彩蛋:某个降价对标D老师的模型 6 个帖子 - 4 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-29 01:05:24+08:00 · tech

先上官方评测图 这次升级的重点已经不只是“更聪明”,而是明显在往真正的 AI Agent 方向走。 官方重点提到的能力包括: 更强的 coding 和 agentic task 更好的 computer-use / browser-agent 能力 更长任务链稳定性 更强 multimodal(PDF、图表、非结构化内容) 更低 hallucination 更高 honesty(更愿意承认不确定性) 更强 self-check 与 error recovery 官方数据显示: Online-Mind2Web 达到 84% Browser agent / computer-use 能力明显超过 Opus 4.7 企业 agent 场景推理能力大幅提升 多步任务速度更快 token 成本比 4.7 更低 Anthropic 这次特别强调: Opus 4.8 不会像很多模型一样“假装完成工作”。 官方测试中,4.8 更倾向于: 主动标记不确定内容 承认信息不足 避免 unsupported claims 同时: deception(欺骗行为) misuse cooperation(配合恶意用途) 相比 Opus 4.7 进一步下降。 官方链接: https://www.anthropic.com/news/claude-opus-4-8 4 个帖子 - 4 位参与者 阅读完整话题