WWW.YOUINFO.SITE
标签聚合 测出

/tag/测出

LinuxDo 最新话题 · 2026-06-07 17:38:02+08:00 · tech

灵感来源: bilibili.com 为什么给出π的前面1亿位也无法让AI预测出后面的数字?_哔哩哔哩_bilibili 为什么给出π的前面1亿位也无法让AI预测出后面的数字?, 视频播放量 26608、弹幕量 9、点赞数 526、投硬币枚数 7、收藏人数 109、转发人数 24, 视频作者 castelu, 作者简介 浙江大学数学科学学院基础数学专业博士、高等院校数学系教师,国家级出版社出版教材《Linear... 给定 π 的前 n 位,训练出的 AI 可以预测 n+1 及以后的所有位数吗? π(在我们所观测到的精度下,几乎可以确定)是一个正规数,每一位数 0-9 出现的概率严格相等;前 n 位数字与第 n+1 位数字之间没有任何统计学上的相关性,因此无法通过预训练得到的非线性公式(也就是参数+模型架构)预测下一位 π是一个确定的可计算数,存在 Chudnovsky algorithm 等已知算法对π的真实值进行迭代计算;因此,当 n 足够大(题目中的 n 可以任取所需),计算机变量精度足够高时,存在一种可能性,通过大量数据得到的模型参数能够完美拟合 π 的真实值计算公式,并做出准确预测 讨论: Q1:是否会出现过拟合/欠拟合问题 A1: 几乎必然会出现,因为 π 是一个正规数,其前 n 项几乎没有任何简单的连续函数特征,训练时几乎必然无法正确收敛 Q2:假设训练集和训练方法足够完美,足以让模型绕开所有的过拟合与欠拟合,那么可以在有限状态机中完成预测吗 A2:绝对不可能,有限状态机无法生成无限不循环序列,而 π 的每一位放在一起就是无限不循环序列 Q3:在以上前提下,我们将程序放在一个时空复杂度均无限的真正的图灵机这种,那么可以完成训练和预测吗? A3:在没有先验知识的情况下,几乎不可能。假设我们真的给 AI 提供了 π 的前 n 位,并且真的让 Loss 严格归零,但是在数学上,依然存在无限多个完全不同的可计算序列,它们的前 n 位与 π 完全一模一样。在这种情况下,有且只有模型架构及训练得到的模型参数恰好完美符合 π 的真实值计算公式(如 Chudnovsky algorithm)能够完美拟合下一位,但能够吻合这一算法的测度几乎为0。同样的,没有先验知识支撑的 AI 算法也不可能将单一位的预测精度稳定地提高到 10% 以上。 Q4:假设我们在设计模型之初就引入了先验知识,通过模型架构和算法构造了一个完美计算 π 真实值的序列的算法,并且通过以上条件使 Loss 归零,那么可以完成预测吗? A4:这就是套了层 AI 训练的皮的传统算法。本质上,现在的 AI 之所以区别于传统算法,正是因为它牺牲了精度、换取了处理混沌数据的可能性,因此它根本不存在“精确预测”的说法。要让一个 AI 做“精确预测”,即使目标不是 π 这样复杂的算式,而是一个简单的无限循环小数,最终优化也会回归到传统算法。 但是以上讨论似乎都预设了一个事实: π 与其他无理数并无二致,且我们唯一知道的是它是一个无理数。 事实真的有这么简单吗?π 并不是一个真正的随机数,它的柯尔莫哥洛夫复杂度极低,虽然 Solomonoff Induction 在图灵机模型依旧中不可计算,但我们能否近似地设计一种简单假设,作为 AI 自我优化的条件以到解法?另一边,BBP 公式则揭示了 π 在十六进制下的特殊性质,它或许在其他进制或者复杂的几何空间中真的存在某种特征? 基于参数拟合的机器学习,其设计一定是或多或少地需要先验知识的: 至少,你需要确保你的训练集并不是绝对的混沌和随机 ;正如我们了解了图像的主要性质、及图像识别的主要矛盾,才能设计出 CNN 来应对;一个毫无先验知识、不做特殊设计的机器学习算法注定无法达成目标。 1 个帖子 - 1 位参与者 阅读完整话题

IT之家 · 2026-06-07 07:36:05+08:00 · tech

IT之家 6 月 7 日消息,由卡内基天文台的安德鲁・纽曼领衔的天文学家团队,首次直接测算出一个潜藏在早期宇宙星系中心的休眠黑洞质量。 这个黑洞体型极为庞大,质量相当于太阳的 60 亿倍。如今它已不再照亮周边区域,但研究团队借助詹姆斯・韦布空间望远镜(JWST),观测星系中心受黑洞引力影响的恒星运动,最终测出了它的质量。该研究成果已发表于《科学》期刊。 相比之下,处于活跃吸积状态的黑洞很容易被发现。数十年来,天文学家一直通过搜寻类星体来定位这类黑洞。类星体是宇宙中最明亮的天体之一,由气体坠入星系中心黑洞时释放的能量驱动。 据IT之家了解,此次测算的黑洞位于星系 MRG-M0138 的中心。这是一个巨型星系,其发出的光线从宇宙仅诞生约 30 亿年时出发,最终抵达韦布空间望远镜。目前该星系已停止孕育新恒星,其中心黑洞也陷入沉寂。 在此之前,天文学家仅能在近邻宇宙中运用这种方法测量黑洞质量。2020 年,科学家因追踪单颗恒星轨道、成功探测到银河系中心黑洞,斩获诺贝尔奖。 天文学家曾借助星系中心恒星的整体运动,测算出距离地球约 7 亿光年范围内的黑洞质量。但若是没有韦布望远镜完备的探测设备,再加上引力透镜效应的助力,人类根本无法对更遥远星系开展同类质量测量。 纽曼解释道:“我们结合韦布望远镜超高的观测分辨率,再依靠宇宙天然的‘放大镜’,成功探测到了这个远在 100 亿光年之外的黑洞。” 星系 MRG-M0138 处在一个巨型星系团后方,星系团会放大并扭曲它的影像,让这个遥远星系看起来比正常情况下大 30 倍。 “结合韦布望远镜的观测数据与引力透镜效应,我们得以窥探黑洞的引力影响范围。在这片区域内,黑洞的引力会大幅提升恒星的运行速度。”纽曼补充说,“这是目前测量黑洞质量最有效的手段之一,因此我们十分欣喜,能将这项技术应用到宇宙更早的演化阶段。” 此前人类仅在近邻宇宙中发现过极少数同等规模的休眠黑洞。 这项发现为探究早期宇宙中黑洞与星系的协同演化,提供了全新线索。在近邻星系中,星系中心黑洞的质量,与星系自身特征存在紧密关联。但长久以来,科学界一直难以验证这种关联在数十亿年前是否就已存在。本次研究表明,在宇宙诞生初期,密度最大的星系内部,黑洞曾经历快速成长。 如今归于沉寂的 MRG-M0138,在过去很可能是一个亮度极强的类星体。黑洞高速成长时释放的能量,会驱散、剥离孕育恒星所需的气体,这或许也是该星系最终停止形成恒星的原因。 后续观测工作还将持续推进。目前,该团队正在分析韦布望远镜采集的其他同类星系数据。欧几里得卫星与南希・格雷斯・罗曼空间望远镜,未来还将发现更多此前未知的引力透镜现象。由卡内基科学研究所作为创始合作方、正在智利拉斯坎帕纳斯天文台建造的巨型麦哲伦望远镜,其将比韦布望远镜能够更精细地解析遥远星系中的恒星运动。 研究团队表示,将这套测算方法应用到更多星系后,天文学家将进一步揭开超大质量黑洞的形成、成长之谜,以及它们如何塑造星系演化的完整过程。

LinuxDo 最新话题 · 2026-05-29 19:47:47+08:00 · tech

https://news.sky.com/story/blood-test-could-detect-alzheimers-signs-decades-before-symptoms-appear-study-shows-13548759 [!quote]+ 专家们认为,通过血液检测来测量与阿尔茨海默氏症有关的标志性蛋白质,从而及早发现大脑中的变化,“可能会非常有价值”。 研究人员测量了美国 1350 名无痴呆症患者血液中两种淀粉样蛋白生物标志物以及 p-tau217 的水平。患者的平均年龄为 61 岁。 分析发现,86 名患者体内的生物标志物水平较高,在相隔五年进行的测试中,他们的认知能力也有所下降,言语记忆力加速衰退,处理速度减慢。 研究人员说,虽然还需要进行更多的研究,但最新的研究结果建立在以前对老年患者进行的研究基础之上,“表明阿尔茨海默氏症的神经病理学证据在中年就已经存在,尽管并不常见,而且已经与可测量的认知差异联系在一起”。 "他们在发表于《柳叶刀》上的研究报告中说:"这些发现支持了阿尔茨海默病在临床症状出现前几十年就已开始的概念,并强调了血浆生物标志物在普通人群中进行早期检测的潜在价值。 该杂志发表的另一项研究表明,一种新的脑部扫描方法可以在症状出现之前检测到 tau 蛋白缠结。 研究人员在美国和加拿大的 682 名患者中比较了 PET 扫描中使用的放射性示踪剂 Flortaucipir 和一种名为 MK6240 的新型制剂,在早期 tau 区域发现的 tau 阳性病例是 Flortaucipir 的两倍多。 Psychology Today Shielding the Brain From Alzheimer’s Alzheimer’s doesn’t begin with memory loss. It starts decades earlier. New research reveals that a simple trace mineral may help protect the brain long before symptoms appear. cbsnews.com Blood test may soon be able to detect and stage Alzheimer's Disease Scientists developed a model using two proteins in the blood that can track how far the disease has progressed. PubMed Central (PMC) Blood Tests for Alzheimer’s Disease: Increasing Efforts to Expand and... The recent academic and commercial development, and regulatory approvals, of blood-based Alzheimer’s disease (AD) biomarkers are breakthrough developments of immense potential. However, clinical validation studies and therapeutic trial applications... 4 个帖子 - 3 位参与者 阅读完整话题

cnBeta全文版 · 2026-05-27 16:35:10+08:00 · tech

持续不断的美伊冲突以及价格暴涨的内存芯片,正在让智能手机市场愁云惨淡。市场研究公司IDC此前预测, 受人工智能驱动的内存短缺影响,今年全球智能手机出货量将下降12.9%。但周二,该公司预测降幅将更大,达到13.9%,原因是美伊冲突进一步削弱了市场需求。 该公司在一份研究报告中表示,智能手机市场正走向有史以来最糟糕的一年。 IDC研究总监Nabila Popal表示,霍尔木兹海峡封锁导致油价上涨,智能手机厂商面临更高的成本,包括货物和零部件的运输成本。这些压力迫使厂商减少出货量、提高价格,并专注于更高价位的产品。智能手机的平均售价因此达到创纪录的550美元,比去年上涨了100美元。 地区表现 持续的成本危机还在威胁智能手机明年的出货量。IDC预测,明年智能手机出货量将同比下降1%,破坏了原本的复苏预期。 不过,IDC认为,北美消费者可能不会受到太大影响,因为这里的智能手机价格本来就很高。但新兴市场将受到最大的冲击,因为在这些市场,200美元的手机更为普遍。其预计中东和非洲的智能手机出货量将下降23%。 另据Counterpoint的最新报告, 美国今年第一季度的智能手机出货量同比下降3%,低端手机出货量尤其疲软。 该公司另一份报告指出,受内存供应危机导致智能手机价格上涨的影响,印尼智能手机出货量在2026年第一季度同比下降了9%。无论是老款机型还是新款机型均受到冲击,价格涨幅在7%至45%之间。 欧洲市场则看到量价齐涨。Omdia数据显示,2026年第一季度,欧洲智能手机市场(不包括俄罗斯)出货量增长2%,达到3300万部,而平均售价则飙升至创纪录的580欧元。Omdia预测,2026年欧洲市场出货量将下降12%,但大部分降幅将出现在下半年。 Omdia还预测,随着利润率压缩将入门级设备的经济效益推向极限,非洲超低价智能手机市场将在2026年进入一个结构性更具挑战性的阶段。非洲市场核心的200美元以下细分市场将萎缩28%,其中80-150美元价位段受到的影响最为严重。 查看评论

v2ex · 2026-05-21 05:41:19+08:00 · tech

刚买的高刷电竞屏、新换的 120Hz 旗舰手机,丝滑感真的拉满了?很多时候,因为系统默认设置或者浏览器没开启加速,你的屏幕可能正悄悄卡在 60Hz 运行! 推荐一个超好用的在线工具 👉 https://screenhztest.com/ 无需下载安装,点开就能查。利用原生浏览器技术,精准测出你当前设备的实时屏幕刷新率( Hz )和 FPS 帧率。不管是 144Hz 、240Hz 还是苹果的 ProMotion ,有没有满血运行,看一眼数字就知道! 💡 核心功能: 即开即测:1 秒给出精准测试结果。 高刷对比: 实时对比 60Hz 与高刷的流畅度差距,肉眼可见的丝滑。 打游戏觉得卡顿?新买的手机怀疑被锁帧?赶紧点开测试一下,顺便去系统设置里检查下你的高刷是不是真的打开了! 👉 测试传送门: https://screenhztest.com/

v2ex.com · 2026-05-05 07:59:42+08:00 · tech

作为两只猫猫的铲屎官,我日常最大的乐趣之一就是观察我家猫的各种迷惑行为,然后试图用逻辑解释它。比如:它为什么每天凌晨五点准时踩我的脸?为什么对着墙角发呆能发半小时?为什么我一难过它就精准出现在我旁边? 后来我发现,猫友群里每天都在聊类似的话题——"我家猫是不是社恐""你家这个明显 E 猫""它是不是在思考猫生"……大家不自觉就在给猫做性格分类。 再加上 MBTI 这两年实在太火了,SBTI 也刷了一波屏,我就想:人能测,猫为什么不能测? 于是花了些时间,做了这个 👉 CMBTI 猫咪性格测试: https://cmbit.chat 😺 16 种猫格,总有一个让你拍大腿 随便举几个例子你感受一下: INTJ · 幕后主使 —— 「你以为你在养猫?其实它在养你。」它不粘人,但你几点起床、冰箱里还剩几罐猫粮,它都门儿清。深夜醒来发现它坐在床尾盯着你——那不是恐怖片,是 INTJ 在做数据分析。 ENFP · 快乐小疯子 —— 「前一秒深情凝视,后一秒原地起飞。」上一秒还在你怀里对视,下一秒弹射起步飞上窗台。你永远猜不到它下一步会干嘛。 ESTJ · 宿管阿姨 —— 「你晚睡一分钟,它能骂你十分钟。」它的叫声不是撒娇,是在执法。 ISTP · 高冷刺客 —— 「表面岁月静好,背地偷开零食柜。」全家最安静省心的猫,但你一转身,抽屉被拉开了,发绳不见了。 描述全是真实养猫体验的浓缩。很多朋友测完说"这也太准了吧"——其实不是算法准,是养猫人的共鸣太强了。 🕶 可以通过上传自己家猫猫照片,AI 动态生成专属性格形象 给你几张图感受下 🛠️ 技术实现:小而美 整个项目是纯前端实现的,没用任何框架,部署在 Vercel 上,域名就是 cmbit.chat 。 最花心思的功能是 AI 猫咪 Cosplay:测完之后可以上传你家猫的照片,AI 会根据测出的性格类型,生成一张你家猫穿着对应性格主题服装的图片。用的是 Seedream 5.0 的图像生成能力,效果还挺惊喜的。 另外专门优化了分享卡片的布局——一屏展示结果 + 二维码,截图就能直接发朋友圈,不用裁剪不用拼图。毕竟对于养猫人来说,「晒猫」才是第一生产力。 ✨ 总结一下亮点 ⏱️ 2 分钟搞定,12 道题,不长不短 🎭 16 种猫格,每种都有生动到让你拍大腿的描述 🤖 AI 生成你家猫的专属 Cosplay 形象(这个真的可以玩) 📱 一键保存分享图,带二维码,朋友圈友好 🙋 欢迎来测! 链接在这里 👉 https://cmbit.chat 花两分钟给你家主子测一个,看看它到底是「幕后主使」还是「快乐小疯子」🐱 测完欢迎回来评论区晒结果!特别想看看大家的猫都是什么类型 有任何建议或者 bug 也欢迎反馈,毕竟这是个 side project ,希望大家多多提建议~

v2ex.com · 2026-05-05 06:43:29+08:00 · tech

作为两只猫猫的铲屎官,我日常最大的乐趣之一就是观察我家猫的各种迷惑行为,然后试图用逻辑解释它。比如:它为什么每天凌晨五点准时踩我的脸?为什么对着墙角发呆能发半小时?为什么我一难过它就精准出现在我旁边? 后来我发现,猫友群里每天都在聊类似的话题——"我家猫是不是社恐""你家这个明显 E 猫""它是不是在思考猫生"……大家不自觉就在给猫做性格分类。 再加上 MBTI 这两年实在太火了,SBTI 也刷了一波屏,我就想:人能测,猫为什么不能测? 于是花了些时间,做了这个 👉 CMBTI 猫咪性格测试: https://cmbit.chat 😺 16 种猫格,总有一个让你拍大腿 随便举几个例子你感受一下: INTJ · 幕后主使 —— 「你以为你在养猫?其实它在养你。」它不粘人,但你几点起床、冰箱里还剩几罐猫粮,它都门儿清。深夜醒来发现它坐在床尾盯着你——那不是恐怖片,是 INTJ 在做数据分析。 ENFP · 快乐小疯子 —— 「前一秒深情凝视,后一秒原地起飞。」上一秒还在你怀里对视,下一秒弹射起步飞上窗台。你永远猜不到它下一步会干嘛。 ESTJ · 宿管阿姨 —— 「你晚睡一分钟,它能骂你十分钟。」它的叫声不是撒娇,是在执法。 ISTP · 高冷刺客 —— 「表面岁月静好,背地偷开零食柜。」全家最安静省心的猫,但你一转身,抽屉被拉开了,发绳不见了。 描述全是真实养猫体验的浓缩。很多朋友测完说"这也太准了吧"——其实不是算法准,是养猫人的共鸣太强了。 🕶 可以通过上传自己家猫猫照片,AI 动态生成专属性格形象 给你几张图感受下 🛠️ 技术实现:小而美 整个项目是纯前端实现的,没用任何框架,部署在 Vercel 上,域名就是 cmbit.chat 。 最花心思的功能是 AI 猫咪 Cosplay:测完之后可以上传你家猫的照片,AI 会根据测出的性格类型,生成一张你家猫穿着对应性格主题服装的图片。用的是 Seedream 5.0 的图像生成能力,效果还挺惊喜的。 另外专门优化了分享卡片的布局——一屏展示结果 + 二维码,截图就能直接发朋友圈,不用裁剪不用拼图。毕竟对于养猫人来说,「晒猫」才是第一生产力。 ✨ 总结一下亮点 ⏱️ 2 分钟搞定,12 道题,不长不短 🎭 16 种猫格,每种都有生动到让你拍大腿的描述 🤖 AI 生成你家猫的专属 Cosplay 形象(这个真的可以玩) 📱 一键保存分享图,带二维码,朋友圈友好 🙋 欢迎来测! 链接在这里 👉 https://cmbit.chat 花两分钟给你家主子测一个,看看它到底是「幕后主使」还是「快乐小疯子」🐱 测完欢迎回来评论区晒结果!特别想看看大家的猫都是什么类型 有任何建议或者 bug 也欢迎反馈,毕竟这是个 side project ,希望大家多多提建议~

v2ex.com · 2026-05-05 02:44:26+08:00 · tech

作为两只猫猫的铲屎官,我日常最大的乐趣之一就是观察我家猫的各种迷惑行为,然后试图用逻辑解释它。比如:它为什么每天凌晨五点准时踩我的脸?为什么对着墙角发呆能发半小时?为什么我一难过它就精准出现在我旁边? 后来我发现,猫友群里每天都在聊类似的话题——"我家猫是不是社恐""你家这个明显 E 猫""它是不是在思考猫生"……大家不自觉就在给猫做性格分类。 再加上 MBTI 这两年实在太火了,SBTI 也刷了一波屏,我就想:人能测,猫为什么不能测? 于是花了些时间,做了这个 👉 CMBTI 猫咪性格测试: https://cmbit.chat 😺 16 种猫格,总有一个让你拍大腿 随便举几个例子你感受一下: INTJ · 幕后主使 —— 「你以为你在养猫?其实它在养你。」它不粘人,但你几点起床、冰箱里还剩几罐猫粮,它都门儿清。深夜醒来发现它坐在床尾盯着你——那不是恐怖片,是 INTJ 在做数据分析。 ENFP · 快乐小疯子 —— 「前一秒深情凝视,后一秒原地起飞。」上一秒还在你怀里对视,下一秒弹射起步飞上窗台。你永远猜不到它下一步会干嘛。 ESTJ · 宿管阿姨 —— 「你晚睡一分钟,它能骂你十分钟。」它的叫声不是撒娇,是在执法。 ISTP · 高冷刺客 —— 「表面岁月静好,背地偷开零食柜。」全家最安静省心的猫,但你一转身,抽屉被拉开了,发绳不见了。 描述全是真实养猫体验的浓缩。很多朋友测完说"这也太准了吧"——其实不是算法准,是养猫人的共鸣太强了。 🕶 可以通过上传自己家猫猫照片,AI 动态生成专属性格形象 给你几张图感受下 🛠️ 技术实现:小而美 整个项目是纯前端实现的,没用任何框架,部署在 Vercel 上,域名就是 cmbit.chat 。 最花心思的功能是 AI 猫咪 Cosplay:测完之后可以上传你家猫的照片,AI 会根据测出的性格类型,生成一张你家猫穿着对应性格主题服装的图片。用的是 Seedream 5.0 的图像生成能力,效果还挺惊喜的。 另外专门优化了分享卡片的布局——一屏展示结果 + 二维码,截图就能直接发朋友圈,不用裁剪不用拼图。毕竟对于养猫人来说,「晒猫」才是第一生产力。 ✨ 总结一下亮点 ⏱️ 2 分钟搞定,12 道题,不长不短 🎭 16 种猫格,每种都有生动到让你拍大腿的描述 🤖 AI 生成你家猫的专属 Cosplay 形象(这个真的可以玩) 📱 一键保存分享图,带二维码,朋友圈友好 🙋 欢迎来测! 链接在这里 👉 https://cmbit.chat 花两分钟给你家主子测一个,看看它到底是「幕后主使」还是「快乐小疯子」🐱 测完欢迎回来评论区晒结果!特别想看看大家的猫都是什么类型 有任何建议或者 bug 也欢迎反馈,毕竟这是个 side project ,希望大家多多提建议~

plink.anyfeeder.com · 2026-05-03 14:05:24+08:00 · tech

Grok 4.3 是 xAI 一次务实升级:更便宜、更快、更像能干活的助手。但它在硬推理、稳定性和可信度上,仍落后 GPT-5.5 与 Claude Opus 4.7。xAI 发布 Grok 4.3,没有把声量拉到最大,马斯克甚至没单独发推,看起来只是个过渡版本。 https://x.com/elonmusk/status/2045590599206875216 它更像一次安静的产品换挡:把模型放进 API,把价格打下来,把工具能力补上,再告诉开发者可以从旧版 Grok 迁移过来。 没有 AGI 宏大叙事,也少了马斯克式的“即将改变一切”。这反而让 Grok 4.3 看起来更真实。 对普通消费者来说,Grok 4.3 最重要的变化并非某个榜单分数涨了几分,而是 AI 助手正在变得更便宜、更快,也更像一个能替人完成文件、表格、演示文稿的合格助手。 然而,Grok 4.3 的聪明程度仍然没追上 GPT-5.5 和 Claude Opus 4.7。 它是一款性价比很强的新模型,也是一款仍有明显天花板的模型。 消费者真正需要关心的,是它在哪些场景能省钱省时间,在哪些场景会因为判断不准、想太久或说太多,反而增加成本。 它确实变强了 尤其像一个更会干活的助手 Artificial Analysis 给 Grok 4.3 的 Intelligence Index 打到 53 分,比 Grok 4.20 0309 v2 高 4 分,也超过 Claude Sonnet 4.6 和 Muse Spark。 这个提升不算小,尤其在 xAI 自家模型线里,Grok 4.3 已经是目前最强的一档。 更值得看的是代理任务表现。 Grok 4.3 在 GDPval-AA 上拿到 1500 Elo,相比 Grok 4.20 0309 v2 的 1179,提升了 321 分。 这个榜单更接近日常“让 AI 做事”的场景,比如整理资料、执行复杂步骤、处理真实工作流。这对普通用户有实际意义。 让 AI 帮忙写周报、搭表格、做方案、拆会议纪要、生成 PPT,Grok 4.3 的体验会比前代更完整。 Grok 可以创建演示文稿、文档和电子表格,可以在一个计算机环境里写代码、运行代码、安装依赖并产出文件。 对不懂代码的用户来说,这意味着很多原本需要在 Excel、PowerPoint、浏览器之间来回切换的操作,可能会被压缩成一句指令。 这也是 AI 消费级产品真正该竞争的地方——用户更在意它能不能把一个报销表做完,把一份旅行计划排清楚,把一封语气得体的邮件写好。 Grok 4.3 在这部分的进步,是真进步。 更便宜 是这次最直接的产品卖点 Grok 4.3 的价格很有侵略性。 它的 API 价格为每百万输入 Tokens 1.25 美元、每百万输出 Tokens 2.50 美元,相比 Grok 4.20 输入价格低约 40%,输出价格低约 60%。 Artificial Analysis 测算,运行整套 Intelligence Index 评测成本约为 395 美元,比 Grok 4.20 0309 v2 低约 20%。 这会影响消费者,只是方式没那么直观。 大多数普通人不会直接调用 API,但他们会用到基于 API 构建的产品。 AI 写作工具、客服机器人、语音助理、教育应用、办公插件,背后都要为模型调用付费。 当底层模型价格下降,应用厂商有空间降低订阅费,或者在同样价格下提供更多次数、更长上下文、更复杂任务。 Grok 4.3 还有一个优势是速度。 Artificial Analysis 的 xAI 模型页显示,它是 xAI 当前输出速度最快的模型之一,约 196 Tokens/s,属于很快的一档。 对语音聊天、实时客服、长文生成和批量内容处理来说,等待时间会直接影响体验。 但速度有一个细节容易被忽略:Grok 4.3 的首 Token 延迟并不低。 它会先“想一会儿”,然后快速输出。 长答案里,这种速度优势明显;短对话里,用户可能先感受到停顿,再感受到快。 用于客服、语音助手、移动端聊天时,这个差异会被放大。 它更会说人话 这是 Grok 的隐藏优势 Grok 一直有一个微妙优势:语气更像真人。 Hacker News 上有人提到,一些英语非母语用户认为 Grok 在把握文本语气、正式程度和微妙人际表达上,比其他模型更自然。 有人拿它和 ChatGPT、Claude 比,认为 Grok 在非正式朋友语气、同事沟通、语音输入识别上表现更贴近真实交流。 https://news.ycombinator.com/item?id=47972447 Grok 可能受益于 X 平台海量口语化表达训练。 它更容易捕捉社交网络里的语气、节奏、松弛感等;它也可能因此继承社交网络的噪音、偏见和表达习惯。 对 C 端用户来说,这种“更自然”的能力会让 Grok 在写消息、口语转写、语音助手、轻办公场景里很讨喜。 它未必最聪明,但可能更像一个愿意按你的语气说话的助手。 Yes, BUT... 它比不过 GPT-5.5 和 Claude Opus 4.7 Grok 4.3 最大的问题,是它看起来已经进入第一梯队边缘,却还没站到最前面。 Grok 4.3 的 Intelligence Index 为 53,GPT-5.5 为 60,Claude Opus 4.7 为 57。 这个差距不只是排行榜上的几分。 对普通消费者来说,它会体现在复杂推理、代码调试、长文核查、专业咨询和多步骤任务的稳定性上。 在 GDPval-AA 上,Grok 4.3 的提升很大,但仍落后 GPT-5.5 xhigh 276 Elo,按标准 Elo 公式,面对 GPT-5.5 的预期胜率约 17%。 它在幻觉控制上也有代价。 Grok 4.3 的 AA-Omniscience Accuracy(准确率)提升 8 分,但 Non-Hallucination Rate(非幻觉率)下降 8 分。 这里的准确率和非幻觉率是不同的,准确率只看你答对了多少,而非幻觉率是看你没答出来的问题里面,有多少是模型老实承认自己不会的——不会但振振有词,就是所谓的“幻觉”。 换言之,Grok 4.3 的知识覆盖率变高了,但也更容易出现幻觉了。 而消费者最怕的情况就是 AI 答得很流畅、很自信、很像那么回事,结果关键事实错了。 人类已经很擅长自信地犯错,机器不必急着加入这个传统项目。 这意味着,在医疗、法律、金融、学术和工程等高风险场景里,Grok 4.3 仍需要谨慎使用。 它适合帮用户起草、整理、生成初稿,适合做低风险的辅助工作;涉及最终判断,GPT-5.5 和 Claude Opus 4.7 仍更稳。 长上下文和工具能力很好 但消费者买账的是结果 Grok 4.3 提供 100 万 Token 上下文窗口,这对长文档、代码库、合同、报告和资料库很有吸引力。 用户可以丢进去更多材料,让模型在更完整的信息环境里工作。 对研究、办公和创作来说,这是一种实用能力。 它还支持文本和图像输入,输出文本,并围绕工具调用、网页搜索、X 搜索、代码执行、文件搜索、RAG 等能力加强。 xAI 还推出了 Custom Voices、语音代理、TTS 和 STT 等产品,把 Grok 的边界从文字扩展到语音。 对普通用户来说,未来的 Grok 可能不只是一个聊天框,而是一个能读文件、查网页、写表格、说话、听话的多模态助手。 问题在于,功能多不等于体验好。 消费级 AI 的竞争,最后会回到三个朴素标准:少等、少错、少折腾。 Grok 4.3 在“少等”和“少花钱”上明显前进,在“少错”上还没给出足够强的答案。 Grok 4.3 的准确定位: 性价比模型,不是最强模型 Grok 4.3 最适合的定位,是一款高性价比的工作型模型。 它适合高频内容生成、语气改写、长文本初筛、语音产品、客服场景、批量办公任务、轻量级代理工作流。 它也适合那些对成本敏感、对响应速度敏感、对最强推理没有执念的产品。 很多消费者并不需要每次都调用最强模型,就像不应该只是为了买菜开超跑,除非另有所图。 但如果任务要求深度推理、严谨事实核查、复杂代码、数学证明、长期项目记忆和专业判断,Grok 4.3 还不该成为第一选择。 GPT-5.5 和 Claude Opus 4.7 仍然更适合承担这些高价值、高风险任务。 这次 xAI 的策略很清楚:先把模型做得足够强,再把价格打下来,用速度和工具能力扩大可用场景。 它没有赢下“最聪明模型”的头衔,但可能会赢走一部分真实使用量。 因为市场并不总奖励最强者,也奖励够强、够快、够便宜的选择。 Grok 4.3 的意义正在这里。它把 xAI 从一个经常靠马斯克声量吸引注意的模型供应商,往更务实的 API 和消费级工具竞争者方向推进了一步。 它看起来很好,确实很好;只是还没好到能让 GPT-5.5 和 Claude Opus 4.7 紧张。 消费者可以期待它降价、提速、让更多 AI 应用变得便宜。 也该记住,在需要真正聪明和可靠的地方,Grok 4.3 仍然只是备选项。 查看评论