WWW.YOUINFO.SITE
标签聚合 废品

/tag/废品

linux.do · 2026-05-06 17:57:01+08:00 · tech

三句话概括我们做了什么 背景与挑战: LLM预测评估面临两难:实时测试 易失效 ,回顾测试存在 数据泄露 。提示词无法建立真实的 知识边界 。 架构和方法: OracleProto 框架结合模型知识截止与时间遮蔽,将历史事件严谨重构为 具有时间边界的可复现的预测样本 。 实验的效果: 测试 9 个主流LLM 表明,OracleProto能有效区分了模型的预测质量、稳定性与成本效益,将泄露率降至 1\% ,为 模型对比、监督微调和强化学习 提供了受控的信号源。 开源仓库及论文 GitHub 仓库 Hugging Face 数据库 在线排行榜网站 arXiv 论文 详细介绍 Deepseek、GPT、Claude、Gemini 这些头部大模型拥有搜索、整合、推理和给出建议的能力,它们在各种 Benchmark 上反复打榜较量。 但如果你去问“下周英伟达财报能不能超预期”或者“某场冲突走向如何”,它们给出的回答却总是避重就轻、含糊其辞。 毕竟,预测从来就不是这些模型被专项训练过的技能。 可是,凭什么大模型就不能做预测? 预测本质上就是: \text{信息搜集} \times \text{证据整合} \times \text{情势研判} \times \text{行动决策} 这四个环节,拆开来看全都是 LLM 的原生能力。 明明拼在一起就是“预测”,怎么就突然变成没法训练、无法评估、也不能比较的黑盒了? 症结在于评测手段。而这一切的核心变量,是时间。 谁能把控模型获取信息的截止时间点,谁就能真正定义什么是“预测”。 “实时基准”直接拿未发生的事情出题,这就相当于纯实盘,数据绝对干净,但事件一落地题目就废了; “历史回放”拿已经发生的事去考 AI,但这些事早就躺在它的训练语料里了,这根本不叫样本外回测,叫看着答案抄试卷。 这正是我们要搞 OracleProto 的初衷。 一个基于知识截止与时间掩码的、用于评测 LLM 原生预测能力的可复现框架。 卡着模型的知识截止日期,给它出一道理论上绝对拿不到答案的考题。 考题事件发生在训练语料截止之后、现实的今天之前,把搜索工具的时间范围也硬性锁死,最后再上内容级防泄漏检测兜底。这样才能 把模型按在一个干净的信息边界里,像跑严格的量化回测一样,逼它做真正的预测 。 拿 80 道题跑了 9 个 LLM,发现准确率最多只差了 10.1 个百分点,但做出单次正确预测的调用成本居然差了 82 倍,花钱多不代表预测得准。 不过,这还不是最核心的价值。 在我们的框架里,全世界那些已经“过期”的预测数据集全都能变废为宝,转化为可以持续沉淀的、零污染的预测训练语料。 预测绝不应该仅仅是一种偶然的涌现现象,它理应成为一种可被训练、可被量化评估的大模型原生能力。 但坦白讲,我们目前挖得还很浅。评测只覆盖了 3 个海外模型 + 6 个国产模型,用的是现成的数据集,标注面也很窄。骨架虽然搭起来了,血肉还远远填不满。 因此,我们把代码、数据集和排行榜毫无保留地全部开源,希望有更多开发者能一起来完善它。 靠个人堆不出一个完整的预测基准,但开源社区的群智可以。 感谢各位的 Star,欢迎提 Issue 和 Discussion。 感谢学长的灵感及指导和实验室诸位的支持,联系方式请见 GitHub。 感谢 L 站,感谢各位大佬,新人展示,有任何不完美的地方,请赐教,不胜感激。 1 个帖子 - 1 位参与者 阅读完整话题

v2ex · 2026-05-01 09:30:56+08:00 · tech

例如,把多个 AI CLI 终端放在一个浏览器 UI 里就叫做多 agent 协作,如果只是这样,你不知道 vsc 的终端支持分屏吗?你不知道扔下一个指令就可以让 agent 把当前窗口的会话内容全量导出一个 md 吗? 可是用户实际的痛点: A:codex 额度没有了,换到 DeepSeek ,如何让后者更好的理解我和 codex 的会话上下文 这应该是最基本的需求吧? 你如果声称多 agent 团队协作,那么你必须解决上下文转移的痛点,起码你需要潜心做一套算法把最基本的会话记录抽象成结构化的上下文,这基本是可以无限优化的点了。如果你的算法有价值,也可以做 saas 变现啊?这种东西的价值我相信会有人付费的。 B:两个 agent 同时编排一个文件的时候怎么不打架 你说,你的程序可以让 agent 互相汇报进度,递交任务,那我问你,能不能解决我的这两个问题?你有算法吗?如果做个什么 task.md 就发自媒体叙事能力,那我只能怀疑你的开源价值观有问题,你要的是流量,而不是真正的为社区创造价值。 我为啥把多 agent 协作程序拉出来编排,因为太多自媒体盯着这块大肉来叙事了,我对这种叙事越来越反感。 我承认一些开源方案有小工具的价值,能带来流量,但我拒绝接受他的大叙事。 我觉得有用的开源项目,比如 clash 几年前就停止维护了,后来的 mihomoparty 站出来了,再比如现在很多大模型中转站都在用的 cli2proxy ,还有给中转站做壳子的那个开源程序,我忘记是什么了,我觉得这种真正解决痛点的东西才算是有价值的输出吧? 如果开源生态越来越奖励大叙事,而不是奖励真正解决痛点的工程能力,这对新人其实不是好信号。

plink.anyfeeder.com · 2026-04-27 15:35:36+08:00 · tech

客户正在疯狂买买买,甚至包括一些有缺陷的CPU芯片。Intel2026年第一季度财报业绩大幅超预期引发关注。据报道,该公司已证实 ,已将原本会被当作废品处理的低质CPU推向市场获利,而面对极度旺盛的行业需求,下游客户对这些芯片照单全收,甚至出现了抢购的情况。 4月23日,Intel发布2026财年第一季度财报。 财报显示,公司当期营收达136亿美元,远超市场预期的123.6亿美元;非GAAP毛利率达到41%,较公司自身给出的34.5%指引高出650个基点,每股收益更是超出市场预期3000%。 如此巨大的差距令分析师们不禁好奇,究竟是什么让Intel业绩如此亮眼?而答案似乎部分在于一些存在缺陷的芯片。 科技行业分析师本・巴加林(BenBajarin)对外披露,他已直接从Intel投资者关系团队获悉。公司利润率的意外提升,至少有一部分来自于原本会被归为废品或低预期产出的CPU销售,这些产品为Intel带来了实打实的营收增量。 在芯片制造过程中,同一片晶圆切割出的芯片,性能和品质有好有坏,也就是大家常说的良率。 晶圆中心区域切割出的芯片,性能更稳定,缺陷更少。晶圆边缘切割出的芯片,往往缺陷更多,性能表现更差。 按照行业常规操作, 达不到高端型号规格但仍可使用的芯片,会被降档标定为低端型号销售。还有一部分边缘芯片,连降档的标准都达不到,最终只能被当作报废品处理。 如今CPU市场需求极度旺盛,客户愿意采购这些原本会被报废的芯片。Intel只需将这些芯片降档标定为低规格型号,就能顺利完成销售。 这部分额外收益,并非来自芯片工艺提升,也不是来自成本控制优化,纯粹是旺盛的市场需求,让原本几乎没有商业价值的芯片实现了变现。 这一罕见现象的背后,是AI浪潮带动的全行业算力建设热潮。 AI基础设施建设,正在以远超供应链设计上限的速度消耗算力,直接催生了对服务器处理器的海量需求。 当下,作为是AI数据中心的核心硬件,Intel至强系列CPU始终处于持续高需求状态。戴尔、惠普、联想等头部整机厂商,以及微软、谷歌、亚马逊等云服务巨头,都在大规模采购Intel处理器。 管它好与不好,能用就行。 查看评论