几何 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-11 11:33:30+08:00 · tech

之前游客的时候都没出现过排队 2 个帖子 - 2 位参与者阅读完整话题

IT之家 · 2026-05-31 15:19:19+08:00 · tech

IT之家 5 月 31 日消息，几何未来 (Geometric Future) 本周宣布将在 COMPUTEX 2026 台北国际电脑展上带来一系列的 2026~2027 年新品，包括首次公布的 Model 7 与 Model 7 Extreme。 Model 7 (Extreme) 原型产品采用悬浮 + 三舱设计， CPU、GPU、PSU 各自拥有独立散热区域，顶部还设有 90mm 手办展示隔间。其三维 480×242×660 (mm)，前后采用 1.5mm 钢板、主体采用 0.8~1mm 钢板、侧透区域则是 4mm 钢化玻璃。其兼容 E-ATX 主板；可容纳 470mm 显卡、220mm 电源、180mm 处理器散热器；提供 5 个 3.5" / 2.5" 盘位；包含 12 个风扇位，顶部支持 420 冷排；前置 I/O 由 2 个 USB-C 20Gbps、2 个 USB-A 5Gbps 等构成。该企业去年曾展出的 Model 9 旗舰机箱此次也将回归。其采用全铝结构搭配大面积弧形烟熏玻璃侧板，顶部设有独立 420 水冷舱，整体三维 750×300×608 (mm)，配备电动式可收纳电源键，优化 PCIe Gen5 SSD 热量管理。此外，几何未来还将带来折叠式面板设计迷你机箱 Model 0 的 Micro-ATX 改款。这一产品内置 300W 电源，支持下压式风冷。同场展出的还有 Alpha Platinum 和 Beta Gold 电源、多款 Eskimo 家族水冷以及 Squama Ultimate 与 Squama 3005 高性能风扇。

分享一款全球超1亿师生都在用的免费动态数学工具，提供强大的交互式数学引擎

LinuxDo 最新话题 · 2026-05-26 17:39:31+08:00 · tech

GeoGebra（互动几何与代数实验室）是一个完全免费的动态数学、几何、微积分可视化自学工具及社区。它将几何、代数、微积分、概率和统计等多个数学领域融为一体，提供强大的交互式数学引擎。动态几何：轻松构建各种几何图形，并实时观察图形的变化。代数运算：支持各种代数运算，包括方程求解、函数绘图等。微积分可视化：将抽象的微积分概念以可视化的方式呈现，例如导数、积分、极限等。三维绘图：支持三维几何图形的绘制和动态演示。数据分析：提供统计图表、回归分析等功能，帮助你分析数据。交互式学习：通过拖动鼠标，你可以亲手操作，看着微积分的曲率、三维空间矩阵、傅里叶变换的波形在屏幕上实时发生动态演变。一图胜千言，自学硬核数理逻辑的终极外挂。协同白板：提供协同白板功能，方便师生进行在线互动和协作。网址： https://www.geogebra.org/?lang=zh-CN 是否需要注册：不需要，大部分功能无需注册即可使用。是否付费：完全免费。是否有免费额度：所有功能均免费。支持的注册登录方式：人工智能越来越强，我们的数学知识也应该越来越强，才能更好地理解人工智能、应用人工智能，一起来快乐的学习数学吧 5 个帖子 - 4 位参与者阅读完整话题

为什么我觉得华为韬(τ)定律不具备任何意义

LinuxDo 最新话题 · 2026-05-26 13:28:11+08:00 · tech

韬(τ)定律提出以“时间(τ)缩微”替代“几何缩微”作为半导体与电子系统演进的新指导原则——通过逻辑折叠等创新技术，持续压缩信号传播时延，不断提升晶体管密度，从而实现半导体与电子系统的持续演进。 huawei.com 华为发表韬(τ)定律，实现晶体管密度与系统性能突破 2026/5/25 华为公布了一个所谓的τ定律，市场开始疯狂，所有人都在说是deepseek时刻，或是所谓的超越美国时刻。但我认为这东西并不具备任何现实意义。华为解决了芯片时延？华为并没有解决任何延时问题，多层堆叠的设计本身就对时延是存在优化的，所谓的解决时延我不知道是AI幻觉出来的还是哪位高人讲的。华为开发了全新的技术？逻辑堆叠不是全新技术，更不是新技术。在十年前就有人在提了，每个芯片工程师也都知道可以这样做。华为给出的设计建议是否有效？当然有效，但是你问任何一位芯片工程师，甚至该专业的学生，他大概率也知道该怎么做。那么逻辑堆叠的tau预测就没有一丁点价值？价值是有的，但是就像摩尔定律一样，提出来的时候大伙也就一乐，等到了二十年三十年后，人们才真正觉得它很有意义。逻辑堆叠的τ定律如果能在多代芯片上得到验证，或者在更长远的未来还仍然适用，那我认为它也十分有意义。但是所有人都会走你这条workaround？我不这样觉得。华为将会是新的半导体行业领导者？完全不知道哪来的说法。这种逻辑堆叠技术只有很小的技术壁垒，别人看到你做的好拿过来用也是非常轻松的事情。这种技术说白了就是一个大型整合包，把过去十年间EDA行业的各种优化拿来攒到了一起。配合上新的EUV光刻机就会是史诗级的突破？不知道哪来的今年就会有EUV光刻机的说法，不过假如真的有了，我觉得这个技术反倒是更没用了。既然能在正面追赶，干嘛还要在一条未验证的workaround上费那么大劲？最后总结：根据华为的预测，今年的Kirin 2026芯片，已经在晶体管密度上达到了台积电N3P级别的水平。假如这是真的，那我直接给华为跪下，以后华圣就是我爹。 50 个帖子 - 37 位参与者阅读完整话题

Gemini 3.5 Flash 几何能力较前代模型有所退步～

LinuxDo 最新话题 · 2026-05-25 21:14:16+08:00 · tech

Gemini 3.5 Flash Gemini 3.1 Pro 题目锐角三角形 ABD 中，AB 是 CD 上的垂线，DE 是 AC 上的垂线，AB 与 DE 交于点 O。AC=4, DO=3，求三角形 ABD 外接圆半径。请使用初中的几何方法求解，不得建系、涉及向量、三角恒等变换或使用超过 2 次的方程。 Gemini 3.1 Pro 给出的方法非常优雅，虽然说我输入题目的时候都打错了字，但还是能看出来；3.5 Flash 使用相同提示词求解错误。欢迎佬友们试试其他 LLM 的表现～ 18 个帖子 - 8 位参与者阅读完整话题

AI 推翻著名几何猜想，OpenAI 宣布攻克 80 年数学难题

IT之家 · 2026-05-21 14:51:01+08:00 · tech

IT之家 5 月 21 日消息，OpenAI 称其全新推理模型推导出了一个原创数学证明，推翻了几何学中一道著名的未解猜想。该猜想最早由保罗・埃尔德什于 1946 年提出。 IT之家注意到，OpenAI 已不是第一次放出这般大胆的言论。七个月前，这家人工智能巨头前副总裁凯文・韦尔在社交平台 X 上发文称：“GPT-5 攻克了 10 道此前悬而未决的埃尔德什难题，还在另外 11 道难题上取得了研究进展。” 但事实证明，GPT-5 其实并未真正解开这些难题，它只是找出了早已收录在学术文献中的现成解法。此举随即引来杨立昆、谷歌 DeepMind 首席执行官德米斯・哈萨比斯等业内同行的嘲讽，韦尔也很快删除了这篇言之过早的推文。而如今看来，OpenAI 至少没有重蹈覆辙。在发布相关消息的同时，该公司还附上了多位数学家的佐证言论，其中包括诺加・阿隆、梅兰妮・伍德，以及运营埃尔德什难题专题网站、此前直言韦尔发文内容严重失实的托马斯・布鲁姆。 OpenAI 在 X 平台发文表示：“近八十年来，数学家们始终认为最优解的形态大致趋近于正方形网格结构。如今 OpenAI 模型推翻了这一固有认知，发现了一类表现更为优异的全新构造体系。” 该企业表示，这是人工智能首次自主攻克某一数学核心领域内的重大未解难题。据 OpenAI 介绍，这份证明由一款全新通用推理模型得出，并非专门为解决数学问题、甚至专门针对这道难题量身打造的专用系统。 OpenAI 认为此次突破意义重大，这意味着如今的人工智能已经具备更强能力，能够梳理冗长复杂的逻辑推理链条，还能以科研人员此前未曾设想的方式打通不同学科领域的知识关联，这一成果将对生物学、物理学、工程学以及医学领域产生深远影响。布鲁姆在一份声明中说道：“人工智能正助力我们全方位探索数百年来人类搭建起的数学知识殿堂，还有多少未曾发掘的精妙奥秘，正静待世人发现？”

用 72 小时系统性地否定自己的假设：从几何代数到因子注意力的踩坑记录

V2EX - 技术 · 2026-05-13 12:43:20+08:00 · tech

最近花了三天时间做了一个实验项目，核心问题是：能不能找到比 token embedding 更好的语义传送单元？结果是把自己的三个假设依次否定了，但在否定过程中挖出来一个还没被否定的信号。把过程和数据分享出来，也许对做 NLP/表示学习的朋友有参考价值。设备：双卡 4090 （ 24GB×2 ），在 VPS 上跑。背景：我们在试图解决什么现有 LLM 的 token embedding 是一张静态查表。"苹果"无论出现在"吃苹果"还是"苹果发布会"，进入模型的初始向量都是同一个。模型要靠后续十几层 Transformer 来修正这个歧义起点。有没有更好的办法？我沿着三条路走了一遍： BIIC （几何代数） → SFE （动态调制） → BIF （因子化低维交互）每条路都是前一条被实验否定后的精炼。第一条路：BIIC ，用几何代数做语义表示想法- Clifford 几何代数 Cl(4,1) 里的多向量可以按"grade"分解： Grade-0 （标量）：在旋转变换下严格不变——不管坐标系怎么转，这个值不变 Grade-2 （双向量）：在旋转变换下会跟着变设想：把 token 映射到这个代数结构里，grade-0 作为词的稳定身份锚点，grade-2 携带随上下文变化的语法/语义关系。用 sandwich 积 R·x·R_rev 做 token 间变换，数学上保证 grade-0 严格不变、grade-2 按规律协变。 Phase 1-2：代数基础验证先花了两天验证代数运算是否正确，结果全部通过：测试结果关键数据 Grade-0 不变性 PASS 100 次变换后误差 < 1e-5 Grade-2 等变性 PASS 两种计算方式误差 < 1e-6 10 层梯度流 PASS 梯度比 = 0.55 ，健康全链路训练 50 步 PASS loss 10.57 → 0.72 踩坑： Cl(4,1) 的 e5²=-1 （负度规）导致 sandwich 积不保范数，多次变换后数值溢出。解决：对每个 grade 分别归一化，不能统一缩放（否则破坏等变性） Taylor 展开 exp(B) 需要 16 项，12 项精度不够 Phase 3-5：在真实语料上训练，等变分量不活跃开始在 WikiText-103 上训练完整的语言模型，同时设计了 13 个实验，系统尝试激活 grade-2 等变分量：相对不变注意力、分段 Eraser 、Cohesin 门控、长序列、深网络、全机制叠加…… 13 个实验全部失败。核心数据： Phase 3 消融：完整 BIIC loss = 10.8285 仅 grade-0 loss = 10.8271 差距 = 0.0014 （等变分量贡献几乎为零） Phase 5 RelAttn 10k 步： alpha: 0.018 → 0.029 （微升，远不足以说明激活） Transformer baseline PPL = 53.9 （ 52M 参数） BIIC PPL = 390+（远差）为什么等变分量不活跃？根本原因是任务不匹配。等变分量在分子设计（ SE(3) 等变）、DNA 建模（互补链对称）中有效，是因为那些领域有明确的物理对称性作为监督信号。语言中没有这样的对称性。next-token prediction 只需要知道"下一个词更可能是什么"，不需要知道"token A 和 B 的几何对称关系"。这个教训概括起来就是：在借鉴前人工作之前，先检查前人的成功条件在你的场景里是否存在。 Phase 6：依存句法任务，直接测试 LM 方向失败后，尝试在有明确句法监督的任务上测试：依存句法分析。如果 grade-2 真的编码了句法，这里应该有优势。结果：模型 UAS LAS 参数 BIIC + Biaffine 0.279 0.225 2.5M Transformer + Biaffine 0.752 0.681 2.3M 差距 47pp ，任意数据量下 BIIC 均远差于 Transformer ，无交叉点。判决性实验 M-v2：测试 grade-2 几何积能否区分不同依存关系类型：统计显著：p < 1e-15 （样本量足够大）但 Cohen's d = -0.157 （效应极小，方向还是反的）探针准确率 = 0.439 （勉强高于随机基线 0.25 ）有一个矛盾值得记录：线性探针从 grade-2 预测词性 POS = 0.789 ，依存关系 DEP = 0.823 。信息确实存在，但几何积无法提取它。解释：grade-2 的线性子空间里有句法信息，但这些信息不是通过几何积的代数结构组织的。"信息存在"≠"可被代数操作提取"。 BIIC 方向关闭。中间插曲：PCA 有效秩分析在决定下一个方向之前，对 BIIC 的 checkpoint 做了一次 PCA 分析（ 51 个多义词，正确加载 50/50 参数），结果很清晰：层 PR 中位数 rank_90 中位数同词不同语境的 cos embed_grade0 1.0 1 ≈0 （完全正交） embed_grade2 1.0 1 1.0 （完全相同） grade2 （ 6 层后） 45.6 53 -0.02 （近乎正交） hidden_layer3 44.7 55 -0.03 hidden_final 1.05 1 0.82 几个关键发现： embed_grade2 cos=1.0：embedding 层出来的 grade-2 ，在不同语境下完全相同。原因很简单：encoder 的输入只有 token ID ，没有上下文，所以无法产生上下文分化。这个数字后来成为否定 SFE 的提前预警。 grade2 （深层） PR≈46 ，cos≈-0.02：经过 6 层 blocks 之后，grade-2 变成了高维、相互近乎正交的表示。上下文分化发生在中间层，不在 embedding 层。 hidden_final PR≈1：最后一层把信息压缩回接近一维。这是正常 LM 行为——预测下一个词只需要极少维度。 grade-2 PR p95=49.6：95% 的多义词，语义变化的有效维度不超过 50 。这个数字后来成为 BIF 中 k=64 的实证依据。第二条路：SFE ，动态调制 embedding 想法如果 embedding 层本身能根据上下文调整，同一个词在不同语境下就会有不同的初始向量，后续 Transformer 就不需要修正歧义起点。 e_i = (alpha_static_i + g(ctx_i)) @ B B ∈ ℝ^{64×256} ：全局共享语义基矩阵 alpha_i ∈ ℝ^{64} ：每个 token 的静态配方系数 g(ctx_i) ：上下文修正网络，输入前 4 个位置的 embedding ，输出系数偏移低秩约束（ k=64 ）有 PCA 数据的支持，防止 g 退化成复杂查表。三轮实验，三轮失败实验核心改动 alpha_cos_min alpha_cos_final 结论 v1.0 g 零初始化 0.85 0.90 g 未激活 v1.1 随机初始化 + 10x lr + 辅助损失 0.61 0.85 激活但被压制 FAM v1 + FAM 层直接依赖 α 0.49 0.86 压制不变 FAM v2 FAM 梯度直连 g 0.50 0.86 压制不变 v1.1 的结果是最有信息量的：alpha_cos 在 step 400 降到 0.61 （ g 确实学到了分化），然后单调上升到 0.85 （被压回去）。探针准确率：完整版 SFE 0.6316 ，静态版 0.6475 ，完整版反而更差。压制机制的本质：Transformer 的 attention 本身就是一个强大的消歧工具。它发现"自己处理消歧"比"利用 embedding 层传来的分化信号"更高效，通过梯度反传系统性地将 g(ctx) 归零。这不是梯度路径的问题（我们试过直连），不是学习率的问题（给了 10 倍），不是辅助损失的问题（加了显式分化损失）。这是优化景观决定的：在有 Transformer attention 的架构中，embedding 层的上下文调制没有生存空间。 SFE 动态路线关闭。意外发现 FAM v1 里，把第一层 attention 换成 FAM （在 α 空间做 token 间交互）后，PPL 从 179.34 降到 175.44 ，少了 3.9 点，参数量还更少（ 18.7M vs 19.4M ）。这个增益跟 g(ctx) 的动态调制无关（两组 alpha_cos 都反弹到 0.86 ），来自 FAM 层本身的结构化聚合。这个发现是 BIF 假设的直接来源。第三条路：BIF ，在低维空间做 token 交互想法把 token 交互的计算场所从 256 维搬到 64 维配方空间： # Token 表示 e_i = alpha_i @ B # [k] @ [k, d] = [d]，alpha 是 64 维配方系数，B 是共享零件库 # FAM 层：在配方空间做 token 间交互 S[i,j] = alpha_i @ W @ alpha_j^T # 双线性相似度，参数量 k×k=4096 out_i = softmax(S_i + causal_mask) @ X # 按相似度聚合参数量对比：传统 embedding：50257×256 ≈ 12.9M BIF embedding：50257×64 + 64×256 ≈ 3.2M （节省 75%） FAM 层：64×64 = 4096 个参数（标准 attention 约 262144 ） BIF 不解决一词多义，α 是静态的，语境消歧仍由后续 Transformer 处理。它只做一件事：在更低维的空间里做交互。当前状态 FAM 实验给出了初步正向信号：-3.9 PPL ，参数更少。但这个信号还不干净：两组模型参数量差了 0.7M （ 18.7M vs 19.4M ），无法排除参数量差异是增益来源。 BIF Phase 1 的目标是在参数量和 FLOPs 精确对齐的条件下，用三组对比给出干净的答案： Baseline：标准 embedding + 全部标准 attention BIF：α配方 embedding + FAM 第一层 + 标准 attention 后续层 BIF-ablation：α配方 embedding + 压缩版第一层 attention （参数量≈FAM ）如果 BIF 比 Baseline 低 >2 点，且比 BIF-ablation 低 >1 点，才算 FAM 有独立贡献。这个实验还没跑完，是目前唯一开放的假设。方法论：这三天最重要的东西不是结论，是筛选假设的框架做完这些实验，觉得最有价值的不是任何具体的实验结果，而是在失败里总结出来的一套假设验证流程。写出来供参考。五道闸门，提出新假设前先自我攻击闸门 1：计算成本假设的核心操作比现有方案贵多少？ BIIC 的 sandwich 积比标准 attention 贵约 360 倍，这是架构级问题，工程优化解决不了。这个数字应该在提出假设时就估算，不是等实验跑完。闸门 2：成功条件迁移前人类似工作的成功，依赖哪些前提条件？这些条件在当前场景下是否存在？ Geometric Hyena 在蛋白质结构上成功，因为有 SE(3) 物理等变性——这在语言中不存在。闸门 3：消融预判能否在实验前写下"完整版应该比简化版好 X 点"？如果写不出来，说明对假设的机理理解不够，还没有被精确定义。闸门 4：任务适配性数学上的优美不等于任务需要。Grade-2 几何积在数学上很漂亮，但 next-token prediction 不需要几何关系。区分"数学上可以"和"任务上需要"这两个问题。闸门 5：最小可证伪点这个假设最可能在哪里第一个失败？失败的量化标准是什么？用多少时间可以测到第一个信号？无法回答这三个问题就不允许启动实验。附加规则：通过标准在实验开始前写死，不允许实验中修改。如果核心指标在 2000 步时仍不达标且无收敛趋势，停止，不要继续烧资源。这套流程最大的价值是：它让失败变得信息密度更高。每次否定一个假设，都能精确地说"在哪里失败的"，而不是模糊地说"效果不好"。已确认的结论（有数据支撑）总结一下这三天确认的事情，方便后来人不重复踩坑：成立的： Grade-0 是真实的代数不变量，数学保证，任意语境下对同一 token 完全相同（ cos ≈ 0 ） Grade-2 携带句法信息（线性探针 POS=0.789 ，DEP=0.823 ），但不在几何积结构中语义变化的有效维度约 46-57 （ PCA 实证，PR p95=49.6 ）上下文分化发生在 Transformer 的中间层，不在 embedding 层不成立的：等变分量在语言 LM 任务中自发激活（ 13 个实验确认） Sandwich 积能提取句法关系（ Cohen's d=-0.157 ） BIIC 在依存句法上有优势（ UAS 差 47pp ）动态 embedding 调制在标准 Transformer 中存活（ 4 轮实验一致）待验证的： FAM 的 PPL 增益在参数对齐后是否保持（ BIF Phase 1 ）代码和踩坑几个容易犯的 PyTorch 错误（调试了很久才发现）： # 错误：inplace 操作报 autograd 错误 result[:, :, c, :] = mv_c_transformed # 正确：用 stack 收集 results.append(mv_c_transformed) result = torch.stack(results, dim=2) # 错误：MultiheadAttention 的 is_causal 需要同时传 attn_mask attn(h, h, h, is_causal=True) # 报错 # 正确 mask = nn.Transformer.generate_square_subsequent_mask(L, device=x.device) attn(h, h, h, attn_mask=mask, is_causal=True) # 错误：unfold 产生 L+1 个窗口 windows = padded.unfold(1, ctx_window, 1) # 正确：裁掉多余的一个 windows = padded.unfold(1, ctx_window, 1)[:, :L, :, :] SFE 的信息泄漏问题（调试了很久）： # 错误：位置 i 看到了自己的 embedding ctx = sfe(input_ids, ctx=None) # 包含位置 i 自己 # 正确：错位一个位置 static = sfe(input_ids, ctx=None).detach() shifted = torch.zeros_like(static) shifted[:, 1:, :] = static[:, :-1, :] # 位置 i 只看 i-1 之前 x = sfe(input_ids, ctx=shifted) 最后这个项目最初的想法是"找一个颠覆性的 token embedding 替代方案"。三天下来，BIIC 的几何代数路线关闭，SFE 的动态调制路线关闭，BIF 是唯一还没被否定的信号，但也还没有干净的验证数据。回头看，这段路走得比较值的地方不是任何具体的架构，而是：每次否定一个假设，都对"为什么这条路不通"有了更精确的理解。 Grade-2 的信息存在但不能被代数操作提取，等变分量在没有物理对称群的任务里永远休眠，embedding 层的动态调制在 attention 面前永远被压制——这些是可以直接被后来者复用的地图，不需要再走一遍。 BIF Phase 1 的结果出来后会补充更新。之前有帖子批评我说，做的项目都不能用都是 vibe 还在抖音上被说是民科。好吧确实没找到突破性的成果。我不好说什么。还是希望多交流这方面的优化方向。感谢拜读。实验过程代码和结果，陆续更新至仓库： https://github.com/val1813/BIIC

用 72 小时系统性地否定自己的假设：从几何代数到因子注意力的踩坑记录

V2EX - 技术 · 2026-05-13 11:43:20+08:00 · tech

最近花了三天时间做了一个实验项目，核心问题是：能不能找到比 token embedding 更好的语义传送单元？结果是把自己的三个假设依次否定了，但在否定过程中挖出来一个还没被否定的信号。把过程和数据分享出来，也许对做 NLP/表示学习的朋友有参考价值。设备：双卡 4090 （ 24GB×2 ），在 VPS 上跑。背景：我们在试图解决什么现有 LLM 的 token embedding 是一张静态查表。"苹果"无论出现在"吃苹果"还是"苹果发布会"，进入模型的初始向量都是同一个。模型要靠后续十几层 Transformer 来修正这个歧义起点。有没有更好的办法？我沿着三条路走了一遍： BIIC （几何代数） → SFE （动态调制） → BIF （因子化低维交互）每条路都是前一条被实验否定后的精炼。第一条路：BIIC ，用几何代数做语义表示想法- Clifford 几何代数 Cl(4,1) 里的多向量可以按"grade"分解： Grade-0 （标量）：在旋转变换下严格不变——不管坐标系怎么转，这个值不变 Grade-2 （双向量）：在旋转变换下会跟着变设想：把 token 映射到这个代数结构里，grade-0 作为词的稳定身份锚点，grade-2 携带随上下文变化的语法/语义关系。用 sandwich 积 R·x·R_rev 做 token 间变换，数学上保证 grade-0 严格不变、grade-2 按规律协变。 Phase 1-2：代数基础验证先花了两天验证代数运算是否正确，结果全部通过：测试结果关键数据 Grade-0 不变性 PASS 100 次变换后误差 < 1e-5 Grade-2 等变性 PASS 两种计算方式误差 < 1e-6 10 层梯度流 PASS 梯度比 = 0.55 ，健康全链路训练 50 步 PASS loss 10.57 → 0.72 踩坑： Cl(4,1) 的 e5²=-1 （负度规）导致 sandwich 积不保范数，多次变换后数值溢出。解决：对每个 grade 分别归一化，不能统一缩放（否则破坏等变性） Taylor 展开 exp(B) 需要 16 项，12 项精度不够 Phase 3-5：在真实语料上训练，等变分量不活跃开始在 WikiText-103 上训练完整的语言模型，同时设计了 13 个实验，系统尝试激活 grade-2 等变分量：相对不变注意力、分段 Eraser 、Cohesin 门控、长序列、深网络、全机制叠加…… 13 个实验全部失败。核心数据： Phase 3 消融：完整 BIIC loss = 10.8285 仅 grade-0 loss = 10.8271 差距 = 0.0014 （等变分量贡献几乎为零） Phase 5 RelAttn 10k 步： alpha: 0.018 → 0.029 （微升，远不足以说明激活） Transformer baseline PPL = 53.9 （ 52M 参数） BIIC PPL = 390+（远差）为什么等变分量不活跃？根本原因是任务不匹配。等变分量在分子设计（ SE(3) 等变）、DNA 建模（互补链对称）中有效，是因为那些领域有明确的物理对称性作为监督信号。语言中没有这样的对称性。next-token prediction 只需要知道"下一个词更可能是什么"，不需要知道"token A 和 B 的几何对称关系"。这个教训概括起来就是：在借鉴前人工作之前，先检查前人的成功条件在你的场景里是否存在。 Phase 6：依存句法任务，直接测试 LM 方向失败后，尝试在有明确句法监督的任务上测试：依存句法分析。如果 grade-2 真的编码了句法，这里应该有优势。结果：模型 UAS LAS 参数 BIIC + Biaffine 0.279 0.225 2.5M Transformer + Biaffine 0.752 0.681 2.3M 差距 47pp ，任意数据量下 BIIC 均远差于 Transformer ，无交叉点。判决性实验 M-v2：测试 grade-2 几何积能否区分不同依存关系类型：统计显著：p < 1e-15 （样本量足够大）但 Cohen's d = -0.157 （效应极小，方向还是反的）探针准确率 = 0.439 （勉强高于随机基线 0.25 ）有一个矛盾值得记录：线性探针从 grade-2 预测词性 POS = 0.789 ，依存关系 DEP = 0.823 。信息确实存在，但几何积无法提取它。解释：grade-2 的线性子空间里有句法信息，但这些信息不是通过几何积的代数结构组织的。"信息存在"≠"可被代数操作提取"。 BIIC 方向关闭。中间插曲：PCA 有效秩分析在决定下一个方向之前，对 BIIC 的 checkpoint 做了一次 PCA 分析（ 51 个多义词，正确加载 50/50 参数），结果很清晰：层 PR 中位数 rank_90 中位数同词不同语境的 cos embed_grade0 1.0 1 ≈0 （完全正交） embed_grade2 1.0 1 1.0 （完全相同） grade2 （ 6 层后） 45.6 53 -0.02 （近乎正交） hidden_layer3 44.7 55 -0.03 hidden_final 1.05 1 0.82 几个关键发现： embed_grade2 cos=1.0：embedding 层出来的 grade-2 ，在不同语境下完全相同。原因很简单：encoder 的输入只有 token ID ，没有上下文，所以无法产生上下文分化。这个数字后来成为否定 SFE 的提前预警。 grade2 （深层） PR≈46 ，cos≈-0.02：经过 6 层 blocks 之后，grade-2 变成了高维、相互近乎正交的表示。上下文分化发生在中间层，不在 embedding 层。 hidden_final PR≈1：最后一层把信息压缩回接近一维。这是正常 LM 行为——预测下一个词只需要极少维度。 grade-2 PR p95=49.6：95% 的多义词，语义变化的有效维度不超过 50 。这个数字后来成为 BIF 中 k=64 的实证依据。第二条路：SFE ，动态调制 embedding 想法如果 embedding 层本身能根据上下文调整，同一个词在不同语境下就会有不同的初始向量，后续 Transformer 就不需要修正歧义起点。 e_i = (alpha_static_i + g(ctx_i)) @ B B ∈ ℝ^{64×256} ：全局共享语义基矩阵 alpha_i ∈ ℝ^{64} ：每个 token 的静态配方系数 g(ctx_i) ：上下文修正网络，输入前 4 个位置的 embedding ，输出系数偏移低秩约束（ k=64 ）有 PCA 数据的支持，防止 g 退化成复杂查表。三轮实验，三轮失败实验核心改动 alpha_cos_min alpha_cos_final 结论 v1.0 g 零初始化 0.85 0.90 g 未激活 v1.1 随机初始化 + 10x lr + 辅助损失 0.61 0.85 激活但被压制 FAM v1 + FAM 层直接依赖 α 0.49 0.86 压制不变 FAM v2 FAM 梯度直连 g 0.50 0.86 压制不变 v1.1 的结果是最有信息量的：alpha_cos 在 step 400 降到 0.61 （ g 确实学到了分化），然后单调上升到 0.85 （被压回去）。探针准确率：完整版 SFE 0.6316 ，静态版 0.6475 ，完整版反而更差。压制机制的本质：Transformer 的 attention 本身就是一个强大的消歧工具。它发现"自己处理消歧"比"利用 embedding 层传来的分化信号"更高效，通过梯度反传系统性地将 g(ctx) 归零。这不是梯度路径的问题（我们试过直连），不是学习率的问题（给了 10 倍），不是辅助损失的问题（加了显式分化损失）。这是优化景观决定的：在有 Transformer attention 的架构中，embedding 层的上下文调制没有生存空间。 SFE 动态路线关闭。意外发现 FAM v1 里，把第一层 attention 换成 FAM （在 α 空间做 token 间交互）后，PPL 从 179.34 降到 175.44 ，少了 3.9 点，参数量还更少（ 18.7M vs 19.4M ）。这个增益跟 g(ctx) 的动态调制无关（两组 alpha_cos 都反弹到 0.86 ），来自 FAM 层本身的结构化聚合。这个发现是 BIF 假设的直接来源。第三条路：BIF ，在低维空间做 token 交互想法把 token 交互的计算场所从 256 维搬到 64 维配方空间： # Token 表示 e_i = alpha_i @ B # [k] @ [k, d] = [d]，alpha 是 64 维配方系数，B 是共享零件库 # FAM 层：在配方空间做 token 间交互 S[i,j] = alpha_i @ W @ alpha_j^T # 双线性相似度，参数量 k×k=4096 out_i = softmax(S_i + causal_mask) @ X # 按相似度聚合参数量对比：传统 embedding：50257×256 ≈ 12.9M BIF embedding：50257×64 + 64×256 ≈ 3.2M （节省 75%） FAM 层：64×64 = 4096 个参数（标准 attention 约 262144 ） BIF 不解决一词多义，α 是静态的，语境消歧仍由后续 Transformer 处理。它只做一件事：在更低维的空间里做交互。当前状态 FAM 实验给出了初步正向信号：-3.9 PPL ，参数更少。但这个信号还不干净：两组模型参数量差了 0.7M （ 18.7M vs 19.4M ），无法排除参数量差异是增益来源。 BIF Phase 1 的目标是在参数量和 FLOPs 精确对齐的条件下，用三组对比给出干净的答案： Baseline：标准 embedding + 全部标准 attention BIF：α配方 embedding + FAM 第一层 + 标准 attention 后续层 BIF-ablation：α配方 embedding + 压缩版第一层 attention （参数量≈FAM ）如果 BIF 比 Baseline 低 >2 点，且比 BIF-ablation 低 >1 点，才算 FAM 有独立贡献。这个实验还没跑完，是目前唯一开放的假设。方法论：这三天最重要的东西不是结论，是筛选假设的框架做完这些实验，觉得最有价值的不是任何具体的实验结果，而是在失败里总结出来的一套假设验证流程。写出来供参考。五道闸门，提出新假设前先自我攻击闸门 1：计算成本假设的核心操作比现有方案贵多少？ BIIC 的 sandwich 积比标准 attention 贵约 360 倍，这是架构级问题，工程优化解决不了。这个数字应该在提出假设时就估算，不是等实验跑完。闸门 2：成功条件迁移前人类似工作的成功，依赖哪些前提条件？这些条件在当前场景下是否存在？ Geometric Hyena 在蛋白质结构上成功，因为有 SE(3) 物理等变性——这在语言中不存在。闸门 3：消融预判能否在实验前写下"完整版应该比简化版好 X 点"？如果写不出来，说明对假设的机理理解不够，还没有被精确定义。闸门 4：任务适配性数学上的优美不等于任务需要。Grade-2 几何积在数学上很漂亮，但 next-token prediction 不需要几何关系。区分"数学上可以"和"任务上需要"这两个问题。闸门 5：最小可证伪点这个假设最可能在哪里第一个失败？失败的量化标准是什么？用多少时间可以测到第一个信号？无法回答这三个问题就不允许启动实验。附加规则：通过标准在实验开始前写死，不允许实验中修改。如果核心指标在 2000 步时仍不达标且无收敛趋势，停止，不要继续烧资源。这套流程最大的价值是：它让失败变得信息密度更高。每次否定一个假设，都能精确地说"在哪里失败的"，而不是模糊地说"效果不好"。已确认的结论（有数据支撑）总结一下这三天确认的事情，方便后来人不重复踩坑：成立的： Grade-0 是真实的代数不变量，数学保证，任意语境下对同一 token 完全相同（ cos ≈ 0 ） Grade-2 携带句法信息（线性探针 POS=0.789 ，DEP=0.823 ），但不在几何积结构中语义变化的有效维度约 46-57 （ PCA 实证，PR p95=49.6 ）上下文分化发生在 Transformer 的中间层，不在 embedding 层不成立的：等变分量在语言 LM 任务中自发激活（ 13 个实验确认） Sandwich 积能提取句法关系（ Cohen's d=-0.157 ） BIIC 在依存句法上有优势（ UAS 差 47pp ）动态 embedding 调制在标准 Transformer 中存活（ 4 轮实验一致）待验证的： FAM 的 PPL 增益在参数对齐后是否保持（ BIF Phase 1 ）代码和踩坑几个容易犯的 PyTorch 错误（调试了很久才发现）： # 错误：inplace 操作报 autograd 错误 result[:, :, c, :] = mv_c_transformed # 正确：用 stack 收集 results.append(mv_c_transformed) result = torch.stack(results, dim=2) # 错误：MultiheadAttention 的 is_causal 需要同时传 attn_mask attn(h, h, h, is_causal=True) # 报错 # 正确 mask = nn.Transformer.generate_square_subsequent_mask(L, device=x.device) attn(h, h, h, attn_mask=mask, is_causal=True) # 错误：unfold 产生 L+1 个窗口 windows = padded.unfold(1, ctx_window, 1) # 正确：裁掉多余的一个 windows = padded.unfold(1, ctx_window, 1)[:, :L, :, :] SFE 的信息泄漏问题（调试了很久）： # 错误：位置 i 看到了自己的 embedding ctx = sfe(input_ids, ctx=None) # 包含位置 i 自己 # 正确：错位一个位置 static = sfe(input_ids, ctx=None).detach() shifted = torch.zeros_like(static) shifted[:, 1:, :] = static[:, :-1, :] # 位置 i 只看 i-1 之前 x = sfe(input_ids, ctx=shifted) 最后这个项目最初的想法是"找一个颠覆性的 token embedding 替代方案"。三天下来，BIIC 的几何代数路线关闭，SFE 的动态调制路线关闭，BIF 是唯一还没被否定的信号，但也还没有干净的验证数据。回头看，这段路走得比较值的地方不是任何具体的架构，而是：每次否定一个假设，都对"为什么这条路不通"有了更精确的理解。 Grade-2 的信息存在但不能被代数操作提取，等变分量在没有物理对称群的任务里永远休眠，embedding 层的动态调制在 attention 面前永远被压制——这些是可以直接被后来者复用的地图，不需要再走一遍。 BIF Phase 1 的结果出来后会补充更新。之前有帖子批评我说，做的项目都不能用都是 vibe 还在抖音上被说是民科。好吧确实没找到突破性的成果。我不好说什么。还是希望多交流这方面的优化方向。感谢拜读。实验过程代码和结果，陆续更新至仓库： https://github.com/val1813/BIIC

用 72 小时系统性地否定自己的假设：从几何代数到因子注意力的踩坑记录

V2EX - 技术 · 2026-05-13 10:43:20+08:00 · tech

最近花了三天时间做了一个实验项目，核心问题是：能不能找到比 token embedding 更好的语义传送单元？结果是把自己的三个假设依次否定了，但在否定过程中挖出来一个还没被否定的信号。把过程和数据分享出来，也许对做 NLP/表示学习的朋友有参考价值。设备：双卡 4090 （ 24GB×2 ），在 VPS 上跑。背景：我们在试图解决什么现有 LLM 的 token embedding 是一张静态查表。"苹果"无论出现在"吃苹果"还是"苹果发布会"，进入模型的初始向量都是同一个。模型要靠后续十几层 Transformer 来修正这个歧义起点。有没有更好的办法？我沿着三条路走了一遍： BIIC （几何代数） → SFE （动态调制） → BIF （因子化低维交互）每条路都是前一条被实验否定后的精炼。第一条路：BIIC ，用几何代数做语义表示想法- Clifford 几何代数 Cl(4,1) 里的多向量可以按"grade"分解： Grade-0 （标量）：在旋转变换下严格不变——不管坐标系怎么转，这个值不变 Grade-2 （双向量）：在旋转变换下会跟着变设想：把 token 映射到这个代数结构里，grade-0 作为词的稳定身份锚点，grade-2 携带随上下文变化的语法/语义关系。用 sandwich 积 R·x·R_rev 做 token 间变换，数学上保证 grade-0 严格不变、grade-2 按规律协变。 Phase 1-2：代数基础验证先花了两天验证代数运算是否正确，结果全部通过：测试结果关键数据 Grade-0 不变性 PASS 100 次变换后误差 < 1e-5 Grade-2 等变性 PASS 两种计算方式误差 < 1e-6 10 层梯度流 PASS 梯度比 = 0.55 ，健康全链路训练 50 步 PASS loss 10.57 → 0.72 踩坑： Cl(4,1) 的 e5²=-1 （负度规）导致 sandwich 积不保范数，多次变换后数值溢出。解决：对每个 grade 分别归一化，不能统一缩放（否则破坏等变性） Taylor 展开 exp(B) 需要 16 项，12 项精度不够 Phase 3-5：在真实语料上训练，等变分量不活跃开始在 WikiText-103 上训练完整的语言模型，同时设计了 13 个实验，系统尝试激活 grade-2 等变分量：相对不变注意力、分段 Eraser 、Cohesin 门控、长序列、深网络、全机制叠加…… 13 个实验全部失败。核心数据： Phase 3 消融：完整 BIIC loss = 10.8285 仅 grade-0 loss = 10.8271 差距 = 0.0014 （等变分量贡献几乎为零） Phase 5 RelAttn 10k 步： alpha: 0.018 → 0.029 （微升，远不足以说明激活） Transformer baseline PPL = 53.9 （ 52M 参数） BIIC PPL = 390+（远差）为什么等变分量不活跃？根本原因是任务不匹配。等变分量在分子设计（ SE(3) 等变）、DNA 建模（互补链对称）中有效，是因为那些领域有明确的物理对称性作为监督信号。语言中没有这样的对称性。next-token prediction 只需要知道"下一个词更可能是什么"，不需要知道"token A 和 B 的几何对称关系"。这个教训概括起来就是：在借鉴前人工作之前，先检查前人的成功条件在你的场景里是否存在。 Phase 6：依存句法任务，直接测试 LM 方向失败后，尝试在有明确句法监督的任务上测试：依存句法分析。如果 grade-2 真的编码了句法，这里应该有优势。结果：模型 UAS LAS 参数 BIIC + Biaffine 0.279 0.225 2.5M Transformer + Biaffine 0.752 0.681 2.3M 差距 47pp ，任意数据量下 BIIC 均远差于 Transformer ，无交叉点。判决性实验 M-v2：测试 grade-2 几何积能否区分不同依存关系类型：统计显著：p < 1e-15 （样本量足够大）但 Cohen's d = -0.157 （效应极小，方向还是反的）探针准确率 = 0.439 （勉强高于随机基线 0.25 ）有一个矛盾值得记录：线性探针从 grade-2 预测词性 POS = 0.789 ，依存关系 DEP = 0.823 。信息确实存在，但几何积无法提取它。解释：grade-2 的线性子空间里有句法信息，但这些信息不是通过几何积的代数结构组织的。"信息存在"≠"可被代数操作提取"。 BIIC 方向关闭。中间插曲：PCA 有效秩分析在决定下一个方向之前，对 BIIC 的 checkpoint 做了一次 PCA 分析（ 51 个多义词，正确加载 50/50 参数），结果很清晰：层 PR 中位数 rank_90 中位数同词不同语境的 cos embed_grade0 1.0 1 ≈0 （完全正交） embed_grade2 1.0 1 1.0 （完全相同） grade2 （ 6 层后） 45.6 53 -0.02 （近乎正交） hidden_layer3 44.7 55 -0.03 hidden_final 1.05 1 0.82 几个关键发现： embed_grade2 cos=1.0：embedding 层出来的 grade-2 ，在不同语境下完全相同。原因很简单：encoder 的输入只有 token ID ，没有上下文，所以无法产生上下文分化。这个数字后来成为否定 SFE 的提前预警。 grade2 （深层） PR≈46 ，cos≈-0.02：经过 6 层 blocks 之后，grade-2 变成了高维、相互近乎正交的表示。上下文分化发生在中间层，不在 embedding 层。 hidden_final PR≈1：最后一层把信息压缩回接近一维。这是正常 LM 行为——预测下一个词只需要极少维度。 grade-2 PR p95=49.6：95% 的多义词，语义变化的有效维度不超过 50 。这个数字后来成为 BIF 中 k=64 的实证依据。第二条路：SFE ，动态调制 embedding 想法如果 embedding 层本身能根据上下文调整，同一个词在不同语境下就会有不同的初始向量，后续 Transformer 就不需要修正歧义起点。 e_i = (alpha_static_i + g(ctx_i)) @ B B ∈ ℝ^{64×256} ：全局共享语义基矩阵 alpha_i ∈ ℝ^{64} ：每个 token 的静态配方系数 g(ctx_i) ：上下文修正网络，输入前 4 个位置的 embedding ，输出系数偏移低秩约束（ k=64 ）有 PCA 数据的支持，防止 g 退化成复杂查表。三轮实验，三轮失败实验核心改动 alpha_cos_min alpha_cos_final 结论 v1.0 g 零初始化 0.85 0.90 g 未激活 v1.1 随机初始化 + 10x lr + 辅助损失 0.61 0.85 激活但被压制 FAM v1 + FAM 层直接依赖 α 0.49 0.86 压制不变 FAM v2 FAM 梯度直连 g 0.50 0.86 压制不变 v1.1 的结果是最有信息量的：alpha_cos 在 step 400 降到 0.61 （ g 确实学到了分化），然后单调上升到 0.85 （被压回去）。探针准确率：完整版 SFE 0.6316 ，静态版 0.6475 ，完整版反而更差。压制机制的本质：Transformer 的 attention 本身就是一个强大的消歧工具。它发现"自己处理消歧"比"利用 embedding 层传来的分化信号"更高效，通过梯度反传系统性地将 g(ctx) 归零。这不是梯度路径的问题（我们试过直连），不是学习率的问题（给了 10 倍），不是辅助损失的问题（加了显式分化损失）。这是优化景观决定的：在有 Transformer attention 的架构中，embedding 层的上下文调制没有生存空间。 SFE 动态路线关闭。意外发现 FAM v1 里，把第一层 attention 换成 FAM （在 α 空间做 token 间交互）后，PPL 从 179.34 降到 175.44 ，少了 3.9 点，参数量还更少（ 18.7M vs 19.4M ）。这个增益跟 g(ctx) 的动态调制无关（两组 alpha_cos 都反弹到 0.86 ），来自 FAM 层本身的结构化聚合。这个发现是 BIF 假设的直接来源。第三条路：BIF ，在低维空间做 token 交互想法把 token 交互的计算场所从 256 维搬到 64 维配方空间： # Token 表示 e_i = alpha_i @ B # [k] @ [k, d] = [d]，alpha 是 64 维配方系数，B 是共享零件库 # FAM 层：在配方空间做 token 间交互 S[i,j] = alpha_i @ W @ alpha_j^T # 双线性相似度，参数量 k×k=4096 out_i = softmax(S_i + causal_mask) @ X # 按相似度聚合参数量对比：传统 embedding：50257×256 ≈ 12.9M BIF embedding：50257×64 + 64×256 ≈ 3.2M （节省 75%） FAM 层：64×64 = 4096 个参数（标准 attention 约 262144 ） BIF 不解决一词多义，α 是静态的，语境消歧仍由后续 Transformer 处理。它只做一件事：在更低维的空间里做交互。当前状态 FAM 实验给出了初步正向信号：-3.9 PPL ，参数更少。但这个信号还不干净：两组模型参数量差了 0.7M （ 18.7M vs 19.4M ），无法排除参数量差异是增益来源。 BIF Phase 1 的目标是在参数量和 FLOPs 精确对齐的条件下，用三组对比给出干净的答案： Baseline：标准 embedding + 全部标准 attention BIF：α配方 embedding + FAM 第一层 + 标准 attention 后续层 BIF-ablation：α配方 embedding + 压缩版第一层 attention （参数量≈FAM ）如果 BIF 比 Baseline 低 >2 点，且比 BIF-ablation 低 >1 点，才算 FAM 有独立贡献。这个实验还没跑完，是目前唯一开放的假设。方法论：这三天最重要的东西不是结论，是筛选假设的框架做完这些实验，觉得最有价值的不是任何具体的实验结果，而是在失败里总结出来的一套假设验证流程。写出来供参考。五道闸门，提出新假设前先自我攻击闸门 1：计算成本假设的核心操作比现有方案贵多少？ BIIC 的 sandwich 积比标准 attention 贵约 360 倍，这是架构级问题，工程优化解决不了。这个数字应该在提出假设时就估算，不是等实验跑完。闸门 2：成功条件迁移前人类似工作的成功，依赖哪些前提条件？这些条件在当前场景下是否存在？ Geometric Hyena 在蛋白质结构上成功，因为有 SE(3) 物理等变性——这在语言中不存在。闸门 3：消融预判能否在实验前写下"完整版应该比简化版好 X 点"？如果写不出来，说明对假设的机理理解不够，还没有被精确定义。闸门 4：任务适配性数学上的优美不等于任务需要。Grade-2 几何积在数学上很漂亮，但 next-token prediction 不需要几何关系。区分"数学上可以"和"任务上需要"这两个问题。闸门 5：最小可证伪点这个假设最可能在哪里第一个失败？失败的量化标准是什么？用多少时间可以测到第一个信号？无法回答这三个问题就不允许启动实验。附加规则：通过标准在实验开始前写死，不允许实验中修改。如果核心指标在 2000 步时仍不达标且无收敛趋势，停止，不要继续烧资源。这套流程最大的价值是：它让失败变得信息密度更高。每次否定一个假设，都能精确地说"在哪里失败的"，而不是模糊地说"效果不好"。已确认的结论（有数据支撑）总结一下这三天确认的事情，方便后来人不重复踩坑：成立的： Grade-0 是真实的代数不变量，数学保证，任意语境下对同一 token 完全相同（ cos ≈ 0 ） Grade-2 携带句法信息（线性探针 POS=0.789 ，DEP=0.823 ），但不在几何积结构中语义变化的有效维度约 46-57 （ PCA 实证，PR p95=49.6 ）上下文分化发生在 Transformer 的中间层，不在 embedding 层不成立的：等变分量在语言 LM 任务中自发激活（ 13 个实验确认） Sandwich 积能提取句法关系（ Cohen's d=-0.157 ） BIIC 在依存句法上有优势（ UAS 差 47pp ）动态 embedding 调制在标准 Transformer 中存活（ 4 轮实验一致）待验证的： FAM 的 PPL 增益在参数对齐后是否保持（ BIF Phase 1 ）代码和踩坑几个容易犯的 PyTorch 错误（调试了很久才发现）： # 错误：inplace 操作报 autograd 错误 result[:, :, c, :] = mv_c_transformed # 正确：用 stack 收集 results.append(mv_c_transformed) result = torch.stack(results, dim=2) # 错误：MultiheadAttention 的 is_causal 需要同时传 attn_mask attn(h, h, h, is_causal=True) # 报错 # 正确 mask = nn.Transformer.generate_square_subsequent_mask(L, device=x.device) attn(h, h, h, attn_mask=mask, is_causal=True) # 错误：unfold 产生 L+1 个窗口 windows = padded.unfold(1, ctx_window, 1) # 正确：裁掉多余的一个 windows = padded.unfold(1, ctx_window, 1)[:, :L, :, :] SFE 的信息泄漏问题（调试了很久）： # 错误：位置 i 看到了自己的 embedding ctx = sfe(input_ids, ctx=None) # 包含位置 i 自己 # 正确：错位一个位置 static = sfe(input_ids, ctx=None).detach() shifted = torch.zeros_like(static) shifted[:, 1:, :] = static[:, :-1, :] # 位置 i 只看 i-1 之前 x = sfe(input_ids, ctx=shifted) 最后这个项目最初的想法是"找一个颠覆性的 token embedding 替代方案"。三天下来，BIIC 的几何代数路线关闭，SFE 的动态调制路线关闭，BIF 是唯一还没被否定的信号，但也还没有干净的验证数据。回头看，这段路走得比较值的地方不是任何具体的架构，而是：每次否定一个假设，都对"为什么这条路不通"有了更精确的理解。 Grade-2 的信息存在但不能被代数操作提取，等变分量在没有物理对称群的任务里永远休眠，embedding 层的动态调制在 attention 面前永远被压制——这些是可以直接被后来者复用的地图，不需要再走一遍。 BIF Phase 1 的结果出来后会补充更新。之前有帖子批评我说，做的项目都不能用都是 vibe 还在抖音上被说是民科。好吧确实没找到突破性的成果。我不好说什么。还是希望多交流这方面的优化方向。感谢拜读。实验过程代码和结果，陆续更新至仓库： https://github.com/val1813/BIIC

AI解数学题用哪个模型啊？

linux.do · 2026-05-06 10:16:41+08:00 · tech

我记得之前看新闻不是说AI在IMO都能拿金牌了嘛？今天看到一个平面几何题（估计大概CMO到IMO难度？）甩给AI做，图省事Claude code调用anyrouter的Claude 4-7做不出来，又给Chatgpt网页端和Aistudio的gemini 3.1 pro 也做错了…… 有AI能做出来吗？ 11 个帖子 - 10 位参与者阅读完整话题

金融时报：小米携高端电动车进军欧洲叫板马斯克胜算几何？

plink.anyfeeder.com · 2026-04-27 14:05:08+08:00 · tech

4月27日，据《金融时报》报道，在造出首款汽车仅仅两年后，中国头部智能手机制造商小米已交付了65万辆电动汽车，这一数字与特斯拉去年在中国这个全球最大汽车市场的销量不相上下。图1：小米SU7 现在，小米创始人雷军计划借助其高端电动汽车进军欧洲市场，挑战埃隆·马斯克(Elon Musk)旗下特斯拉。这些车型以惊人的加速性能和先进配置著称，甚至让福特CEO吉姆·法利(Jim Farley)为之倾心。自雷军2021年宣布造车计划以来，小米仅用三年时间便推出了首款车型：SU7，震惊了全球汽车行业。该车在开放预订后30分钟内便被抢购了5万辆。在SU7成为中国畅销车之后，小米第二款车型YU7在去年发布时仅三分钟就收获20万辆预订。这款售价3.5万美元的车型对标特斯拉Model Y，其设计则酷似法拉利Purosangue。欧洲工程师参与开发在上周五的北京年度车展上，雷军表示，新款YU7 GT车型“能够达到德国顶级汽车的标准”。这款预计于5月底发布的车型，是小米与欧洲工程师联合开发的首款车型。 “短短五年间，小米已经取得了非凡的成就。但时至今日，许多人仍然不了解小米汽车，甚至存在一些偏见。”雷军称。图2：雷军在北京车展上在当前中国汽车行业竞争激烈的情况下，尽管小米北京新工厂去年生产了41万辆汽车，但依旧供不应求。自2010年成立以来，小米营收增长迅速，去年达到4573亿元人民币(约合670亿美元)。然而，分析师表示，小米也无法免受激烈价格竞争的影响。这种竞争已侵蚀了比亚迪及其他大众市场品牌的利润和销量，迫使它们到国际市场寻求增长。在过去十年爆发式增长之后，中国电动汽车的销量增长预计也将放缓。“他们需要在其他地方寻找增长市场，这是小米做出的理性决定。” 佳富凯研究分析师崔尔楠(Ernan Cui，音译)表示。小米的优势小米是欧洲第三大智能手机品牌。崔尔楠指出，小米拥有在海外销售消费电子产品的经验，“相较于中国的电动汽车创业公司，小米拥有更强大的全球销售网络。和传统汽车制造商相比，其产品也更具竞争力”。图3：小米是欧洲第三大手机品牌中国咨询公司AutoXing创始人邢磊表示，小米的主要竞争对手将是特斯拉、保时捷、宝马和奔驰。“小米已在欧洲消费电子领域打下了品牌基础，这是相对于其他中国品牌的显著优势。”他表示。小米尚未透露将首先进入哪个欧洲市场，但去年已在慕尼黑设立电动汽车研发中心，并雇佣了超过75名工程师。许多中国品牌已迅速扩张至欧洲市场，定价约为国内的两倍，但由于具备先进的软件技术，这些车型仍具有价格竞争力。 “欧洲市场对我们至关重要，”小米首席营销官许斐在北京车展前向国际媒体首次阐述战略时表示，“我们很想提供质量更好、性能更优的产品。” 小米在其中国唯一一家电动汽车工厂已部署了自主制造工艺与材料，以降低生产成本，同时提升车辆的耐用性。该工厂每76秒下线一辆汽车，自动化率达91%，拥有数百个机械臂参与装配，并配备“自主移动机器人”在厂区内运输零部件。图4：小米采用自主制造工艺在设计层面，小米仍以特斯拉和保时捷等竞争对手为标杆。但是，小米首席财务官林世伟近期向挪威规模为1.8万亿美元石油基金的负责人尼古拉·坦根(Nicolai Tangen)表示，欧洲汽车制造商缺乏“汽车智能化”能力，也难以将电动汽车与更广泛生态系统(包括小米智能手机和家电)相连接。他指出，许多欧洲车企频繁参观其工厂，并补充说：“我认为你已经看到，欧洲与中国企业之间正在展开合作，我觉得这将有助于推动整个行业向前发展。” 挑战但分析师表示，小米将其在中国的成功复制到欧洲市场将面临挑战，因为欧洲市场拥有很强的品牌忠诚度，尤其是对德国高端品牌。根据施密特汽车研究公司的数据，今年前三个月，中国品牌在英国及欧洲新车市场占有率为8.6%，但在德国、法国等国家的份额则远低于这一水平。 “进入高端市场的入场仪式极其漫长。小米在欧洲仍有成功机会，但更可能是以挤压大众车型厂商的份额为代价，而不是冲击德国高端品牌。”施密特创始人马蒂亚斯·施密特(Matthias Schmidt)表示。咨询公司Omdia驻上海分析师刘运程(Chris Liu)表示，在欧洲，小米还将失去其在中国所享有的供应链协同等优势。正是这些优势，使得这家中国公司能够如此快速且低成本地开发出具备先进功能的汽车。 “小米的许多竞争力都绑定了中国的生态系统，这很难移植到欧洲。”刘运程表示。查看评论

自己公司部署deepseek-v4-pro，需要什么样的配置，总价几何

linux.do · 2026-04-24 11:53:01+08:00 · tech

告诉grok说1000人重度使用，资金富可敌国。grok 给的回复是熟悉的大佬，给说下靠谱吗 1 个帖子 - 1 位参与者阅读完整话题

字节跳动发布 Seed3D 2.0，3D 生成转向生产可用

linux.do · 2026-04-23 17:39:48+08:00 · tech

字节跳动发布新一代 3D 生成大模型 Seed3D 2.0，重点提升几何精度和材质质量，称已把 3D 内容生成从演示级推进到生产可用。模型在几何生成和纹理材质生成两项核心指标上取得 SOTA，纹理生成人类评测中，相对主流模型的偏好率超过 69%。 Seed3D 2.0 还把能力扩展到部件级生成和场景组合，可先拆分 3D 内容部件再补全形状，并输出带完整关节信息、兼容 URDF 等标准格式的内容，适配 Isaac Sim 等物理仿真引擎。 seed.bytedance.com 1 个帖子 - 1 位参与者阅读完整话题

字节跳动发布 3D 生成大模型 Seed3D 2.0，在几何 / 纹理材质生成上取得 SOTA

www.ithome.com · 2026-04-23 12:48:48+08:00 · tech

IT之家 4 月 23 日消息，字节跳动今日正式发布更高精度的新一代 3D 生成大模型 —— Seed3D 2.0 ，目前 Seed3D 2.0 技术报告已公开，API 也已上线火山引擎。字节跳动表示，在与现有 3D 生成模型的对比评测中，Seed3D 2.0 在几何生成、纹理材质生成两项核心指标上均取得 SOTA 结果（指在某项具体任务或基准测试中表现最优的模型或方法）。模型对复杂结构的还原更加精细，PBR 材质的生成也具有更强的真实感和稳定性。 ▲ 几何生成维度的定性对比字节跳动招募了 60 位具有 3D 建模经验的人类打分员，对 Seed3D 2.0 和六个主流模型的生成质量进行两两盲评对比。 ▲ 评估分为纯几何结构生成对比和带有纹理贴图的 3D 生成两部分 Seed3D 2.0 在几何形状生成的对比测试中展现出显著优势，相比所有其他 3D 生成模型呈现更高的偏好率（人类打分员认为其生成质量更优的比例），验证了架构创新带来的几何质量提升。在纹理 3D 内容生成的人类打分中，Seed3D 2.0 同样领先其他基线方法，面对目前行业内主流模型，Seed3D 2.0 的偏好率达到 69% 以上。 IT之家附技术报告概述如下： Seed3D 2.0 引入 Coarse-to-Fine 两阶段生成策略，把“整体结构”和“几何细节”解耦，分开优化，从而在锐利边缘、薄壁结构和复杂拓扑等几何生成难点上取得突破。 ▲ Seed3D 2.0 几何生成的完整流程同时，Seed3D 2.0 采用统一的 PBR 生成模型联合建模完整 PBR 贴图，使用 MoE 架构提升高分辨率材质细节与边界精度，并且引入 VLM 先验，增强未知光照下的材质分解稳定性与准确性。 ▲ Seed3D 2.0 的纹理生成流程在几何与纹理之外，Seed3D 2.0 能完成部件级分割与补全、铰接资产生成以及基于图像、视频或文本的场景组合生成，让生成式 3D 模型可应用于实际部署。 ▲ Seed3D 2.0 的仿真场景生成流程

空调“含铜量”几何？海信高管再发声：冷凝器、蒸发器等均为铜管，美的、海尔等主流品牌也大多使用铜管

www.ithome.com · 2026-04-15 17:07:18+08:00 · tech

IT之家 4 月 15 日消息，近日，围绕空调产品“含铜量”问题的讨论引发关注。格力电器 CMO 朱磊昨日发文指出，海信空调在传播中使用了“真铜实料”这一表述，并称该说法源自格力电器的原创，要求海信自查是否存在使用铝线电机或铝管的产品。对此，海信空气事业部品牌总监杨祥玺回应新浪科技表示，市场上主流大品牌空调均为铜管，这是行业的品质共识。杨祥玺表示，海信空调的室内机、室外机的冷凝器和蒸发器以及内外机连接管均为铜管，高能效产品使用双排铜管，同时指出美的、海尔等主流品牌也大多使用铜管。他还强调，早在 2016 年就有媒体报道提及海信、长虹、创维等企业坚持“真铜实料”，其中不包括格力，并认为“真铜实料”这一概念不属于任何单一企业。格力电器 CMO 朱磊此前表示，“真铜实料格力造”通过央视报道广泛传播，不仅是一句广告语，更是一套完整标准，包括蒸发器、冷凝器、风机电机绕组、压缩机电机绕组均使用铜材，且格力在全系产品中坚持这一配置。他还提到，去年行业有 19 家企业倡议“铝代铜”，格力未参与。昨日晚间，海信高管 @杨万手针对该条微博表示：“又当又立”，并附上了一张《空调铝强化应用研究工作组成员申请表》的扫描件，其公司一栏为格力电器。 IT之家注意到，杨祥玺两天前刚刚在抖音发布了一段公开讲话谈铝代铜争议，称行业老大应该有老大的样子，指出“有些企业在炒作铝代铜”，但是“所有的主流品牌都是铜的”。相关阅读：《格力朱磊指责海信空调没有资格自称“真铜实料”，后者回应“又当又立” 》

「百奥几何」完成数亿元战略融资，打造生命科学"微观世界模型"｜36氪首发

36氪 · None · tech

文｜胡香赟编辑｜海若镜 36氪获悉，近日，AI原生生物科技公司百奥几何已完成数亿元战略融资。由上海生物医药创新转化基金、国科投资、达晨财智、星连资本联合领投，高榕资本、指数人工智能产业创新基金跟投。指数资本担任独家财务顾问。另据介绍，本轮募集资金将重点用于生命科学微观世界模型GeoFlow的持续迭代，以及自研药物管线的推进。当前，人工智能正沿两条主线加速演进：以大语言模型与多模态模型为代表的数字AI（Digital AI），以自动驾驶与人形机器人为代表的物理AI（Physical AI）。而生命AI（Bio AI）或将成为下一个最具想象力的疆域，这一判断，正被全球顶级资本与科学界持续确认。 2024年，诺贝尔化学奖同时授予蛋白质结构预测与蛋白质从头设计两个方向；2025年，中国创新药BD交易金额达1357亿美元，占全球交易金额约49%，超越美国成为全球创新药对外授权第一大市场；2026年5月，Alphabet旗下Isomorphic Labs完成21亿美元融资，由Thrive Capital领投，淡马锡、MGX、英国主权AI基金等主权资本共同入局，刷新AI药物发现领域的单笔融资纪录。生命科学的基本单位是由分子组成的细胞，生命的所有功能，都源自分子在原子尺度上的相互作用。能否在微观层面真正理解、并精准设计分子之间的相互作用，是生命科学最底层的命题。百奥几何自研的GeoFlow正是这样一个"微观世界模型"，通过在原子级精度上对蛋白质、DNA、RNA等生物分子的相互作用进行精确建模，以生成式AI从头创造自然界从未存在的全新分子，让"理解生命"走向"设计生命"。自2024年首次发布至今，GeoFlow历经三次升级。GeoFlow V1将"原子级精度建模分子相互作用"这一核心思想落地为可工程化的大模型。在关键的蛋白-蛋白复合物结构预测任务上，GeoFlow V1达到与AlphaFold 3同等水准；2025年4月迭代至GeoFlow V2这一版本时，已不再局限于单纯的结构预测，而是实现了原子级精度下蛋白质结构预测与“从头设计（de novo design）”能力的统一，能够完成抗体从头设计、疫苗设计、工业酶优化等工作。 “客观而言，GeoFlow V2已能针对部分靶点生成相应的结合分子，但所得分子的结合亲和力仍有提升空间。因此，去年10月，我们又迭代了GeoFlow V3，核心目标是提高结合分子的生成成功率，并尽可能获得更多高亲和力结合分子，达到纳摩尔级（nM）水平。”唐建表示。为实现这一点，百奥几何将大模型领域的Test-Time Scaling（TTS）技术应用到了蛋白质设计中。简单理解，这是一种用推理时间和计算投入换取设计质量的思路，具体到蛋白质设计上，就是针对目标靶点，让模型一次性生成多个蛋白版本，再从中筛选出优质样本、验证优化，最终得到结构稳定、亲和力达标的新蛋白。其核心优势在于成本低、落地快，不用投入巨资重新训练模型，就能提高蛋白质设计的成功率和质量。以实际的抗体设计应用场景为例：在科学家还需“手搓”的时代，研发团队通常会在动物体内/体外构建上亿级分子库，并开展多轮、耗时数月的高通量筛选，成本高、流程长。如今，在AI“主导”下，则可以通过更少的试验投入，实现更高的命中率。据百奥几何披露数据，在针对TSLP、IL-33、IL-13、CCR8、 PD-1、H3-HA、IL-4Rα等超过20个靶点的从头设计任务中，每个靶点仅需合成验证不超过50个GeoFlow V3设计的候选分子，就能获得表位特异的nM级别的结合抗体，平均命中率接近20%，且先导分子发现时间可缩短至三周内。目前，百奥几何正在研发下一代微观世界模型GeoFlow V4，将建模尺度从分子相互作用拓展至从"设计单个分子"走向"设计分子系统"。近两年，BD交易成为创新药企的重要商业化出口。既往案例中，药物管线的价值通常随临床阶段推进而增加。此前，百亿美元级大额交易多发生在临床2期或3期之后，也能看出这一点。但AI的“从头设计”能力或将进一步放大早期阶段分子的价值，进而改写这个逻辑。唐建认为，对于那些传统方法容易获得的抗体分子，跨国药企更看重后期临床数据，是因为速度越快、临床数据越充分，获批上市概率就更大。但对于获取难度本就很高的分子，即便处于早期阶段，只要能形成差异化，也可以做出高价值；而且，优质分子还能提升临床阶段的成功率。据介绍，百奥几何现已与国内外药企达成超20项BD合作，在高特异性抗体从头设计、先导分子多目标优化、疫苗设计等多方面实现突破。以肿瘤免疫领域��例，GeoFlow 模型实现了高特异性抗体的"从头设计"。该项目的目标靶点是肿瘤细胞表面特有的抗原，研发难点在于它存在一个高度同源的"孪生靶点"——两者结构高度相似，传统方法难以在分子层面精准区分，极易误伤表达"孪生靶点"的正常细胞。百奥几何借助 GeoFlow 的全原子建模能力，将"特异性"作为前置约束直接写入分子生成阶段：仅设计不超过 100 条序列，即获得 2 条同时具备高选择性与高亲和力的抗体——精准结合目标靶点，而对"孪生靶点"不结合，从源头保障了临床安全性。 “目前，这是最能代表百奥几何模型能力的项目之一。通常，与客户共同开发的大多是传统方法无法攻克的项目，甚至有一些GeoFlow V2无法完成、GeoFlow V3迭代后成功突破的案例。这个过程中，不仅我们能感受到模型迭代带来的能力涌现，客户自身也在直观感受到AI技术的快速进化，尤其是AI Agent爆发后，药物研发和蛋白设计领域的技术迭代速度在显著提升。”唐建提到。在与某国外知名药企的合作中，目标项目需要同时优化先导抗体的亲和力、理化性质、热稳定性、人源性等多项指标。GeoFlow在零样本（模型未经该靶点数据微调）场景下，仅通过一轮设计与验证即交付了同时满足全部预设指标的目标分子：亲和力提升数十倍、表达量提升8倍、人源性优化至90%以上、热稳定性同步显著提升，项目交付周期较客户预期缩短80%以上。此外，在合成生物学领域，百奥几何已储备数十条自研管线。其中，包括ɑ-酮戊二酸、天然冰片在内的多条管线已完成中试放大；目前，公司的多款自研管线已通过“技术转让+销售分成”的模式达成授权合作，商业化进展持续提速。团队方面，百奥几何由AI4S科学家唐建教授创立，图灵奖得主、AI之父Yoshua Bengio担任首席科学顾问。团队自2018年开始探索AI驱动药物发现，已取得多项产学研落地成果。2021年，将扩散生成模型用于分子三维结构生成（代表性工作 ConfGF、GeoDiff）；2022年联合英伟达、英特尔、IBM发布开源机器学习药物发现平台 TorchDrug 与 TorchProtein。近期，作为核心贡献者参与英伟达开源蛋白质大模型 La Proteina 的研发，并自主研发前沿 AI 虚拟细胞模型PerturbDiff。投资人观点：上海生物医药创新转化基金总裁郭秋杉表示，大分子药物开发长期掣肘于传统筛选的冗长与过往分步式AI工具链的误差逐级放大。百奥几何实现了生物分子相互作用的原子级精度建模，并将结构预测、序列生成、成药性评价与湿实验反馈整合闭环，代表一条更接近底层科学逻辑和真实工业需求的 AI Native 路径。这种全原子 De Novo 设计思想，让公司在传统难成药靶点、复杂抗体、多特异性大分子等高难度管线上展现出无法比拟的代际优势，并实现了 PCC 级分子的交付。我们期待百奥几何凭借快速迭代、自主可控的 GeoFlow 算法底座，全速推进自研管线的临床开发与全球合作。国科投资智慧医疗组组长张堃表示，AI驱动药物研发有望打破生物医药行业“反摩尔定律”研发困局，推动大分子药物逐步构建“结构理解、定向设计、干湿实验闭环验证”的全新研发范式。我们高度认可唐建教授领衔团队在AI4S领域的技术能力及其全球影响力，其自主研发的GeoFlow模型在抗体药物、工业酶从头设计场景中已展现出差异化技术优势。我们相信，在AI重塑药物研发的时代背景下，百奥几何将深度赋能创新药企与生物制造产业，加速管线转化与商业化落地，持续带来产业化价值和兑现产业化红利。达晨财智董事总经理王大奎博士表示，AI在生物医药领域的“智能涌现”时刻比业内预想中来得更快。AI可以近乎无限地设计、筛选候选分子，药物研发的创新正从传统实验试错转向计算驱动。百奥几何正是由唐建教授带领的一支顶尖AI4S团队，常年扎根生物计算，既有扎实的学术积累，也具备把前沿算法落地成工程方案的能力。团队自研的GeoFlow微观世界模型，可以高精度预测蛋白质等生物大分子的结构与相互作用，技术能力处于全球第一梯队，也是打破海外相关闭源模型垄断的一个关键突破口。再叠加国内在湿实验环节成本低、迭代快的优势，以百奥几何为代表的中国AI制药公司，完全有能力实现后发追赶。星连资本合伙人李文珏表示，生命科学正在进入一个全新的时代：从依赖经验和偶然发现，走向以计算和设计驱动的精准创新。百奥几何以生成式 AI 为引擎，探索蛋白质这一生命底层语言的可编程化设计，并通过干湿实验闭环不断加速模型迭代与实验验证，提升新分子发现和功能设计的效率与成功率。我们看好百奥几何在 AI 基础模型、蛋白设计能力和实验验证体系上的系统性积累，也看好其全球化、交叉学科团队所展现出的长期创新潜力。期待百奥几何持续推动 AI 与生命科学的深度融合，为生物医药与合成生物学打开更高效、更可预测、更具工程化能力的新范式。

/tag/几何