ScienceAlert – 9 Jun 26 A Commonly Used Sleep Aid May Have a Dangerous Side Effect Around 1 in 5 US adults are thought to struggle with sleep health, and for many of us, the search for rest eventually leads to medication. [!quote]+ 喹硫平(以思瑞康的名义销售)是一种抗精神病药物,被批准用于治疗精神分裂症和双相情感障碍等疾病,但研究表明它可以改善睡眠质量,而且经常以较低剂量作为失眠的 "标签外 "治疗处方。 在一项 10 分钟的精神运动警觉性测试中,与服用安慰剂后相比,服用喹硫平的参与者反应更慢。他们在测试中的注意力缺失也从服用安慰剂后的中位数2次增加到服用喹硫平后的10次。 在模拟驾驶中,与服用安慰剂相比,服用喹硫平后,参与者偏离车道中心的距离平均增加了 33%。 就模拟器中的实际碰撞而言,与安慰剂相比,喹硫平的碰撞率几乎翻了一番,尽管这项研究的样本量相对较小,这意味着统计效果有限(这可能是偶然因素造成的)。 "法斯卡说:"尤其令人担忧的是,有些人虽然在客观测试中表现较差,但第二天并没有感到特别困倦。 “人们的感觉与实际功能之间的这种不匹配会带来严重的安全风险,尤其是在驾驶时”。 1 个帖子 - 1 位参与者 阅读完整话题
试着聊了点创意问题,感觉对比其他模型有提升,但是一个整体的设计文档看下来进行聊天的时候,也一样会遗漏不少约束。 难道说agent时代要去试试传统的gpt4.5吗 3 个帖子 - 2 位参与者 阅读完整话题
仓库: https://github.com/Azure99/ultra-goal superpowers/gsd 这类由 sdd 驱动的工具做严肃需求很好用。但是,如果要做一些超长程/需要调研再实施的任务,还是有一些痛点的: 决策阶段的注意力依旧没办法解放,因为你要定一个又一个的偏好,即使它本身有最佳实践。如果你的脑子里没有太多想法,只是想搓个原型看看什么样,agent 给你罗列的方案只会造成信息过载。 在真正实施之前往往很难想清所有细节,特别是长任务,如果 spec/plan 实施到一半,才发现设计有缺陷,非常容易越做越偏,甚至需要推倒重来。大规模一些的重构,或者是需要调研再实施的任务,非常容易出现这种情况。 从 ultra goal 的名字就能看出,它是以目标驱动的,只需要给定一个清晰的目标,但不需要具体实现细节,agent 会在执行时动态调整。(核心提示词只有 1000 tokens 出头,比 readme 都少) 接收到用户目标后,会先在工作环境中探索,然后动态拆解出按阶段划分的 roadmap 。 每执行一个阶段,都有规划、实施、验收、提交四个步骤。主 agent 只做协调,避免频繁的上下文压缩,子 agent 推进工作,并把工作文档落盘。 规划:协调两个子 agent ,先独立的设计实施方案,再由主 agent 交叉复审定 plan(这是最核心的,如果只让一个 agent 来定方案,非常容易有疏漏,superpowers 这类工具会不断的让你定决策。然而,如果让两个子 agent 各出一版再交给主 agent 仲裁,大部分决策其实完全不需要人参与) 实施:没什么特别的,就是一个子 agent 照着 plan 去改代码、自测。 验收:同样会开多个子 agent ,分不同视角 review ,然后交叉看各自的报告,主 agent 定级、去重,如果有必修问题就会打回重改。 每做完一个阶段,主 agent 都会根据当前状态,看看是否要修改 roadmap ,比如发现某个方案实际是不可实施的,就可以调整,一切以达成目标为主。 当然,它的缺点一样很大,执行时间长,会巨烧 token ,如果你的目标定的大,一次跑两天都是有可能的(烧掉你十几亿 tokens )。最好在 codex 中使用 gpt 5.5 xhigh 当主 agent ,不差钱子 agent 就继续用 5.5 ,差钱子 agent 就用 5.4mini xhigh 。但主 agent 不能差,实测下来超长程的任务,claude 系还是稍微差点意思,国产模型差距会更大。 最适合的场景就是搓原型/调研+实现,以及做可行性验证。--yolo 跑上就可以去睡觉了,小修小补没必要用,严肃线上需求还是要谨慎放手(当然也可以先做一版、确保跑通 人再仔细 review )。 直接安装 npx skills add Azure99/ultra-goal SKILL 需要手动触发(为了防止模型自己抽风调用)。描述目标时,不需要描述具体的实现细节,但要仅你最大所能提供端到端的验收方式,比如做 Web 应用,就给它 playwright-cli ,让它跑交互/视觉验收,而不是只跑单测。
仓库: https://github.com/Azure99/ultra-goal superpowers/gsd 这类由 sdd 驱动的工具做严肃需求很好用。但是,如果要做一些超长程/需要调研再实施的任务,还是有一些痛点的: 决策阶段的注意力依旧没办法解放,因为你要定一个又一个的偏好,即使它本身有最佳实践。如果你的脑子里没有太多想法,只是想搓个原型看看什么样,agent 给你罗列的方案只会造成信息过载。 在真正实施之前往往很难想清所有细节,特别是长任务,如果 spec/plan 实施到一半,才发现设计有缺陷,非常容易越做越偏,甚至需要推倒重来。大规模一些的重构,或者是需要调研再实施的任务,非常容易出现这种情况。 从 ultra goal 的名字就能看出,它是以目标驱动的,只需要给定一个清晰的目标,但不需要具体实现细节,agent 会在执行时动态调整。(核心提示词只有 1000 tokens 出头,比 readme 都少) 接收到用户目标后,会先在工作环境中探索,然后动态拆解出按阶段划分的 roadmap 。 每执行一个阶段,都有规划、实施、验收、提交四个步骤。主 agent 只做协调,避免频繁的上下文压缩,子 agent 推进工作,并把工作文档落盘。 规划:协调两个子 agent ,先独立的设计实施方案,再由主 agent 交叉复审定 plan(这是最核心的,如果只让一个 agent 来定方案,非常容易有疏漏,superpowers 这类工具会不断的让你定决策。然而,如果让两个子 agent 各出一版再交给主 agent 仲裁,大部分决策其实完全不需要人参与) 实施:没什么特别的,就是一个子 agent 照着 plan 去改代码、自测。 验收:同样会开多个子 agent ,分不同视角 review ,然后交叉看各自的报告,主 agent 定级、去重,如果有必修问题就会打回重改。 每做完一个阶段,主 agent 都会根据当前状态,看看是否要修改 roadmap ,比如发现某个方案实际是不可实施的,就可以调整,一切以达成目标为主。 当然,它的缺点一样很大,执行时间长,会巨烧 token ,如果你的目标定的大,一次跑两天都是有可能的(烧掉你十几亿 tokens )。最好在 codex 中使用 gpt 5.5 xhigh 当主 agent ,不差钱子 agent 就继续用 5.5 ,差钱子 agent 就用 5.4mini xhigh 。但主 agent 不能差,实测下来超长程的任务,claude 系还是稍微差点意思,国产模型差距会更大。 最适合的场景就是搓原型/调研+实现,以及做可行性验证。--yolo 跑上就可以去睡觉了,小修小补没必要用,严肃线上需求还是要谨慎放手(当然也可以先做一版、确保跑通 人再仔细 review )。 直接安装 npx skills add Azure99/ultra-goal SKILL 需要手动触发(为了防止模型自己抽风调用)。描述目标时,不需要描述具体的实现细节,但要仅你最大所能提供端到端的验收方式,比如做 Web 应用,就给它 playwright-cli ,让它跑交互/视觉验收,而不是只跑单测。
仓库: https://github.com/Azure99/ultra-goal superpowers/gsd 这类由 sdd 驱动的工具做严肃需求很好用。但是,如果要做一些超长程/需要调研再实施的任务,还是有一些痛点的: 决策阶段的注意力依旧没办法解放,因为你要定一个又一个的偏好,即使它本身有最佳实践。如果你的脑子里没有太多想法,只是想搓个原型看看什么样,agent 给你罗列的方案只会造成信息过载。 在真正实施之前往往很难想清所有细节,特别是长任务,如果 spec/plan 实施到一半,才发现设计有缺陷,非常容易越做越偏,甚至需要推倒重来。大规模一些的重构,或者是需要调研再实施的任务,非常容易出现这种情况。 从 ultra goal 的名字就能看出,它是以目标驱动的,只需要给定一个清晰的目标,但不需要具体实现细节,agent 会在执行时动态调整。(核心提示词只有 1000 tokens 出头,比 readme 都少) 接收到用户目标后,会先在工作环境中探索,然后动态拆解出按阶段划分的 roadmap 。 每执行一个阶段,都有规划、实施、验收、提交四个步骤。主 agent 只做协调,避免频繁的上下文压缩,子 agent 推进工作,并把工作文档落盘。 规划:协调两个子 agent ,先独立的设计实施方案,再由主 agent 交叉复审定 plan(这是最核心的,如果只让一个 agent 来定方案,非常容易有疏漏,superpowers 这类工具会不断的让你定决策。然而,如果让两个子 agent 各出一版再交给主 agent 仲裁,大部分决策其实完全不需要人参与) 实施:没什么特别的,就是一个子 agent 照着 plan 去改代码、自测。 验收:同样会开多个子 agent ,分不同视角 review ,然后交叉看各自的报告,主 agent 定级、去重,如果有必修问题就会打回重改。 每做完一个阶段,主 agent 都会根据当前状态,看看是否要修改 roadmap ,比如发现某个方案实际是不可实施的,就可以调整,一切以达成目标为主。 当然,它的缺点一样很大,执行时间长,会巨烧 token ,如果你的目标定的大,一次跑两天都是有可能的(烧掉你十几亿 tokens )。最好在 codex 中使用 gpt 5.5 xhigh 当主 agent ,不差钱子 agent 就继续用 5.5 ,差钱子 agent 就用 5.4mini xhigh 。但主 agent 不能差,实测下来超长程的任务,claude 系还是稍微差点意思,国产模型差距会更大。 最适合的场景就是搓原型/调研+实现,以及做可行性验证。--yolo 跑上就可以去睡觉了,小修小补没必要用,严肃线上需求还是要谨慎放手(当然也可以先做一版、确保跑通 人再仔细 review )。 直接安装 npx skills add Azure99/ultra-goal SKILL 需要手动触发(为了防止模型自己抽风调用)。描述目标时,不需要描述具体的实现细节,但要仅你最大所能提供端到端的验收方式,比如做 Web 应用,就给它 playwright-cli ,让它跑交互/视觉验收,而不是只跑单测。
仓库: https://github.com/Azure99/ultra-goal superpowers/gsd 这类由 sdd 驱动的工具做严肃需求很好用。但是,如果要做一些超长程/需要调研再实施的任务,还是有一些痛点的: 决策阶段的注意力依旧没办法解放,因为你要定一个又一个的偏好,即使它本身有最佳实践。如果你的脑子里没有太多想法,只是想搓个原型看看什么样,agent 给你罗列的方案只会造成信息过载。 在真正实施之前往往很难想清所有细节,特别是长任务,如果 spec/plan 实施到一半,才发现设计有缺陷,非常容易越做越偏,甚至需要推倒重来。大规模一些的重构,或者是需要调研再实施的任务,非常容易出现这种情况。 从 ultra goal 的名字就能看出,它是以目标驱动的,只需要给定一个清晰的目标,但不需要具体实现细节,agent 会在执行时动态调整。(核心提示词只有 1000 tokens 出头,比 readme 都少) 接收到用户目标后,会先在工作环境中探索,然后动态拆解出按阶段划分的 roadmap 。 每执行一个阶段,都有规划、实施、验收、提交四个步骤。主 agent 只做协调,避免频繁的上下文压缩,子 agent 推进工作,并把工作文档落盘。 规划:协调两个子 agent ,先独立的设计实施方案,再由主 agent 交叉复审定 plan(这是最核心的,如果只让一个 agent 来定方案,非常容易有疏漏,superpowers 这类工具会不断的让你定决策。然而,如果让两个子 agent 各出一版再交给主 agent 仲裁,大部分决策其实完全不需要人参与) 实施:没什么特别的,就是一个子 agent 照着 plan 去改代码、自测。 验收:同样会开多个子 agent ,分不同视角 review ,然后交叉看各自的报告,主 agent 定级、去重,如果有必修问题就会打回重改。 每做完一个阶段,主 agent 都会根据当前状态,看看是否要修改 roadmap ,比如发现某个方案实际是不可实施的,就可以调整,一切以达成目标为主。 当然,它的缺点一样很大,执行时间长,会巨烧 token ,如果你的目标定的大,一次跑两天都是有可能的(烧掉你十几亿 tokens )。最好在 codex 中使用 gpt 5.5 xhigh 当主 agent ,不差钱子 agent 就继续用 5.5 ,差钱子 agent 就用 5.4mini xhigh 。但主 agent 不能差,实测下来超长程的任务,claude 系还是稍微差点意思,国产模型差距会更大。 最适合的场景就是搓原型/调研+实现,以及做可行性验证。--yolo 跑上就可以去睡觉了,小修小补没必要用,严肃线上需求还是要谨慎放手(当然也可以先做一版、确保跑通 人再仔细 review )。 直接安装 npx skills add Azure99/ultra-goal SKILL 需要手动触发(为了防止模型自己抽风调用)。描述目标时,不需要描述具体的实现细节,但要仅你最大所能提供端到端的验收方式,比如做 Web 应用,就给它 playwright-cli ,让它跑交互/视觉验收,而不是只跑单测。
IT之家 6 月 5 日消息,腾讯混元今日宣布提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。 官方表示,Stem 稀疏注意力算法从“因果信息流”重新审视块级稀疏,用 Token 位置衰减(TPD)和输出感知度量(OAM)两大创新, 仅用 25% 算力就逼近稠密注意力的精度 。配套的 HPC 算子库则将这份理论加速比真正转化为端到端的实测性能。 ▲ Stem 在 Hy3 preview(W8A8-FP8)上更贴近生产环境的真实落地数据 根据 Stem 算法 × HPC 算子的全栈加速方案,算法层面,Stem 通过 Token 位置衰减(TPD)和输出感知度量(OAM)实现 25% 预算下的近无损精度 ;算子层面,HPC 开源的 Stem+BSA 算子将稀疏收益转化为真实硬件加速, 128K 上下文下首字延迟降低 3.6 倍 。 ▲ 模型精度 IT之家附相关链接如下: Stem 论文链接 : https://arxiv.org/abs/2603.06274Stem 开源地址 : https://github.com/Tencent/AngelSlimHPC 算子开源地址 : https://github.com/Tencent/hpc-ops
上个月大推黄金,做空美丽国。黄金降大家注意力又跑纳指没顾了,场外还搞起了限购。
之前4.7上下文 稍微长一点150k-200k左右感觉注意力就不行了, 现在4.8不知道是个什么情况, 官方相关metrics只发了个graphwalk,连mrcr都不发了 ,现在都不好真实比较了。 1 个帖子 - 1 位参与者 阅读完整话题
讨好型人格的人往往难以取得成功,因为他们难以创造出真正属于自己的价值。 在信息过载的时代,注意力是每个人最稀缺的资源,没有之一。 而讨好型人格的人,他们将大量的注意力用于取悦他人,避免冲突上,却忽略了打造自己独特的价值和稀缺资源。 这种行为模式逐渐形成一个负反馈循环: 他们不断地过度关注如何让别人开心,同时忽略了自我价值的创造,最终导致内心的焦虑、疲惫,甚至迷失自我方向。 由于缺乏自我成就感和认可,他们更倾向于通过进一步讨好他人来寻求肯定或安全感。然而,这样的行为无法带来真正的满足,反而使他们更加依赖外界的评价,陷入恶性循环。 这种不健康的行为和思维模式会持续循环,最终削弱自我认同感和价值感,使得个人难以在人生中实现真正的突破。 2 个帖子 - 2 位参与者 阅读完整话题
之前在想 CodeX 等泛智能体工具降低了开发门槛,造福 OPC 的同时倒逼企业用更富的效能组合去打动用户,有足够用户粘性的大厂(核心部门) 其实不太慌张,批量倒下的更多是找不到增长点的企业,抑或养蛊试水捞估值的边缘业务。 如果找不到增长点,代表蛋糕做不大,带叉子的朋友在变多,结果显而易见。 那新的增长点在哪里的,个人感觉粗略分两个方向,俗话说开源节流,我改叫「开源」「截流」。 举个例子像 315 提到的 GEO 投毒,会在传统投流的基础上衍生出「系统性地向 AI 大模型的信息源注入虚假、低质或误导性内容」的业务,这是 AI 时代的「开源」。但「开源」很难,难在蓝海被看见就是红海,前一秒上新闻,后一秒杀得头破血流。 对于普通企业或业务,要想办法发散思维「截流」,核心在于捕获 AI 时代新放出的注意力,人有注意力就有需求,为产品做进一步价值交换提供场景。那注意力在哪就需要潜心捕获,譬如车载大屏就因智驾的兴起撷取部分开车人的注意力,此前 carplay 的车载广告只有开机那刻的注意点,到未来 L3 乃至 L4 这部分注意力将被释放。 也就是说,既然搞不出标新立异乃至一家独大的「开源」,就沿着技术脉络构建未来用户画像,提前「截流」,随着自己的操作习惯走,随着用户的注意力变迁走。截到一点赚一点,AI 时代的软件厂商不如解决方案供应商吃香。 以上,睡前瞎写 1 个帖子 - 1 位参与者 阅读完整话题
今日随想: 注意力对于个人,就像是储备粮之于国家。 一天有很多工作要做,而这些都需要注意力来支撑你的思考。干完一个工作任务,就需要休息,去恢复注意力。类似国家充实粮仓 但不要把休息时间花在刷信息流上,比如无用新闻、短视频和各种碎片信息上。 浏览这些东西时,看起来只是"休息一下",但实际上是在继续刺激大脑,消耗注意力和耐心。类似寅吃卯粮。 我所体会到的真正的休息,是从刺激中断开: 放空,什么都不干 ;比如脑袋放空的散步。 或者切换到一些不费脑、不需要持续反馈的轻任务。比如打扫卫生。 让大脑在这个过程中清理前面用脑工作产生的垃圾,恢复其精力槽。 让自己有足够的冗余注意力,投入到下一个正事上。 3 个帖子 - 3 位参与者 阅读完整话题
IT之家 5 月 19 日消息,据央视报道,教育部今日正式启动 2026 年全国学前教育宣传月,活动主题为“共同守护数字时代的童年”,时间持续至 6 月 20 日。 在当天发布的宣传重点中,教育部对幼儿园和家庭使用数字产品提出了明确要求。各地幼儿园须坚持“以游戏为基本活动”,不得以伴读、聊天、互动游戏等儿童数字产品替代图画书、玩具等传统教学用具,也不得使用数字产品直接生成儿童观察记录或评价幼儿。 针对家庭层面,教育部引导广大家长树立“多陪伴、多游戏、多运动、多亲近自然”的育儿理念,自觉识别并抵制早教类 App 等商业宣传误导,切实防范“电子带娃”现象。 今年宣传月深入落实《中华人民共和国学前教育法》,聚焦数字时代儿童保护,呼吁全社会充分理解和尊重幼儿身心发展规律,深刻认识其过早过多接触数字产品的潜在风险,创设亲近自然、亲身体验、有温度的成长环境,防止以数字产品代替亲情陪伴、师幼互动、同伴交往等。 教育部指出,当前部分人群对学前领域数字应用存在认识误区,部分商业机构存在宣传误导,个别地方和幼儿园也存在滥用、误用数字产品的现象。针对 3 至 6 岁幼儿容易被数字产品声光动画吸引的特点,大量权威研究证实,幼儿过早、过多接触数字产品,将会对视力健康、注意力集中、语言交往、情感发展等方面带来长期且难以逆转的不利影响。例如,儿童过早接触数字产品容易导致体能下降、作息紊乱、近视风险增加,还会造成孩子习惯即时满足、耐心与韧性弱化,甚至影响语言表达和合作共处等能力的发展。IT之家注意到,倡导学前儿童远离数字产品,保护儿童发展权益,已成为世界各国的广泛共识。 地方层面已开始跟进落实。今年 4 月底,大连出台了学前教育“十项举措”,明确要求幼儿园审慎选用、按需使用数字产品,主要用于园所管理、安全保障、专业评估等辅助场景,不得以电子课件、AI 伴读、人机互动等形式替代保教活动、纸质图画书、实物玩具、游戏材料以及师幼互动、同伴交往等。IT之家注意到,湖南省教育厅也在宣传月启动前发布《致全省幼儿家长的一封信》,指出 3-6 岁孩子容易被数字产品的声光动画吸引,过早过多接触会带来多方面健康风险,呼吁家长科学引导幼儿使用数字产品。 宣传月期间,各地将持续开展系列主题宣传活动,整合多方专业资源与社会力量,聚焦数字时代学前儿童权益保护,推动多方协同联动,构建全方位、立体化的幼儿成长防护屏障。根据教育部的工作要求,各地教育行政部门要把学前教育宣传月工作与落实学前教育法、提升幼儿园保育教育质量相结合,整合儿童保健、学前教育、网络安全等相关权威资源,发挥幼儿园主阵地作用,通过举办开放日、家长讲座、亲子游戏等多种活动,构建家园社协同、线上线下相结合的宣传推进机制,并严防任何单位和个人借宣传月名义搭车开展商业性宣传、推销产品。
【10bit智力瓶颈,你的"单核大脑"性能还能提升吗?-【冷却报告】-哔哩哔哩】 https://b23.tv/00gR7bD 我就是典型的单线程大脑,同时和人交谈+做事都会让我应付不过来 我曾苦恼是我脑子笨笨 现在看来是我大脑在避免多线程频繁切换引起神经元损伤。我的注意力不错 1 个帖子 - 1 位参与者 阅读完整话题
各位佬,在等待claude code的回复的时候,一般都在干嘛?做其他事情感觉会很容易导致注意力转移啊,不做的话,就在发呆 16 个帖子 - 9 位参与者 阅读完整话题
最近花了三天时间做了一个实验项目,核心问题是:能不能找到比 token embedding 更好的语义传送单元? 结果是把自己的三个假设依次否定了,但在否定过程中挖出来一个还没被否定的信号。把过程和数据分享出来,也许对做 NLP/表示学习的朋友有参考价值。 设备:双卡 4090 ( 24GB×2 ),在 VPS 上跑。 背景:我们在试图解决什么 现有 LLM 的 token embedding 是一张静态查表。"苹果"无论出现在"吃苹果"还是"苹果发布会",进入模型的初始向量都是同一个。模型要靠后续十几层 Transformer 来修正这个歧义起点。 有没有更好的办法?我沿着三条路走了一遍: BIIC (几何代数) → SFE (动态调制) → BIF (因子化低维交互) 每条路都是前一条被实验否定后的精炼。 第一条路:BIIC ,用几何代数做语义表示 想法- Clifford 几何代数 Cl(4,1) 里的多向量可以按"grade"分解: Grade-0 (标量):在旋转变换下严格不变——不管坐标系怎么转,这个值不变 Grade-2 (双向量):在旋转变换下会跟着变 设想:把 token 映射到这个代数结构里,grade-0 作为词的稳定身份锚点,grade-2 携带随上下文变化的语法/语义关系。用 sandwich 积 R·x·R_rev 做 token 间变换,数学上保证 grade-0 严格不变、grade-2 按规律协变。 Phase 1-2:代数基础验证 先花了两天验证代数运算是否正确,结果全部通过: 测试 结果 关键数据 Grade-0 不变性 PASS 100 次变换后误差 < 1e-5 Grade-2 等变性 PASS 两种计算方式误差 < 1e-6 10 层梯度流 PASS 梯度比 = 0.55 ,健康 全链路训练 50 步 PASS loss 10.57 → 0.72 踩坑: Cl(4,1) 的 e5²=-1 (负度规)导致 sandwich 积不保范数,多次变换后数值溢出。解决:对每个 grade 分别归一化,不能统一缩放(否则破坏等变性) Taylor 展开 exp(B) 需要 16 项,12 项精度不够 Phase 3-5:在真实语料上训练,等变分量不活跃 开始在 WikiText-103 上训练完整的语言模型,同时设计了 13 个实验,系统尝试激活 grade-2 等变分量:相对不变注意力、分段 Eraser 、Cohesin 门控、长序列、深网络、全机制叠加…… 13 个实验全部失败。 核心数据: Phase 3 消融: 完整 BIIC loss = 10.8285 仅 grade-0 loss = 10.8271 差距 = 0.0014 (等变分量贡献几乎为零) Phase 5 RelAttn 10k 步: alpha: 0.018 → 0.029 (微升,远不足以说明激活) Transformer baseline PPL = 53.9 ( 52M 参数) BIIC PPL = 390+(远差) 为什么等变分量不活跃? 根本原因是任务不匹配。等变分量在分子设计( SE(3) 等变)、DNA 建模(互补链对称)中有效,是因为那些领域有明确的物理对称性作为监督信号。语言中没有这样的对称性。next-token prediction 只需要知道"下一个词更可能是什么",不需要知道"token A 和 B 的几何对称关系"。 这个教训概括起来就是:在借鉴前人工作之前,先检查前人的成功条件在你的场景里是否存在。 Phase 6:依存句法任务,直接测试 LM 方向失败后,尝试在有明确句法监督的任务上测试:依存句法分析。如果 grade-2 真的编码了句法,这里应该有优势。 结果: 模型 UAS LAS 参数 BIIC + Biaffine 0.279 0.225 2.5M Transformer + Biaffine 0.752 0.681 2.3M 差距 47pp ,任意数据量下 BIIC 均远差于 Transformer ,无交叉点。 判决性实验 M-v2:测试 grade-2 几何积能否区分不同依存关系类型: 统计显著:p < 1e-15 (样本量足够大) 但 Cohen's d = -0.157 (效应极小,方向还是反的) 探针准确率 = 0.439 (勉强高于随机基线 0.25 ) 有一个矛盾值得记录:线性探针从 grade-2 预测词性 POS = 0.789 ,依存关系 DEP = 0.823 。信息确实存在,但几何积无法提取它。 解释:grade-2 的线性子空间里有句法信息,但这些信息不是通过几何积的代数结构组织的。"信息存在"≠"可被代数操作提取"。 BIIC 方向关闭。 中间插曲:PCA 有效秩分析 在决定下一个方向之前,对 BIIC 的 checkpoint 做了一次 PCA 分析( 51 个多义词,正确加载 50/50 参数),结果很清晰: 层 PR 中位数 rank_90 中位数 同词不同语境的 cos embed_grade0 1.0 1 ≈0 (完全正交) embed_grade2 1.0 1 1.0 (完全相同) grade2 ( 6 层后) 45.6 53 -0.02 (近乎正交) hidden_layer3 44.7 55 -0.03 hidden_final 1.05 1 0.82 几个关键发现: embed_grade2 cos=1.0:embedding 层出来的 grade-2 ,在不同语境下完全相同。原因很简单:encoder 的输入只有 token ID ,没有上下文,所以无法产生上下文分化。这个数字后来成为否定 SFE 的提前预警。 grade2 (深层) PR≈46 ,cos≈-0.02:经过 6 层 blocks 之后,grade-2 变成了高维、相互近乎正交的表示。上下文分化发生在中间层,不在 embedding 层。 hidden_final PR≈1:最后一层把信息压缩回接近一维。这是正常 LM 行为——预测下一个词只需要极少维度。 grade-2 PR p95=49.6:95% 的多义词,语义变化的有效维度不超过 50 。这个数字后来成为 BIF 中 k=64 的实证依据。 第二条路:SFE ,动态调制 embedding 想法 如果 embedding 层本身能根据上下文调整,同一个词在不同语境下就会有不同的初始向量,后续 Transformer 就不需要修正歧义起点。 e_i = (alpha_static_i + g(ctx_i)) @ B B ∈ ℝ^{64×256} :全局共享语义基矩阵 alpha_i ∈ ℝ^{64} :每个 token 的静态配方系数 g(ctx_i) :上下文修正网络,输入前 4 个位置的 embedding ,输出系数偏移 低秩约束( k=64 )有 PCA 数据的支持,防止 g 退化成复杂查表。 三轮实验,三轮失败 实验 核心改动 alpha_cos_min alpha_cos_final 结论 v1.0 g 零初始化 0.85 0.90 g 未激活 v1.1 随机初始化 + 10x lr + 辅助损失 0.61 0.85 激活但被压制 FAM v1 + FAM 层直接依赖 α 0.49 0.86 压制不变 FAM v2 FAM 梯度直连 g 0.50 0.86 压制不变 v1.1 的结果是最有信息量的:alpha_cos 在 step 400 降到 0.61 ( g 确实学到了分化),然后单调上升到 0.85 (被压回去)。探针准确率:完整版 SFE 0.6316 ,静态版 0.6475 ,完整版反而更差。 压制机制的本质:Transformer 的 attention 本身就是一个强大的消歧工具。它发现"自己处理消歧"比"利用 embedding 层传来的分化信号"更高效,通过梯度反传系统性地将 g(ctx) 归零。 这不是梯度路径的问题(我们试过直连),不是学习率的问题(给了 10 倍),不是辅助损失的问题(加了显式分化损失)。这是优化景观决定的:在有 Transformer attention 的架构中,embedding 层的上下文调制没有生存空间。 SFE 动态路线关闭。 意外发现 FAM v1 里,把第一层 attention 换成 FAM (在 α 空间做 token 间交互)后,PPL 从 179.34 降到 175.44 ,少了 3.9 点,参数量还更少( 18.7M vs 19.4M )。 这个增益跟 g(ctx) 的动态调制无关(两组 alpha_cos 都反弹到 0.86 ),来自 FAM 层本身的结构化聚合。这个发现是 BIF 假设的直接来源。 第三条路:BIF ,在低维空间做 token 交互 想法 把 token 交互的计算场所从 256 维搬到 64 维配方空间: # Token 表示 e_i = alpha_i @ B # [k] @ [k, d] = [d],alpha 是 64 维配方系数,B 是共享零件库 # FAM 层:在配方空间做 token 间交互 S[i,j] = alpha_i @ W @ alpha_j^T # 双线性相似度,参数量 k×k=4096 out_i = softmax(S_i + causal_mask) @ X # 按相似度聚合 参数量对比: 传统 embedding:50257×256 ≈ 12.9M BIF embedding:50257×64 + 64×256 ≈ 3.2M (节省 75%) FAM 层:64×64 = 4096 个参数(标准 attention 约 262144 ) BIF 不解决一词多义,α 是静态的,语境消歧仍由后续 Transformer 处理。它只做一件事:在更低维的空间里做交互。 当前状态 FAM 实验给出了初步正向信号:-3.9 PPL ,参数更少。 但这个信号还不干净:两组模型参数量差了 0.7M ( 18.7M vs 19.4M ),无法排除参数量差异是增益来源。 BIF Phase 1 的目标是在参数量和 FLOPs 精确对齐的条件下,用三组对比给出干净的答案: Baseline:标准 embedding + 全部标准 attention BIF:α配方 embedding + FAM 第一层 + 标准 attention 后续层 BIF-ablation:α配方 embedding + 压缩版第一层 attention (参数量≈FAM ) 如果 BIF 比 Baseline 低 >2 点,且比 BIF-ablation 低 >1 点,才算 FAM 有独立贡献。 这个实验还没跑完,是目前唯一开放的假设。 方法论:这三天最重要的东西不是结论,是筛选假设的框架 做完这些实验,觉得最有价值的不是任何具体的实验结果,而是在失败里总结出来的一套假设验证流程。写出来供参考。 五道闸门,提出新假设前先自我攻击 闸门 1:计算成本 假设的核心操作比现有方案贵多少? BIIC 的 sandwich 积比标准 attention 贵约 360 倍,这是架构级问题,工程优化解决不了。这个数字应该在提出假设时就估算,不是等实验跑完。 闸门 2:成功条件迁移 前人类似工作的成功,依赖哪些前提条件?这些条件在当前场景下是否存在? Geometric Hyena 在蛋白质结构上成功,因为有 SE(3) 物理等变性——这在语言中不存在。 闸门 3:消融预判 能否在实验前写下"完整版应该比简化版好 X 点"?如果写不出来,说明对假设的机理理解不够,还没有被精确定义。 闸门 4:任务适配性 数学上的优美不等于任务需要。Grade-2 几何积在数学上很漂亮,但 next-token prediction 不需要几何关系。区分"数学上可以"和"任务上需要"这两个问题。 闸门 5:最小可证伪点 这个假设最可能在哪里第一个失败?失败的量化标准是什么?用多少时间可以测到第一个信号?无法回答这三个问题就不允许启动实验。 附加规则:通过标准在实验开始前写死,不允许实验中修改。如果核心指标在 2000 步时仍不达标且无收敛趋势,停止,不要继续烧资源。 这套流程最大的价值是:它让失败变得信息密度更高。每次否定一个假设,都能精确地说"在哪里失败的",而不是模糊地说"效果不好"。 已确认的结论(有数据支撑) 总结一下这三天确认的事情,方便后来人不重复踩坑: 成立的: Grade-0 是真实的代数不变量,数学保证,任意语境下对同一 token 完全相同( cos ≈ 0 ) Grade-2 携带句法信息(线性探针 POS=0.789 ,DEP=0.823 ),但不在几何积结构中 语义变化的有效维度约 46-57 ( PCA 实证,PR p95=49.6 ) 上下文分化发生在 Transformer 的中间层,不在 embedding 层 不成立的: 等变分量在语言 LM 任务中自发激活( 13 个实验确认) Sandwich 积能提取句法关系( Cohen's d=-0.157 ) BIIC 在依存句法上有优势( UAS 差 47pp ) 动态 embedding 调制在标准 Transformer 中存活( 4 轮实验一致) 待验证的: FAM 的 PPL 增益在参数对齐后是否保持( BIF Phase 1 ) 代码和踩坑 几个容易犯的 PyTorch 错误(调试了很久才发现): # 错误:inplace 操作报 autograd 错误 result[:, :, c, :] = mv_c_transformed # 正确:用 stack 收集 results.append(mv_c_transformed) result = torch.stack(results, dim=2) # 错误:MultiheadAttention 的 is_causal 需要同时传 attn_mask attn(h, h, h, is_causal=True) # 报错 # 正确 mask = nn.Transformer.generate_square_subsequent_mask(L, device=x.device) attn(h, h, h, attn_mask=mask, is_causal=True) # 错误:unfold 产生 L+1 个窗口 windows = padded.unfold(1, ctx_window, 1) # 正确:裁掉多余的一个 windows = padded.unfold(1, ctx_window, 1)[:, :L, :, :] SFE 的信息泄漏问题(调试了很久): # 错误:位置 i 看到了自己的 embedding ctx = sfe(input_ids, ctx=None) # 包含位置 i 自己 # 正确:错位一个位置 static = sfe(input_ids, ctx=None).detach() shifted = torch.zeros_like(static) shifted[:, 1:, :] = static[:, :-1, :] # 位置 i 只看 i-1 之前 x = sfe(input_ids, ctx=shifted) 最后 这个项目最初的想法是"找一个颠覆性的 token embedding 替代方案"。 三天下来,BIIC 的几何代数路线关闭,SFE 的动态调制路线关闭,BIF 是唯一还没被否定的信号,但也还没有干净的验证数据。 回头看,这段路走得比较值的地方不是任何具体的架构,而是:每次否定一个假设,都对"为什么这条路不通"有了更精确的理解。 Grade-2 的信息存在但不能被代数操作提取,等变分量在没有物理对称群的任务里永远休眠,embedding 层的动态调制在 attention 面前永远被压制——这些是可以直接被后来者复用的地图,不需要再走一遍。 BIF Phase 1 的结果出来后会补充更新。 之前有帖子批评我说,做的项目都不能用都是 vibe 还在抖音上被说是民科。好吧 确实没找到突破性的成果。我不好说什么。 还是希望多交流这方面的优化方向。感谢拜读。 实验过程代码和结果,陆续更新至仓库: https://github.com/val1813/BIIC
最近花了三天时间做了一个实验项目,核心问题是:能不能找到比 token embedding 更好的语义传送单元? 结果是把自己的三个假设依次否定了,但在否定过程中挖出来一个还没被否定的信号。把过程和数据分享出来,也许对做 NLP/表示学习的朋友有参考价值。 设备:双卡 4090 ( 24GB×2 ),在 VPS 上跑。 背景:我们在试图解决什么 现有 LLM 的 token embedding 是一张静态查表。"苹果"无论出现在"吃苹果"还是"苹果发布会",进入模型的初始向量都是同一个。模型要靠后续十几层 Transformer 来修正这个歧义起点。 有没有更好的办法?我沿着三条路走了一遍: BIIC (几何代数) → SFE (动态调制) → BIF (因子化低维交互) 每条路都是前一条被实验否定后的精炼。 第一条路:BIIC ,用几何代数做语义表示 想法- Clifford 几何代数 Cl(4,1) 里的多向量可以按"grade"分解: Grade-0 (标量):在旋转变换下严格不变——不管坐标系怎么转,这个值不变 Grade-2 (双向量):在旋转变换下会跟着变 设想:把 token 映射到这个代数结构里,grade-0 作为词的稳定身份锚点,grade-2 携带随上下文变化的语法/语义关系。用 sandwich 积 R·x·R_rev 做 token 间变换,数学上保证 grade-0 严格不变、grade-2 按规律协变。 Phase 1-2:代数基础验证 先花了两天验证代数运算是否正确,结果全部通过: 测试 结果 关键数据 Grade-0 不变性 PASS 100 次变换后误差 < 1e-5 Grade-2 等变性 PASS 两种计算方式误差 < 1e-6 10 层梯度流 PASS 梯度比 = 0.55 ,健康 全链路训练 50 步 PASS loss 10.57 → 0.72 踩坑: Cl(4,1) 的 e5²=-1 (负度规)导致 sandwich 积不保范数,多次变换后数值溢出。解决:对每个 grade 分别归一化,不能统一缩放(否则破坏等变性) Taylor 展开 exp(B) 需要 16 项,12 项精度不够 Phase 3-5:在真实语料上训练,等变分量不活跃 开始在 WikiText-103 上训练完整的语言模型,同时设计了 13 个实验,系统尝试激活 grade-2 等变分量:相对不变注意力、分段 Eraser 、Cohesin 门控、长序列、深网络、全机制叠加…… 13 个实验全部失败。 核心数据: Phase 3 消融: 完整 BIIC loss = 10.8285 仅 grade-0 loss = 10.8271 差距 = 0.0014 (等变分量贡献几乎为零) Phase 5 RelAttn 10k 步: alpha: 0.018 → 0.029 (微升,远不足以说明激活) Transformer baseline PPL = 53.9 ( 52M 参数) BIIC PPL = 390+(远差) 为什么等变分量不活跃? 根本原因是任务不匹配。等变分量在分子设计( SE(3) 等变)、DNA 建模(互补链对称)中有效,是因为那些领域有明确的物理对称性作为监督信号。语言中没有这样的对称性。next-token prediction 只需要知道"下一个词更可能是什么",不需要知道"token A 和 B 的几何对称关系"。 这个教训概括起来就是:在借鉴前人工作之前,先检查前人的成功条件在你的场景里是否存在。 Phase 6:依存句法任务,直接测试 LM 方向失败后,尝试在有明确句法监督的任务上测试:依存句法分析。如果 grade-2 真的编码了句法,这里应该有优势。 结果: 模型 UAS LAS 参数 BIIC + Biaffine 0.279 0.225 2.5M Transformer + Biaffine 0.752 0.681 2.3M 差距 47pp ,任意数据量下 BIIC 均远差于 Transformer ,无交叉点。 判决性实验 M-v2:测试 grade-2 几何积能否区分不同依存关系类型: 统计显著:p < 1e-15 (样本量足够大) 但 Cohen's d = -0.157 (效应极小,方向还是反的) 探针准确率 = 0.439 (勉强高于随机基线 0.25 ) 有一个矛盾值得记录:线性探针从 grade-2 预测词性 POS = 0.789 ,依存关系 DEP = 0.823 。信息确实存在,但几何积无法提取它。 解释:grade-2 的线性子空间里有句法信息,但这些信息不是通过几何积的代数结构组织的。"信息存在"≠"可被代数操作提取"。 BIIC 方向关闭。 中间插曲:PCA 有效秩分析 在决定下一个方向之前,对 BIIC 的 checkpoint 做了一次 PCA 分析( 51 个多义词,正确加载 50/50 参数),结果很清晰: 层 PR 中位数 rank_90 中位数 同词不同语境的 cos embed_grade0 1.0 1 ≈0 (完全正交) embed_grade2 1.0 1 1.0 (完全相同) grade2 ( 6 层后) 45.6 53 -0.02 (近乎正交) hidden_layer3 44.7 55 -0.03 hidden_final 1.05 1 0.82 几个关键发现: embed_grade2 cos=1.0:embedding 层出来的 grade-2 ,在不同语境下完全相同。原因很简单:encoder 的输入只有 token ID ,没有上下文,所以无法产生上下文分化。这个数字后来成为否定 SFE 的提前预警。 grade2 (深层) PR≈46 ,cos≈-0.02:经过 6 层 blocks 之后,grade-2 变成了高维、相互近乎正交的表示。上下文分化发生在中间层,不在 embedding 层。 hidden_final PR≈1:最后一层把信息压缩回接近一维。这是正常 LM 行为——预测下一个词只需要极少维度。 grade-2 PR p95=49.6:95% 的多义词,语义变化的有效维度不超过 50 。这个数字后来成为 BIF 中 k=64 的实证依据。 第二条路:SFE ,动态调制 embedding 想法 如果 embedding 层本身能根据上下文调整,同一个词在不同语境下就会有不同的初始向量,后续 Transformer 就不需要修正歧义起点。 e_i = (alpha_static_i + g(ctx_i)) @ B B ∈ ℝ^{64×256} :全局共享语义基矩阵 alpha_i ∈ ℝ^{64} :每个 token 的静态配方系数 g(ctx_i) :上下文修正网络,输入前 4 个位置的 embedding ,输出系数偏移 低秩约束( k=64 )有 PCA 数据的支持,防止 g 退化成复杂查表。 三轮实验,三轮失败 实验 核心改动 alpha_cos_min alpha_cos_final 结论 v1.0 g 零初始化 0.85 0.90 g 未激活 v1.1 随机初始化 + 10x lr + 辅助损失 0.61 0.85 激活但被压制 FAM v1 + FAM 层直接依赖 α 0.49 0.86 压制不变 FAM v2 FAM 梯度直连 g 0.50 0.86 压制不变 v1.1 的结果是最有信息量的:alpha_cos 在 step 400 降到 0.61 ( g 确实学到了分化),然后单调上升到 0.85 (被压回去)。探针准确率:完整版 SFE 0.6316 ,静态版 0.6475 ,完整版反而更差。 压制机制的本质:Transformer 的 attention 本身就是一个强大的消歧工具。它发现"自己处理消歧"比"利用 embedding 层传来的分化信号"更高效,通过梯度反传系统性地将 g(ctx) 归零。 这不是梯度路径的问题(我们试过直连),不是学习率的问题(给了 10 倍),不是辅助损失的问题(加了显式分化损失)。这是优化景观决定的:在有 Transformer attention 的架构中,embedding 层的上下文调制没有生存空间。 SFE 动态路线关闭。 意外发现 FAM v1 里,把第一层 attention 换成 FAM (在 α 空间做 token 间交互)后,PPL 从 179.34 降到 175.44 ,少了 3.9 点,参数量还更少( 18.7M vs 19.4M )。 这个增益跟 g(ctx) 的动态调制无关(两组 alpha_cos 都反弹到 0.86 ),来自 FAM 层本身的结构化聚合。这个发现是 BIF 假设的直接来源。 第三条路:BIF ,在低维空间做 token 交互 想法 把 token 交互的计算场所从 256 维搬到 64 维配方空间: # Token 表示 e_i = alpha_i @ B # [k] @ [k, d] = [d],alpha 是 64 维配方系数,B 是共享零件库 # FAM 层:在配方空间做 token 间交互 S[i,j] = alpha_i @ W @ alpha_j^T # 双线性相似度,参数量 k×k=4096 out_i = softmax(S_i + causal_mask) @ X # 按相似度聚合 参数量对比: 传统 embedding:50257×256 ≈ 12.9M BIF embedding:50257×64 + 64×256 ≈ 3.2M (节省 75%) FAM 层:64×64 = 4096 个参数(标准 attention 约 262144 ) BIF 不解决一词多义,α 是静态的,语境消歧仍由后续 Transformer 处理。它只做一件事:在更低维的空间里做交互。 当前状态 FAM 实验给出了初步正向信号:-3.9 PPL ,参数更少。 但这个信号还不干净:两组模型参数量差了 0.7M ( 18.7M vs 19.4M ),无法排除参数量差异是增益来源。 BIF Phase 1 的目标是在参数量和 FLOPs 精确对齐的条件下,用三组对比给出干净的答案: Baseline:标准 embedding + 全部标准 attention BIF:α配方 embedding + FAM 第一层 + 标准 attention 后续层 BIF-ablation:α配方 embedding + 压缩版第一层 attention (参数量≈FAM ) 如果 BIF 比 Baseline 低 >2 点,且比 BIF-ablation 低 >1 点,才算 FAM 有独立贡献。 这个实验还没跑完,是目前唯一开放的假设。 方法论:这三天最重要的东西不是结论,是筛选假设的框架 做完这些实验,觉得最有价值的不是任何具体的实验结果,而是在失败里总结出来的一套假设验证流程。写出来供参考。 五道闸门,提出新假设前先自我攻击 闸门 1:计算成本 假设的核心操作比现有方案贵多少? BIIC 的 sandwich 积比标准 attention 贵约 360 倍,这是架构级问题,工程优化解决不了。这个数字应该在提出假设时就估算,不是等实验跑完。 闸门 2:成功条件迁移 前人类似工作的成功,依赖哪些前提条件?这些条件在当前场景下是否存在? Geometric Hyena 在蛋白质结构上成功,因为有 SE(3) 物理等变性——这在语言中不存在。 闸门 3:消融预判 能否在实验前写下"完整版应该比简化版好 X 点"?如果写不出来,说明对假设的机理理解不够,还没有被精确定义。 闸门 4:任务适配性 数学上的优美不等于任务需要。Grade-2 几何积在数学上很漂亮,但 next-token prediction 不需要几何关系。区分"数学上可以"和"任务上需要"这两个问题。 闸门 5:最小可证伪点 这个假设最可能在哪里第一个失败?失败的量化标准是什么?用多少时间可以测到第一个信号?无法回答这三个问题就不允许启动实验。 附加规则:通过标准在实验开始前写死,不允许实验中修改。如果核心指标在 2000 步时仍不达标且无收敛趋势,停止,不要继续烧资源。 这套流程最大的价值是:它让失败变得信息密度更高。每次否定一个假设,都能精确地说"在哪里失败的",而不是模糊地说"效果不好"。 已确认的结论(有数据支撑) 总结一下这三天确认的事情,方便后来人不重复踩坑: 成立的: Grade-0 是真实的代数不变量,数学保证,任意语境下对同一 token 完全相同( cos ≈ 0 ) Grade-2 携带句法信息(线性探针 POS=0.789 ,DEP=0.823 ),但不在几何积结构中 语义变化的有效维度约 46-57 ( PCA 实证,PR p95=49.6 ) 上下文分化发生在 Transformer 的中间层,不在 embedding 层 不成立的: 等变分量在语言 LM 任务中自发激活( 13 个实验确认) Sandwich 积能提取句法关系( Cohen's d=-0.157 ) BIIC 在依存句法上有优势( UAS 差 47pp ) 动态 embedding 调制在标准 Transformer 中存活( 4 轮实验一致) 待验证的: FAM 的 PPL 增益在参数对齐后是否保持( BIF Phase 1 ) 代码和踩坑 几个容易犯的 PyTorch 错误(调试了很久才发现): # 错误:inplace 操作报 autograd 错误 result[:, :, c, :] = mv_c_transformed # 正确:用 stack 收集 results.append(mv_c_transformed) result = torch.stack(results, dim=2) # 错误:MultiheadAttention 的 is_causal 需要同时传 attn_mask attn(h, h, h, is_causal=True) # 报错 # 正确 mask = nn.Transformer.generate_square_subsequent_mask(L, device=x.device) attn(h, h, h, attn_mask=mask, is_causal=True) # 错误:unfold 产生 L+1 个窗口 windows = padded.unfold(1, ctx_window, 1) # 正确:裁掉多余的一个 windows = padded.unfold(1, ctx_window, 1)[:, :L, :, :] SFE 的信息泄漏问题(调试了很久): # 错误:位置 i 看到了自己的 embedding ctx = sfe(input_ids, ctx=None) # 包含位置 i 自己 # 正确:错位一个位置 static = sfe(input_ids, ctx=None).detach() shifted = torch.zeros_like(static) shifted[:, 1:, :] = static[:, :-1, :] # 位置 i 只看 i-1 之前 x = sfe(input_ids, ctx=shifted) 最后 这个项目最初的想法是"找一个颠覆性的 token embedding 替代方案"。 三天下来,BIIC 的几何代数路线关闭,SFE 的动态调制路线关闭,BIF 是唯一还没被否定的信号,但也还没有干净的验证数据。 回头看,这段路走得比较值的地方不是任何具体的架构,而是:每次否定一个假设,都对"为什么这条路不通"有了更精确的理解。 Grade-2 的信息存在但不能被代数操作提取,等变分量在没有物理对称群的任务里永远休眠,embedding 层的动态调制在 attention 面前永远被压制——这些是可以直接被后来者复用的地图,不需要再走一遍。 BIF Phase 1 的结果出来后会补充更新。 之前有帖子批评我说,做的项目都不能用都是 vibe 还在抖音上被说是民科。好吧 确实没找到突破性的成果。我不好说什么。 还是希望多交流这方面的优化方向。感谢拜读。 实验过程代码和结果,陆续更新至仓库: https://github.com/val1813/BIIC
最近花了三天时间做了一个实验项目,核心问题是:能不能找到比 token embedding 更好的语义传送单元? 结果是把自己的三个假设依次否定了,但在否定过程中挖出来一个还没被否定的信号。把过程和数据分享出来,也许对做 NLP/表示学习的朋友有参考价值。 设备:双卡 4090 ( 24GB×2 ),在 VPS 上跑。 背景:我们在试图解决什么 现有 LLM 的 token embedding 是一张静态查表。"苹果"无论出现在"吃苹果"还是"苹果发布会",进入模型的初始向量都是同一个。模型要靠后续十几层 Transformer 来修正这个歧义起点。 有没有更好的办法?我沿着三条路走了一遍: BIIC (几何代数) → SFE (动态调制) → BIF (因子化低维交互) 每条路都是前一条被实验否定后的精炼。 第一条路:BIIC ,用几何代数做语义表示 想法- Clifford 几何代数 Cl(4,1) 里的多向量可以按"grade"分解: Grade-0 (标量):在旋转变换下严格不变——不管坐标系怎么转,这个值不变 Grade-2 (双向量):在旋转变换下会跟着变 设想:把 token 映射到这个代数结构里,grade-0 作为词的稳定身份锚点,grade-2 携带随上下文变化的语法/语义关系。用 sandwich 积 R·x·R_rev 做 token 间变换,数学上保证 grade-0 严格不变、grade-2 按规律协变。 Phase 1-2:代数基础验证 先花了两天验证代数运算是否正确,结果全部通过: 测试 结果 关键数据 Grade-0 不变性 PASS 100 次变换后误差 < 1e-5 Grade-2 等变性 PASS 两种计算方式误差 < 1e-6 10 层梯度流 PASS 梯度比 = 0.55 ,健康 全链路训练 50 步 PASS loss 10.57 → 0.72 踩坑: Cl(4,1) 的 e5²=-1 (负度规)导致 sandwich 积不保范数,多次变换后数值溢出。解决:对每个 grade 分别归一化,不能统一缩放(否则破坏等变性) Taylor 展开 exp(B) 需要 16 项,12 项精度不够 Phase 3-5:在真实语料上训练,等变分量不活跃 开始在 WikiText-103 上训练完整的语言模型,同时设计了 13 个实验,系统尝试激活 grade-2 等变分量:相对不变注意力、分段 Eraser 、Cohesin 门控、长序列、深网络、全机制叠加…… 13 个实验全部失败。 核心数据: Phase 3 消融: 完整 BIIC loss = 10.8285 仅 grade-0 loss = 10.8271 差距 = 0.0014 (等变分量贡献几乎为零) Phase 5 RelAttn 10k 步: alpha: 0.018 → 0.029 (微升,远不足以说明激活) Transformer baseline PPL = 53.9 ( 52M 参数) BIIC PPL = 390+(远差) 为什么等变分量不活跃? 根本原因是任务不匹配。等变分量在分子设计( SE(3) 等变)、DNA 建模(互补链对称)中有效,是因为那些领域有明确的物理对称性作为监督信号。语言中没有这样的对称性。next-token prediction 只需要知道"下一个词更可能是什么",不需要知道"token A 和 B 的几何对称关系"。 这个教训概括起来就是:在借鉴前人工作之前,先检查前人的成功条件在你的场景里是否存在。 Phase 6:依存句法任务,直接测试 LM 方向失败后,尝试在有明确句法监督的任务上测试:依存句法分析。如果 grade-2 真的编码了句法,这里应该有优势。 结果: 模型 UAS LAS 参数 BIIC + Biaffine 0.279 0.225 2.5M Transformer + Biaffine 0.752 0.681 2.3M 差距 47pp ,任意数据量下 BIIC 均远差于 Transformer ,无交叉点。 判决性实验 M-v2:测试 grade-2 几何积能否区分不同依存关系类型: 统计显著:p < 1e-15 (样本量足够大) 但 Cohen's d = -0.157 (效应极小,方向还是反的) 探针准确率 = 0.439 (勉强高于随机基线 0.25 ) 有一个矛盾值得记录:线性探针从 grade-2 预测词性 POS = 0.789 ,依存关系 DEP = 0.823 。信息确实存在,但几何积无法提取它。 解释:grade-2 的线性子空间里有句法信息,但这些信息不是通过几何积的代数结构组织的。"信息存在"≠"可被代数操作提取"。 BIIC 方向关闭。 中间插曲:PCA 有效秩分析 在决定下一个方向之前,对 BIIC 的 checkpoint 做了一次 PCA 分析( 51 个多义词,正确加载 50/50 参数),结果很清晰: 层 PR 中位数 rank_90 中位数 同词不同语境的 cos embed_grade0 1.0 1 ≈0 (完全正交) embed_grade2 1.0 1 1.0 (完全相同) grade2 ( 6 层后) 45.6 53 -0.02 (近乎正交) hidden_layer3 44.7 55 -0.03 hidden_final 1.05 1 0.82 几个关键发现: embed_grade2 cos=1.0:embedding 层出来的 grade-2 ,在不同语境下完全相同。原因很简单:encoder 的输入只有 token ID ,没有上下文,所以无法产生上下文分化。这个数字后来成为否定 SFE 的提前预警。 grade2 (深层) PR≈46 ,cos≈-0.02:经过 6 层 blocks 之后,grade-2 变成了高维、相互近乎正交的表示。上下文分化发生在中间层,不在 embedding 层。 hidden_final PR≈1:最后一层把信息压缩回接近一维。这是正常 LM 行为——预测下一个词只需要极少维度。 grade-2 PR p95=49.6:95% 的多义词,语义变化的有效维度不超过 50 。这个数字后来成为 BIF 中 k=64 的实证依据。 第二条路:SFE ,动态调制 embedding 想法 如果 embedding 层本身能根据上下文调整,同一个词在不同语境下就会有不同的初始向量,后续 Transformer 就不需要修正歧义起点。 e_i = (alpha_static_i + g(ctx_i)) @ B B ∈ ℝ^{64×256} :全局共享语义基矩阵 alpha_i ∈ ℝ^{64} :每个 token 的静态配方系数 g(ctx_i) :上下文修正网络,输入前 4 个位置的 embedding ,输出系数偏移 低秩约束( k=64 )有 PCA 数据的支持,防止 g 退化成复杂查表。 三轮实验,三轮失败 实验 核心改动 alpha_cos_min alpha_cos_final 结论 v1.0 g 零初始化 0.85 0.90 g 未激活 v1.1 随机初始化 + 10x lr + 辅助损失 0.61 0.85 激活但被压制 FAM v1 + FAM 层直接依赖 α 0.49 0.86 压制不变 FAM v2 FAM 梯度直连 g 0.50 0.86 压制不变 v1.1 的结果是最有信息量的:alpha_cos 在 step 400 降到 0.61 ( g 确实学到了分化),然后单调上升到 0.85 (被压回去)。探针准确率:完整版 SFE 0.6316 ,静态版 0.6475 ,完整版反而更差。 压制机制的本质:Transformer 的 attention 本身就是一个强大的消歧工具。它发现"自己处理消歧"比"利用 embedding 层传来的分化信号"更高效,通过梯度反传系统性地将 g(ctx) 归零。 这不是梯度路径的问题(我们试过直连),不是学习率的问题(给了 10 倍),不是辅助损失的问题(加了显式分化损失)。这是优化景观决定的:在有 Transformer attention 的架构中,embedding 层的上下文调制没有生存空间。 SFE 动态路线关闭。 意外发现 FAM v1 里,把第一层 attention 换成 FAM (在 α 空间做 token 间交互)后,PPL 从 179.34 降到 175.44 ,少了 3.9 点,参数量还更少( 18.7M vs 19.4M )。 这个增益跟 g(ctx) 的动态调制无关(两组 alpha_cos 都反弹到 0.86 ),来自 FAM 层本身的结构化聚合。这个发现是 BIF 假设的直接来源。 第三条路:BIF ,在低维空间做 token 交互 想法 把 token 交互的计算场所从 256 维搬到 64 维配方空间: # Token 表示 e_i = alpha_i @ B # [k] @ [k, d] = [d],alpha 是 64 维配方系数,B 是共享零件库 # FAM 层:在配方空间做 token 间交互 S[i,j] = alpha_i @ W @ alpha_j^T # 双线性相似度,参数量 k×k=4096 out_i = softmax(S_i + causal_mask) @ X # 按相似度聚合 参数量对比: 传统 embedding:50257×256 ≈ 12.9M BIF embedding:50257×64 + 64×256 ≈ 3.2M (节省 75%) FAM 层:64×64 = 4096 个参数(标准 attention 约 262144 ) BIF 不解决一词多义,α 是静态的,语境消歧仍由后续 Transformer 处理。它只做一件事:在更低维的空间里做交互。 当前状态 FAM 实验给出了初步正向信号:-3.9 PPL ,参数更少。 但这个信号还不干净:两组模型参数量差了 0.7M ( 18.7M vs 19.4M ),无法排除参数量差异是增益来源。 BIF Phase 1 的目标是在参数量和 FLOPs 精确对齐的条件下,用三组对比给出干净的答案: Baseline:标准 embedding + 全部标准 attention BIF:α配方 embedding + FAM 第一层 + 标准 attention 后续层 BIF-ablation:α配方 embedding + 压缩版第一层 attention (参数量≈FAM ) 如果 BIF 比 Baseline 低 >2 点,且比 BIF-ablation 低 >1 点,才算 FAM 有独立贡献。 这个实验还没跑完,是目前唯一开放的假设。 方法论:这三天最重要的东西不是结论,是筛选假设的框架 做完这些实验,觉得最有价值的不是任何具体的实验结果,而是在失败里总结出来的一套假设验证流程。写出来供参考。 五道闸门,提出新假设前先自我攻击 闸门 1:计算成本 假设的核心操作比现有方案贵多少? BIIC 的 sandwich 积比标准 attention 贵约 360 倍,这是架构级问题,工程优化解决不了。这个数字应该在提出假设时就估算,不是等实验跑完。 闸门 2:成功条件迁移 前人类似工作的成功,依赖哪些前提条件?这些条件在当前场景下是否存在? Geometric Hyena 在蛋白质结构上成功,因为有 SE(3) 物理等变性——这在语言中不存在。 闸门 3:消融预判 能否在实验前写下"完整版应该比简化版好 X 点"?如果写不出来,说明对假设的机理理解不够,还没有被精确定义。 闸门 4:任务适配性 数学上的优美不等于任务需要。Grade-2 几何积在数学上很漂亮,但 next-token prediction 不需要几何关系。区分"数学上可以"和"任务上需要"这两个问题。 闸门 5:最小可证伪点 这个假设最可能在哪里第一个失败?失败的量化标准是什么?用多少时间可以测到第一个信号?无法回答这三个问题就不允许启动实验。 附加规则:通过标准在实验开始前写死,不允许实验中修改。如果核心指标在 2000 步时仍不达标且无收敛趋势,停止,不要继续烧资源。 这套流程最大的价值是:它让失败变得信息密度更高。每次否定一个假设,都能精确地说"在哪里失败的",而不是模糊地说"效果不好"。 已确认的结论(有数据支撑) 总结一下这三天确认的事情,方便后来人不重复踩坑: 成立的: Grade-0 是真实的代数不变量,数学保证,任意语境下对同一 token 完全相同( cos ≈ 0 ) Grade-2 携带句法信息(线性探针 POS=0.789 ,DEP=0.823 ),但不在几何积结构中 语义变化的有效维度约 46-57 ( PCA 实证,PR p95=49.6 ) 上下文分化发生在 Transformer 的中间层,不在 embedding 层 不成立的: 等变分量在语言 LM 任务中自发激活( 13 个实验确认) Sandwich 积能提取句法关系( Cohen's d=-0.157 ) BIIC 在依存句法上有优势( UAS 差 47pp ) 动态 embedding 调制在标准 Transformer 中存活( 4 轮实验一致) 待验证的: FAM 的 PPL 增益在参数对齐后是否保持( BIF Phase 1 ) 代码和踩坑 几个容易犯的 PyTorch 错误(调试了很久才发现): # 错误:inplace 操作报 autograd 错误 result[:, :, c, :] = mv_c_transformed # 正确:用 stack 收集 results.append(mv_c_transformed) result = torch.stack(results, dim=2) # 错误:MultiheadAttention 的 is_causal 需要同时传 attn_mask attn(h, h, h, is_causal=True) # 报错 # 正确 mask = nn.Transformer.generate_square_subsequent_mask(L, device=x.device) attn(h, h, h, attn_mask=mask, is_causal=True) # 错误:unfold 产生 L+1 个窗口 windows = padded.unfold(1, ctx_window, 1) # 正确:裁掉多余的一个 windows = padded.unfold(1, ctx_window, 1)[:, :L, :, :] SFE 的信息泄漏问题(调试了很久): # 错误:位置 i 看到了自己的 embedding ctx = sfe(input_ids, ctx=None) # 包含位置 i 自己 # 正确:错位一个位置 static = sfe(input_ids, ctx=None).detach() shifted = torch.zeros_like(static) shifted[:, 1:, :] = static[:, :-1, :] # 位置 i 只看 i-1 之前 x = sfe(input_ids, ctx=shifted) 最后 这个项目最初的想法是"找一个颠覆性的 token embedding 替代方案"。 三天下来,BIIC 的几何代数路线关闭,SFE 的动态调制路线关闭,BIF 是唯一还没被否定的信号,但也还没有干净的验证数据。 回头看,这段路走得比较值的地方不是任何具体的架构,而是:每次否定一个假设,都对"为什么这条路不通"有了更精确的理解。 Grade-2 的信息存在但不能被代数操作提取,等变分量在没有物理对称群的任务里永远休眠,embedding 层的动态调制在 attention 面前永远被压制——这些是可以直接被后来者复用的地图,不需要再走一遍。 BIF Phase 1 的结果出来后会补充更新。 之前有帖子批评我说,做的项目都不能用都是 vibe 还在抖音上被说是民科。好吧 确实没找到突破性的成果。我不好说什么。 还是希望多交流这方面的优化方向。感谢拜读。 实验过程代码和结果,陆续更新至仓库: https://github.com/val1813/BIIC
https://www.nature.com/articles/d41586-026-01407-w [!quote]+ 马克的研究并不是要测量人们对某一特定目标的持续关注程度。相反,她计算的是员工在不同任务之间切换的时间和频率。这种切换并不一定是为了那些会惹恼老板的琐事。它们包括打开新的浏览器标签、查看电子邮件、在文件之间移动以及瞥一眼手机。她说,在 2000 年代中期,她观察到工人们在切换专用屏幕任务前平均花费约两分半钟。根据马克的《2023》一书6,到2010年代,这一数字下降到约75秒,到2020年代初,这一数字约为47秒。 在讨论这些结果时,经常会提到微软加拿大公司 2015 年的一份营销报告,其中指出人类的平均注意力从 2000 年的 12 秒下降到 2013 年的 8 秒。报告指出,这比金鱼的平均注意力持续时间还要短,据报告,金鱼的平均注意力持续时间为9秒 [1] 。但是,该报告基于调查、拍摄行为和脑电图(EEG)数据(EEG是利用大脑活动中的峰值来测量人们何时转换注意力)得出的结论反映了数字习惯的改变,而不是认知能力的限制,甚至还指出人们处理信息的效率正在提高。(此外,金鱼受到了不公正的诽谤;没有证据表明它们的注意力持续时间特别短,而且研究表明它们能将某些信息保留数月之久)。 马克的研究表明,频繁切换注意力会带来认知成本。"她说:"当人们切换注意力时,尤其是当他们切换得相当快时(这正是数据所显示的),他们往往会犯更多的错误。"与按部就班地完成工作相比,他们需要更长的时间来完成任何一项任务,压力也会随之增加。不断切换也会分散脑力。"她说:"我们没有利用那些反思、深思熟虑和工作记忆的技能。她说,"这可能会导致我们所熟悉的肤浅忙碌的弊病,似乎没有取得进展。 见 https://static1.squarespace.com/static/59bf2bf68fd4d28e59627113/t/5ab01bdff950b70546a08167/1521490918597/265348695-Microsoft-Attention-Spans-Research-Report.pdf ↩︎ 5 个帖子 - 3 位参与者 阅读完整话题
v4p会有多模态吗?感觉智力上v4比较一般,但是注意力很不错。不过这个多模态是什么情况? 2 个帖子 - 2 位参与者 阅读完整话题