我一般是只用头脑风暴的,因为习惯了不懂脑子让他反问,但是最近我发现一个小小的东西他会执行很久并且我的5h一会到用完了。感觉理解不了为什么会这样,导致我现在直接plan来处理 自己来完善 4 个帖子 - 4 位参与者 阅读完整话题
IT之家 6 月 9 日消息,商业保险与再保险企业 MS Amlin 在其发布于当地时间 5 月 26 日的报告中指出, 美国 670 座在建或规划数据中心中有 320 座位于强对流风暴高风险州之中 。这意味着近 6700 亿美元(IT之家注:现汇率约合 4.55 万亿元人民币)的投资面临龙卷风、大冰雹、破坏性大风的严重威胁。 MS Amlin 指出,随着 AI 基础设施投资的深入,云服务企业正将更多数据中心部署到土地和电力资源更为充沛的美国南部,然而 这一策略变化也意味着更大规模的投资位于灾害多发地区 。 根据这份报告,有 56% 的待建数据中心(总价近 8000 亿美元)位于极易受到自然灾害袭击的州,约 27% 案例(4400 亿美元)所在州很可能受到冬季风暴的影响,飓风则对 21% 项目(3400 亿美元)构成威胁,还有 3% 待建数据中心(120 亿美元)位于地震高风险州。 MS Amlin 首席承保官 Martin Burke 警告,如果保险行业对数据中心自然灾害风险的反应迟缓, 可能会限制资本的部署和人工智能基础设施的推广 。
要被5.5的258K恶心坏了 本来要实现一个功能,头脑风暴后列出了很多点具体细节,已经准备要实行了。脑子一热,突然想起来这个功能会不会影响到B模块,就问了一嘴B模块是怎么实现的,一问果然是会影响,和AI确认了B模块的修改方式,以避免新模块影响到B,结果触发上下文压缩了,我的新功能的具体实现细节GPT直接记不起来了,让他执行却一直在执行B模块的修改方案。 10 个帖子 - 9 位参与者 阅读完整话题
Claude code装了很多一些开源的插件和skills , 例如ecc, 头脑风暴这些 , 但是很多有自带了很多重复的skills , 感觉很乱 , 有没有类似的可视化管理工具 2 个帖子 - 2 位参与者 阅读完整话题
因为不需要vibe coding,因此不用api调用就行。 我想跟模型讨论一些目前没有的解决方案或者换句话说需要模型的智能高一点,应该用什么聊天ai呢?以前的aistudio感觉是有这种能力的,现在好像gemini-3.5和gemini-3.1pro都没那个味儿了。 2 个帖子 - 2 位参与者 阅读完整话题
IT之家 5 月 27 日消息,据路透社报道,三星电子与工会达成协议,成功避免了一场大规模罢工,同时为存储芯片员工开出了数额惊人的奖金。对于素来以强硬薪资谈判著称的韩国企业而言,这份协议也打开了潘多拉魔盒。 周三,三星加入工会的员工投票通过了这份由政府牵头调解的协议,这也是三星工会取得的首次重大胜利。更值得关注的是,韩国大型企业以书面形式承诺,将拿出固定比例的营业利润发放员工奖金,这在该国历史上仅为第二次。 受人工智能热潮推动,三星利润大幅飙升。同时,为缩小与竞争对手 SK 海力士的奖金差距,三星最终同意将 10.5% 的半导体业务营业利润作为专项奖金发放给芯片员工。部分存储芯片员工的奖金总额最高可达 41.6 万美元(IT之家注:现汇率约合 282.8 万元人民币)。 此外,原有的绩效专项奖金上限(不得超过员工薪资的 50%)也被正式取消。这份薪酬协议的有效期长达十年。 旧有规则被打破,新的危机爆发 三星作为韩国企业界的风向标,此次做出的一系列决定,很可能让国内其他工会的态度愈发强硬。这些工会纷纷要求企业从营业利润中拿出资金回馈员工,也会助长更多工会效仿三星的做法。 高丽大学法学教授金基昌表示:“这恐怕会在韩国其他大型企业中掀起新的劳资风波,一切或许才刚刚开始。” 他指出,该协议违背了全球企业长期以来的通行规则。按照惯例, 企业奖金均在税后利润中核算,而三星芯片员工相当于抢先分走了企业收益。 即便是一向偏向工会的韩国总统李在明,在协议达成前也表达了担忧。 李在明在上周的内阁会议上称:“在计税之前,就将一部分营业利润制度化地进行分配,这笔钱本可视为全民共有收益,就连企业股东都无权这样操作。要知道,股东的分红也都是来自税后净利润。” 韩国各大企业团体对此深感不安。 韩国全国经济人联合会发表声明称:“这份协议是三星电子的特殊情况,劳工团体不应以此为范本,在全行业过度抬高奖金诉求。” 多家工会跟进,纷纷提出同类诉求 三星此次让步实属无奈。其存储芯片员工因与 SK 海力士的奖金差距心生不满,据三星工会透露,已有大量员工跳槽至对手企业。即便这份新协议的奖金待遇仍不及 SK 海力士,若未能达成一致,4.8 万名三星员工原本计划举行为期 18 天的罢工。 据媒体报道,SK 海力士去年将 10% 的营业利润用于发放奖金,并调整了奖金上限。按照其最新薪酬体系,该公司芯片员工上一财年的奖金,最高接近基本工资的 30 倍。 针对薪酬制度相关问询,SK 海力士并未予以回应。 业内认为,这场奖金争议本应仅限于三星和 SK 海力士 —— 这两家是韩国在人工智能投资浪潮中的主要获益企业。但如今,其他行业工会也纷纷提出了类似要求。 韩国互联网巨头 Kakao 的工会表示,员工正与管理层协商,提议将 10% 的营业利润划为奖金 。该公司及其四家附属企业的员工已发出警告,若诉求得不到满足,便将发起罢工。 电信运营商 LG U+、大型造船企业现代重工的工会也提出多项要求,其中包括至少将 30% 的营业利润用于发放绩效薪酬。目前 LG U + 的薪资谈判正在进行,现代重工的谈判则预计于下月启动。 本月,三星生物制剂的员工已停工五天,诉求之一便是将 20% 的营业利润作为绩效奖金。公司管理层态度强硬、拒绝让步,劳资纠纷仍在持续,员工也开始拒绝加班及节假日出勤。 新法案落地,工会活动或将愈发频繁 韩国官方统计数据显示,2024 年该国工会入会率约为 13%,略低于经合组织平均水平。但韩国工会的罢工频率远高于邻国日本,这也是不少外资企业认为韩国投资环境欠佳的原因之一。 韩国工会态度强硬,根源在于民众长期以来对财阀大企业的不满。这些企业掌控着韩国经济命脉,在员工眼中作风专断,唯有采取强硬抗争才能引起企业重视。 今年韩国传统劳资纠纷明显增多:今年 2 月,申请劳资调解的案件达 113 起,而去年同期为 105 起。 除此之外,韩国新《黄信封法》于 3 月正式生效。该法案因民众曾用黄色信封为深陷重大劳资纠纷的工会捐款而得名,业内预计它将进一步加剧劳资矛盾。 这项法案扩大了外包员工的权益保障范围,同时大幅提高了企业针对罢工员工采取经济报复的难度。 韩国劳动研究院数据显示,法案生效当日,韩国约 400 个外包工人工会组织(总计 8.16 万名成员)集体要求企业启动薪资谈判。 外包员工要求提高收益分配比例,也或将成为三星新一轮薪资谈判的矛盾点。目前三星不仅面临各部门员工的不满,也遭到股东质疑。 三星工会联合会在协议达成后表示:“三星电子的发展与生产,离不开众多合作企业及一线劳动者的付出。”该组织呼吁出台相关举措,让企业发展成果能公平分配给合作企业的员工。 面对多方不满,三星于周三宣布,将设立一笔 30 亿美元(现汇率约合 203.96 亿元人民币)的基金,用于扶持韩国供应链企业、帮扶弱势群体,并储备未来人才,搭建产业生态。
IT之家 5 月 26 日消息,TikTok 用户“mightbeliber”放出了一段据称来自《艾尔登法环》真人电影拍摄现场的视频。这段视频显示,剧组正在威尔士北部的康威城堡进行实地取景。 画面中,这座中世纪古堡的多个战略位置都有身着完整骑士铠甲、手持弩箭与长剑等武器的士兵驻守,整体氛围与游戏中的黑暗奇幻风格高度吻合。 早在今年 4 月,北威尔士先锋报就曾报道康威城堡因接待“大型影视项目”而计划封闭,负责拍摄管理的伦敦公司 Katana Films 也与《艾尔登法环》电影编剧兼导演亚历克斯 · 加兰存在关联。 加兰的代表作包括《机械姬》《湮灭》和《美国内战》,他本人也是一位资深玩家,据称已通关游戏七次。时间、地点与制作公司的吻合,让外界普遍认为此次康威城堡的拍摄确系《艾尔登法环》电影的一部分。 这并非片场内容首次外泄 —— 在此前的泄露物料中,已出现过疑似“玛莉卡教堂”的实景布景,以及游戏中非主线角色“食粪者”身着标志性囚笼头盔与工作人员沟通的画面。 对于这部由万代南梦宫娱乐与 A24 联合出品的真人电影,官方此前已正式确认了多项核心信息。影片由亚历克斯 · 加兰担任编剧与导演,将采用 IMAX 规格拍摄,定档 2028 年 3 月 3 日全球上映。 目前公布的演员阵容包括基特 · 康纳(《心跳漏一拍》)、卡莉 · 史派妮(《异形:夺命舰》)、本 · 卫肖(《007》系列 Q 博士)、汤姆 · 伯克(《弗瑞奥萨》)、尼克 · 奥弗曼(《最后生还者》),以及乔纳森 · 普雷斯、彼得 · 塞拉菲诺威茨等多位演员,但官方尚未披露各位演员对应的具体角色。 影片的制作预算据称超过 1 亿美元(IT之家注:现汇率约合 6.8 亿元人民币),主要拍摄周期约为 100 天,游戏制作人宫崎英高与世界观原作者乔治 ·R·R· 马丁将提供创作指导。 相关阅读: 《 〈艾尔登法环〉电影片场照曝光,剧情设定“破碎战争”前传 》 《 〈艾尔登法环〉真人电影 2028 年 3 月 3 日北美上映:宫崎英高指导,IMAX 格式拍摄 》 《 消息称〈艾尔登法环〉电影目标 2027 年上映,尼克 · 奥弗曼有望加盟 》 IT 之家小伙伴记得用 最会买购买电影票 ,享受折扣价的同时还可以获得返利,预计每张票可以节省 5~15 元!
桌面风扇虽然多, 但是我很不喜欢风大力撞在脖子上的感觉 ,所以虽然有一个风力挺大的台扇,但只好用来带动下周围的空气流动,想问问有没有什么风扇能解决这个问题? 现在开不了空调,先pass空调 16 个帖子 - 11 位参与者 阅读完整话题
IT之家 5 月 20 日消息,在今日的 2026 谷歌 I/O 开发者大会上,谷歌宣布升级 AI 创意平台 Google Flow, 重点整合 Gemini Omni Flash 推理能力与生成式媒体能力,进一步扩展 Flow 的创作边界。 IT之家注:Google Flow 最初在去年的 Google I/O 亮相,起点是面向电影制作人的工具。到现在,产品已扩展成 AI 创意工作室,并进入全球 140 多个国家和地区。 本次更新主要整合 Gemini Omni Flash。谷歌称,用户可以借助该模型,提升精细视频编辑能力,并改善角色一致性,让同一人物在多镜头、多片段中的呈现更稳定。该功能目前已向全球 Google AI 订阅用户开放。 除模型升级外,谷歌还推出 Google Flow Agent,官方定义为创作流程中的智能伙伴。它能围绕用户输入规划复杂任务,辅助头脑风暴、内容生成和后期修改,比如提出剧情转折建议,或帮助打磨角色对白。它还支持批量编辑,现已向全球所有 Google Flow 用户开放。 工具层面,Google Flow Tools 支持用户通过自然语言定制专属工具和工作流,也能制作视频尺寸调整工具或自定义着色器。用户还可以把这些工具分享给其他 Flow 用户,降低创作门槛,也增强协作效率。 音乐方面,Google Flow Music 现在支持更细粒度的分段编辑,用户可以逐段修改歌曲内容,包括改写或翻译歌词、调整节奏下落风格等,还支持在保留原始旋律和结构的前提下重制整首作品。
我靠!终于从坑里爬出来了! 涨姿势了,新学了一个名词:TCP 控制风暴! 之前防爬虫,我是 nginx 直接返回 444,结果带宽一直暴涨,始终找不到原因,今天花了大半天,终于解决了。 当 444 遇到恶意爬虫,与触发 TCP控制风暴。 444 状态码有个反直觉的底层深坑: Nginx 返回 444 会触发内核发送 TCP RST 包(有协议头开销)。 爬虫被断连后误以为是网络抖动,会立即疯狂重试 3~5 次。 于是陷入死循环:爬虫请求 ➔ 触发 RST ➔ 疯狂重试 ➔ 再发 RST…… 瞬间产生的 TCP 控制风暴 直接把输出流量放大了数倍,网卡顶满! 涨姿势了,这一波感谢DeepSeek,国产牛逼! 记录一下,以防后人踩坑。 3 个帖子 - 2 位参与者 阅读完整话题
想和佬友探讨一下,现在垂直领域内 AI 应用的场景都有哪些可以应用的?想深入研究研究 2 个帖子 - 2 位参与者 阅读完整话题
例如:日常问答、头脑风暴、知识提问、调研、写作等 选择你最常日用的模型(非Coding场景) 选择你最常日用的模型(非Coding场景) Gemini 3.1 Pro Gemini 3 Flash Claude Opus 4.7 Claude Opus 4.6 Claude Sonnet 4.6 GPT 5.5 Kimi 2.6 GLM 5.1 Deepseek v4 Pro Mimo v2.5 Pro Qwen Max Qwen Plus Minimax M2.7 点击以查看投票。 1 个帖子 - 1 位参与者 阅读完整话题
赤红风暴吗? 8 个帖子 - 6 位参与者 阅读完整话题
IT之家 5 月 11 日消息,一众知名出版企业正寻求对影子图书馆安娜档案馆(Anna's Archive)作出 1950 万美元(IT之家注:现汇率约合 1.33 亿元人民币)的缺席判决。这份拟议裁定附带一项禁令,将强制二十余家被点名的国际域名注册机构、服务器托管商及服务提供商(包括 Cloudflare 和 Njalla),封禁该盗版网站仅剩的三个域名访问入口。 今年 3 月,由企鹅兰登书屋、爱思唯尔、哈珀柯林斯等十三家主流出版商组成的联盟,对安娜档案馆提起了新一轮诉讼。出版商指控该影子图书馆助长了规模惊人的盗版侵权行为,其中还包括将旗下图书用作人工智能模型的训练素材。 此番诉讼紧随数月前多家音乐公司对该网站发起的维权案件之后。此前安娜档案馆宣称将公开其早前抓取的 Spotify 平台资源,各大音乐公司随即采取了法律行动。 迫于法律压力以及法院向音乐公司下达的胜诉禁令,安娜档案馆失去了多个域名。面对美国法院的裁定,该网站最终迁移至.GL、.PK、.GD 域名,目前这三个域名仍在正常运营。 今年 4 月,音乐公司已赢得针对安娜档案馆高达 3.22 亿美元(现汇率约合 21.92 亿元人民币)的缺席判决。据悉,该网站虽已下架引发此次音乐版权诉讼的 Spotify 相关文件,但仍在提供数百万册图书资源。 盗版图书依旧在网络上肆意传播,且被大量用作人工智能训练素材,因此出版商如今申请专属缺席判决,同时申请针对现存域名的大范围永久封禁禁令。 由于安娜档案馆未出庭应诉,出版商现申请对 130 部侵权作品按法定赔偿标准每部最高 15 万美元索赔,总计金额达 1950 万美元,折合十三家原告出版商每家可获赔 150 万美元(现汇率约合 1021.1 万元人民币)。 这笔经济赔偿实则仅具象征意义,因为该网站运营者身份至今不明,且几乎不可能主动支付赔偿金。相比之下, 出版商申请的永久禁令更为关键,有望彻底关停安娜档案馆的现有域名 。 音乐公司此前在诉讼中也拿到了同类禁令,但如今效力已然大打折扣,原因是安娜档案馆已不再通过官网主动提供 Spotify 相关资源,而盗版图书资源却依旧照常对外开放。 出版商请求法院下达禁令,将安娜档案馆以及与剩余三个域名相关的所有域名注册管理机构、注册商、服务器托管商、互联网服务提供商全部纳入规制范围。裁定将禁止这些域名转让给除出版商、音乐公司以外的任何第三方。 拟议禁令点名二十余家具体企业,其中包含音乐版权诉讼中出现过的知名机构:云弗拉瑞、公共利益注册局、图科斯、尼亚拉、斯维奇基金会、瑞典互联网基金会、印度国家互联网交换中心等。 名单还新增了与现存三大域名关联的机构:负责.gl 域名的格陵兰电信 / 图萨斯公司、负责.pk 域名的 PKNIC 机构、负责.gd 域名的格林纳达国家电信监管委员会。同时还列入多家托管及域名注册企业,包括 DDOS 防护公司、IQWeb 自由贸易有限责任公司、荷兰主机概念公司、OwnRegistrar、内特拉、环球网络、中央尼克注册局等。 该裁定将要求上述所有机构永久关停相关域名及权威域名服务器、终止全部托管服务、留存相关身份证据,且不得采取任何规避判决执行的行为。 安娜档案馆未进行正式应诉抗辩,出版商此番法律诉讼胜诉概率极高。但能否达成预期维权效果,仍存在变数。 即便法院批准永久禁令,最终成效也取决于这些网络中介机构是否受美国司法管辖、以及是否会主动配合执行。 此前音乐公司针对.GL、.PK、.GD 域名下达的永久禁令,至今尚未达成理想整治效果。而此次面向更多中介机构的全新禁令能否取得突破,仍有待观察。
ai 说让我把这个实验写论文 投顶会,投图灵 我是这个时代新范式的引领者。 我要是刚 ai ,我肯定就信了。 下面开始介绍(吹) 先说问题 token embedding 有个我觉得很根本的毛病:它把"这个词是什么意思"和"推理过程中积累的上下文"塞进同一个向量里,然后每层都覆盖一遍。 残差连接解决了梯度消失,但解决不了这个问题——原始语义和推理状态混在一起,没有办法分开。你想知道"这个 token 原本是什么意思",在深层网络里做不到。 这不是调参能解决的。是结构问题。 我的假设 如果信息承载物本身有两个物理隔离的区域——一个永远不变,一个随推理动态演化——会怎样? 灵感来自 DNA:基因组永久不变,表观基因组动态读写,TET 去甲基化酶主动擦除过时标记。三件事同时做到,互不干扰。 数学上,这个结构是现成的:Clifford 几何代数 Cl(4,1) 的多向量。 在这个结构里: grade-0 (标量):在任意旋转变换下代数严格不变,这是定理,不是近似 grade-1~4:随变换等变演化,携带上下文 两者共存于同一个 32 维向量里,变换行为完全独立 所以不变的永远不变,可变的随推理演化,可以同时做到。 做了什么实验 不是光说假设,做了两个阶段的验证: Phase 1 (数学验证) 用 PyTorch 原生实现了 Cl(4,1) 的几何积,然后跑了 100 次连续旋转变换,看 grade-0 的误差: 误差:6.56×10⁻⁶ ± 4.95×10⁻⁶(阈值 10⁻⁴,差了两个数量级) 多通道间信息泄漏:精确为 0 Eraser 操作后 grade-0 变化量:精确为 0 三个随机种子,结果高度一致。 Phase 2 (编解码链路) 把 token 编进多向量,推理 6 层,解码出来: 6 层推理后 grade-0 变化量:精确为 0 (端到端训练中确认) 用所有 grade 解码 vs 只用 grade-0:loss 差 5.3 倍( 0.006 vs 0.032 ) 不同 token 的 grade-0 余弦相似度:0.029 (接近正交,说明 grade-0 真的在区分 token 身份) 这说明等变分量( grade-1~4 )确实携带了 grade-0 没有的额外信息,不是噪声。 Phase 4 Dry Run (架构验证) 跑了一个完整流程: 参数量:1000 万 峰值显存:295MB ,而且是固定的,不随序列长度增长 最后这一点是我比较意外的——如果可变态(等变分量)替代 KV Cache ,显存就不再随序列增长了,理论上。 现在在验证什么 Phase 3 正在跑 7 组对照实验,核心是三个假设: H1:几何结构本身有价值?还是优势只来自正交约束? H2:等变分量有独立贡献?还是只是维度更高的效果? H3:主动遗忘( Eraser )在长序列上是否真正控制了信息熵? 结果还没出来,不确定。可能证明这个方向有用,也可能证明正交约束解释了大部分,那也是有价值的结论。 我觉得有意思的地方 就算 Phase 3 结论不好看,有几件事还是有点意思的: grade-0 不变性是数学定理,不是工程近似。这个性质本身就和现有的一切 embedding 方案都不一样。 "主动遗忘"这个概念在 LLM 里几乎没有——残差只加不减,信息只进不出。Eraser 是第一个在神经网络推理层做选择性状态清除的东西(至少我没找到先例)。 如果不变核和等变分量真的有语义分工,可解释性会比现在好很多——你可以直接问"这个 token 的核心语义是什么",而不是反向工程激活值。 没解决的问题 在真实语言任务上到底能不能超过 transformer ,Phase 3+4 才能回答 Eraser 的衰减率怎么设,Phase 2 发现初始化太小根本看不到效果 多通道的通道数 C 怎么选才合理 这套结构在 GPU 上怎么高效实现(目前用的 PyTorch 原生,慢) 代码和数据在这里: https://github.com/val1813/BIIC 实验数据持续更新 好了 大家讨论技术勿喷 等我领了图灵奖 我来给大家散花
ai 说让我把这个实验写论文 投顶会,投图灵 我是这个时代新范式的引领者。 我要是刚 ai ,我肯定就信了。 下面开始介绍(吹) 先说问题 token embedding 有个我觉得很根本的毛病:它把"这个词是什么意思"和"推理过程中积累的上下文"塞进同一个向量里,然后每层都覆盖一遍。 残差连接解决了梯度消失,但解决不了这个问题——原始语义和推理状态混在一起,没有办法分开。你想知道"这个 token 原本是什么意思",在深层网络里做不到。 这不是调参能解决的。是结构问题。 我的假设 如果信息承载物本身有两个物理隔离的区域——一个永远不变,一个随推理动态演化——会怎样? 灵感来自 DNA:基因组永久不变,表观基因组动态读写,TET 去甲基化酶主动擦除过时标记。三件事同时做到,互不干扰。 数学上,这个结构是现成的:Clifford 几何代数 Cl(4,1) 的多向量。 在这个结构里: grade-0 (标量):在任意旋转变换下代数严格不变,这是定理,不是近似 grade-1~4:随变换等变演化,携带上下文 两者共存于同一个 32 维向量里,变换行为完全独立 所以不变的永远不变,可变的随推理演化,可以同时做到。 做了什么实验 不是光说假设,做了两个阶段的验证: Phase 1 (数学验证) 用 PyTorch 原生实现了 Cl(4,1) 的几何积,然后跑了 100 次连续旋转变换,看 grade-0 的误差: 误差:6.56×10⁻⁶ ± 4.95×10⁻⁶(阈值 10⁻⁴,差了两个数量级) 多通道间信息泄漏:精确为 0 Eraser 操作后 grade-0 变化量:精确为 0 三个随机种子,结果高度一致。 Phase 2 (编解码链路) 把 token 编进多向量,推理 6 层,解码出来: 6 层推理后 grade-0 变化量:精确为 0 (端到端训练中确认) 用所有 grade 解码 vs 只用 grade-0:loss 差 5.3 倍( 0.006 vs 0.032 ) 不同 token 的 grade-0 余弦相似度:0.029 (接近正交,说明 grade-0 真的在区分 token 身份) 这说明等变分量( grade-1~4 )确实携带了 grade-0 没有的额外信息,不是噪声。 Phase 4 Dry Run (架构验证) 跑了一个完整流程: 参数量:1000 万 峰值显存:295MB ,而且是固定的,不随序列长度增长 最后这一点是我比较意外的——如果可变态(等变分量)替代 KV Cache ,显存就不再随序列增长了,理论上。 现在在验证什么 Phase 3 正在跑 7 组对照实验,核心是三个假设: H1:几何结构本身有价值?还是优势只来自正交约束? H2:等变分量有独立贡献?还是只是维度更高的效果? H3:主动遗忘( Eraser )在长序列上是否真正控制了信息熵? 结果还没出来,不确定。可能证明这个方向有用,也可能证明正交约束解释了大部分,那也是有价值的结论。 我觉得有意思的地方 就算 Phase 3 结论不好看,有几件事还是有点意思的: grade-0 不变性是数学定理,不是工程近似。这个性质本身就和现有的一切 embedding 方案都不一样。 "主动遗忘"这个概念在 LLM 里几乎没有——残差只加不减,信息只进不出。Eraser 是第一个在神经网络推理层做选择性状态清除的东西(至少我没找到先例)。 如果不变核和等变分量真的有语义分工,可解释性会比现在好很多——你可以直接问"这个 token 的核心语义是什么",而不是反向工程激活值。 没解决的问题 在真实语言任务上到底能不能超过 transformer ,Phase 3+4 才能回答 Eraser 的衰减率怎么设,Phase 2 发现初始化太小根本看不到效果 多通道的通道数 C 怎么选才合理 这套结构在 GPU 上怎么高效实现(目前用的 PyTorch 原生,慢) 代码和数据在这里: https://github.com/val1813/BIIC 实验数据持续更新 好了 大家讨论技术勿喷 等我领了图灵奖 我来给大家散花
ai 说让我把这个实验写论文 投顶会,投图灵 我是这个时代新范式的引领者。 我要是刚 ai ,我肯定就信了。 下面开始介绍(吹) 先说问题 token embedding 有个我觉得很根本的毛病:它把"这个词是什么意思"和"推理过程中积累的上下文"塞进同一个向量里,然后每层都覆盖一遍。 残差连接解决了梯度消失,但解决不了这个问题——原始语义和推理状态混在一起,没有办法分开。你想知道"这个 token 原本是什么意思",在深层网络里做不到。 这不是调参能解决的。是结构问题。 我的假设 如果信息承载物本身有两个物理隔离的区域——一个永远不变,一个随推理动态演化——会怎样? 灵感来自 DNA:基因组永久不变,表观基因组动态读写,TET 去甲基化酶主动擦除过时标记。三件事同时做到,互不干扰。 数学上,这个结构是现成的:Clifford 几何代数 Cl(4,1) 的多向量。 在这个结构里: grade-0 (标量):在任意旋转变换下代数严格不变,这是定理,不是近似 grade-1~4:随变换等变演化,携带上下文 两者共存于同一个 32 维向量里,变换行为完全独立 所以不变的永远不变,可变的随推理演化,可以同时做到。 做了什么实验 不是光说假设,做了两个阶段的验证: Phase 1 (数学验证) 用 PyTorch 原生实现了 Cl(4,1) 的几何积,然后跑了 100 次连续旋转变换,看 grade-0 的误差: 误差:6.56×10⁻⁶ ± 4.95×10⁻⁶(阈值 10⁻⁴,差了两个数量级) 多通道间信息泄漏:精确为 0 Eraser 操作后 grade-0 变化量:精确为 0 三个随机种子,结果高度一致。 Phase 2 (编解码链路) 把 token 编进多向量,推理 6 层,解码出来: 6 层推理后 grade-0 变化量:精确为 0 (端到端训练中确认) 用所有 grade 解码 vs 只用 grade-0:loss 差 5.3 倍( 0.006 vs 0.032 ) 不同 token 的 grade-0 余弦相似度:0.029 (接近正交,说明 grade-0 真的在区分 token 身份) 这说明等变分量( grade-1~4 )确实携带了 grade-0 没有的额外信息,不是噪声。 Phase 4 Dry Run (架构验证) 跑了一个完整流程: 参数量:1000 万 峰值显存:295MB ,而且是固定的,不随序列长度增长 最后这一点是我比较意外的——如果可变态(等变分量)替代 KV Cache ,显存就不再随序列增长了,理论上。 现在在验证什么 Phase 3 正在跑 7 组对照实验,核心是三个假设: H1:几何结构本身有价值?还是优势只来自正交约束? H2:等变分量有独立贡献?还是只是维度更高的效果? H3:主动遗忘( Eraser )在长序列上是否真正控制了信息熵? 结果还没出来,不确定。可能证明这个方向有用,也可能证明正交约束解释了大部分,那也是有价值的结论。 我觉得有意思的地方 就算 Phase 3 结论不好看,有几件事还是有点意思的: grade-0 不变性是数学定理,不是工程近似。这个性质本身就和现有的一切 embedding 方案都不一样。 "主动遗忘"这个概念在 LLM 里几乎没有——残差只加不减,信息只进不出。Eraser 是第一个在神经网络推理层做选择性状态清除的东西(至少我没找到先例)。 如果不变核和等变分量真的有语义分工,可解释性会比现在好很多——你可以直接问"这个 token 的核心语义是什么",而不是反向工程激活值。 没解决的问题 在真实语言任务上到底能不能超过 transformer ,Phase 3+4 才能回答 Eraser 的衰减率怎么设,Phase 2 发现初始化太小根本看不到效果 多通道的通道数 C 怎么选才合理 这套结构在 GPU 上怎么高效实现(目前用的 PyTorch 原生,慢) 代码和数据在这里: https://github.com/val1813/BIIC 实验数据持续更新 好了 大家讨论技术勿喷 等我领了图灵奖 我来给大家散花
这是一个配合 Claude 使用的轻量工具。 做复杂设计时,Claude 常会一次性抛出几十条需要澄清的约束和选型问题。如果直接在 CLI 里逐条回复,既容易让上下文爆炸,也不利于边想边改和与AI讨论。 该程序的流程是:先让 Claude 把所有问题整理成一份结构化的 Markdown 文档,离开会话;然后把这份文档喂给这个小工具,它会把每一条问题渲染成独立的回答卡片,你可以在本地从容思考、随时保存、分次填写,答完后导出成 Markdown 再整体交还给 Claude 继续推进。这种硬编码也算是一种低成本、快速的实现方式 示例: Claude对我的拷打: 以下是具体提示词: 目标 基于一份 Markdown 文档里提出的一系列问题,构建一个前端问卷工具,让用户可以逐条、从容地回答文档中的每一个问题,并能导入 / 导出 / 持久化回答。 数据来源 输入是一份 Markdown 文档,里面按「分组 → 小问题」的层级包含大量提问 需要严格忠实地把文档里的每一个问题抽取出来,保留: 所属分组(及分组标题、分组说明) 每题的小标题 / 话题 每题的原始问题文案(一字不改,包括多问号合并的条目) 顺序、数量、措辞都要与原文一致;不允许合并、拆分或改写 页面功能 1. 内容展示 顶部是固定标题栏,显示:工具名、总题数、分组数 左侧目录:列出所有分组,点击可锚点跳转到对应分组;每个分组旁标出该组题数 主区域按分组依次呈现问题卡片,每组前有大标题与说明 2. 单题卡片 每一道问题独立一张卡片,至少包含: 全局题号(#1、#2 … 按整体顺序连续编号) 话题标签(小标题) 问题原文(完整、可换行) 一个多行文本输入框用于回答,可自由拉伸 实时字数统计 「已回答 / 未回答」状态徽标(有内容即视为已回答) 单题「清空」按钮 3. 进度反馈 顶部展示整体进度:已回答 / 总题数(百分比) 配合一条可视化进度条 每个分组显示该组内部进度 已答 / 总题 4. 本地持久化 回答自动保存,无需点按钮 关闭标签页、刷新页面、重启浏览器后重新打开,回答仍然存在 存储方式:优先写入项目目录下的一个 JSON 文件;当这条路不可用(例如脱离开发环境)时,自动降级使用浏览器本地缓存,保证任何情况都不丢数据 启动时自动从存储里恢复上次的回答 5. 退出 / 关闭保存 提供一个「退出」按钮:点击后先强制把当前回答同步落盘,再尝试关闭标签页 用户直接关闭标签页、刷新、切后台时,也要尽最大努力把最新回答写回项目目录的 JSON 文件(不能只依赖自动保存的节流间隔) 6. 手动保存 提供一个「保存」按钮,允许用户随时主动触发一次落盘 保存结果以状态文字反馈:保存中 / 已保存到文件 / 仅浏览器缓存 7. 导出 导出为 Markdown:结构化输出,含工具名、导出时间、进度、每题的原问题和我的回答;未回答的题要明确标注「未回答」 导出为 JSON:机器可读格式,包含完整的分组、题目元数据和回答,便于再次导入 复制 Markdown 到剪贴板 8. 导入 提供「导入」按钮,可读取本地 JSON 文件,把其中的回答恢复到当前页面 兼容两种格式:本工具自身导出的 JSON、以及扁平的 {题目id: 回答} 结构 导入前给出「将覆盖当前所有回答」的确认提示 9. 重置 提供「重置」按钮,一次清空所有回答,带二次确认 10. 状态与反馈 顶栏实时显示存储状态:从项目文件恢复 / 从浏览器缓存恢复 / 保存中 / 已保存 / 仅本地缓存 显式操作(保存、导入、清空、复制等)用轻量 toast 气泡反馈结果 视觉与交互 亮色主题,白底浅灰卡片、蓝色强调色、清爽排版 字体、间距克制,优先可读性 问题文案允许换行,文本框可上下拉伸 响应式:窄屏下侧边栏和操作按钮能自动换行、垂直堆叠 边界与约束 不依赖任何后端服务或第三方 SaaS 不引入额外重型依赖,只借助开发环境本身提供的能力即可完成「写入项目目录」这一点 存储格式简单可读(JSON),方便用户直接打开文件查看、手工编辑、纳入版本控制 1 个帖子 - 1 位参与者 阅读完整话题
XMind做头脑风暴太多限制了,Notion和Obsidian又太适合做头脑风暴,一直想要一个自由度比较高,使用起来方便的工具。求人不如求己,于是我自己做了这个工具,把想法直接以便签的形式记录。感兴趣的朋友来玩玩 https://tagwall.top/ 3 个帖子 - 2 位参与者 阅读完整话题
结果用了ai编程软件后, 这方案不行, 你去做十次头脑风暴再给我方案 还有呢?还有呢?还有呢?还有呢?还有呢?还有呢?还有呢?还有呢?还有呢?还有呢? 我不懂, 你来搞 别让我动手, 你自己搞 少说这些废话, 赶紧干 不行, 再出一稿 不行, 再出一稿 不行, 再出一稿 不行, 再出一稿 不行, 再出一稿 不行, 再出一稿 不行, 再出一稿 不行, 再出一稿 不行, 再出一稿 不行, 再出一稿 不行, 再出一稿 不行, 再出一稿 , 你这都搞的啥, 把第一稿重新发来看看 2 个帖子 - 2 位参与者 阅读完整话题