WWW.YOUINFO.SITE
标签聚合 数百

/tag/数百

LinuxDo 最新话题 · 2026-06-10 10:52:15+08:00 · tech

今早在 X 上看到不少案例:有人仅用几十到数百美元,就复现出了大型游戏公司级别的 3D 游戏效果。 我刚刚也亲自体验了一下,确实感觉相当惊艳,甚至已经足以替代绝大多数人的部分工作…… 从个人角度看,Fable 5 的使用成本可能并不低;但对公司而言,这个成本其实比较划算吧?高经验员工 + AI,然后裁掉实习生,CS 之后是否会步土木的后尘???佬友怎么看? 2 个帖子 - 2 位参与者 阅读完整话题

cnBeta全文版 · 2026-06-09 19:05:11+08:00 · tech

微软正于中国内地的 Azure 云计算部门裁撤数百名员工,在华业务迎来两年内至少第三轮缩减,同时也凸显中美双方围绕跨境数据流动日益收紧的监管环境。据多名员工透露,北京和上海部分 Azure 团队成员上周收到内部邮件,被通知其岗位将被终止。 两名消息人士估计,本轮裁员涉及约 200 至 400 名员工,这些员工将于 7 月 6 日正式离职,并按在职年限获得赔偿,同时最多可获相当于 7 个月工资的补偿。部分员工被提供调往加拿大的内部转岗机会。 据受影响员工介绍,此次调整主要集中在微软中国的 Azure 云业务线,其他部门如 DevDiv 开发者工具部门、微软亚洲软件技术中心以及分布在上海和苏州的微软 AI 团队目前尚未受到波及。微软方面在回复南华早报的邮件中表示,作为全球业务管理的一部分,公司向符合条件的员工提供了可选择的内部转岗机会,并强调微软将继续专注于服务客户及推动全球业务增长。 本轮裁撤是微软中国云业务持续收缩的一环。去年 10 月,微软已在中国内地对 Azure 团队进行过一次裁员,同时向部分员工提供赴澳大利亚等地的调岗机会。更早前在 2024 年,微软向中国境内从事人工智能与 Azure 相关工作的员工发出邀请,鼓励其选择赴美国、澳大利亚、爱尔兰等海外办公室工作,并当时重申其对中国市场的长期承诺。再往前的 2023 年,微软还将部分中国顶尖 AI 研究人员调往加拿大温哥华新设立的实验室,并确认该机构将从包括中国在内的全球办公室调配人才。 除了云与 AI 业务的人才与组织调整,微软在中国的线下零售网络也经历了明显收缩。2024 年,公司关闭了在中国内地的授权实体零售门店,将销售渠道全面转向线上以及少数第三方零售合作伙伴。一系列举措表明,微软正通过裁员、调岗与渠道调整等方式,在中国市场重新配置资源与风险敞口。 微软的这一轮再组织发生在中美两国对于跨境数据流动监管同步趋严的背景之下。美国司法部去年实施了“数据安全计划”,限制美国机构向包括中国在内的“关注国家”的员工、供应商及投资方传输特定类型的敏感数据集。与此同时,中国也在持续完善自身的数据治理框架,自 2021 年起陆续出台并实施《数据安全法》《个人信息保护法》等法规,加强对关键信息基础设施、重要数据以及个人信息跨境流动的管控。在双重监管压力之下,跨国科技企业在中国的云计算和数据相关业务面临更复杂的合规与运营挑战,微软在华云业务的持续调整被视为这一趋势的具体体现。 查看评论

IT之家 · 2026-06-09 07:52:26+08:00 · tech

IT之家 6 月 9 日消息,Game Pass 价格上调 50%,对 Xbox 品牌造成了严重冲击。现任首席执行官阿莎・夏尔马表示,这项业务目前仍未恢复健康。 去年,微软做出了游戏行业史上最不得人心的决策之一:将 Game Pass Ultimate 月费从 20 美元上调至 30 美元。涨价后,Game Pass 用户数量大幅锐减,数百万玩家退订、不再续费。 Xbox 新任首席战略官马修・鲍尔向 The Game Business 证实了这一意料之中的情况,他表示此次大幅涨价导致微软流失了数百万名 Game Pass 订阅用户。文中并未公布当前最新订阅数据,但截至 2024 年 2 月,该服务订阅用户数为 3400 万;2025 年 6 月的最新数据显示,用户数增至 3500 万。 鲍尔在采访中称:“阿莎明确表示,我们目前的业务状况并不健康,同时我们也正在着手扭转局面。” Game Pass 的运营难题积重难返。尽管该服务单年营收接近 50 亿美元(IT之家注:现汇率约合 339.67 亿元人民币),但从微软长期软件发行布局来看,想要真正实现盈利,眼下仍需进一步扩充订阅用户规模。 Xbox 新任首席执行官阿莎・夏尔马已迅速针对 Game Pass 推出调整措施。首先,官方将每月 30 美元的高价下调至更为亲民的 23 美元,但代价是《使命召唤》系列游戏不再同步登陆 Game Pass。 微软规划中最彻底的一项调整,是重新回归 Xbox 主机独占游戏策略。微软曾在 2024 年放弃独占政策,多款游戏因此实现数百万份销量;如今公司再度转向主机独占路线,不过现阶段相关布局规模尚小。目前已有两款游戏确认为 Xbox 主机独占作品:《战争机器:事变日》与《发条革命》。种种迹象表明,微软未来有望每年至少推出一款 Xbox 主机独占游戏。

IT之家 · 2026-06-07 08:58:29+08:00 · tech

IT之家 6 月 7 日消息,据英国《金融时报》当地时间周五报道,Meta 正考虑通过股票发行募资数百亿美元,为其人工智能业务布局提供资金支持。 此前,谷歌母公司 Alphabet 已通过超额配售的股票发行筹集了 847.5 亿美元(IT之家注:现汇率约合 5755.9 亿元人民币)。各大科技巨头争相建设数据中心,抢抓人工智能市场增长机遇。 《金融时报》援引三位知情人士消息称,随着计划大幅增加人工智能相关开支,Meta 管理层一直在探索各类灵活的募资方式。 报道还表示,受本周 Alphabet 股权融资顺利落地的影响,Meta 内部相关讨论也愈发密集。 消息传出后,这家社交媒体巨头股价下跌 6.6%。 全球头部科技企业如今越来越多地借助债权和股权市场,为人工智能基础设施建设输血,一改以往主要依靠自有现金开展投资的传统模式。 去年 10 月,Meta 推出史上最大规模债券发行计划,募资上限达 300 亿美元,同时还与 Blue Owl Capital 达成了 270 亿美元的融资协议。 今年 4 月,这家 Facebook 和 Instagram 的母公司将全年资本支出预期上调至 1250 亿至 1450 亿美元。 报道补充道,Meta 目前尚未聘请承销银行,最终也有可能放弃增发股票。现阶段断言公司已敲定方案还为时过早,所有融资方式都仍在考量范围内。

cnBeta全文版 · 2026-06-04 21:35:07+08:00 · tech

随着各国运动员与数百万球迷备战下周揭幕的国际足联世界杯,全球卫生官员也迎来一场高难度防疫大考:严防各类传染病扩散。本届赛事首次由美国、加拿大、墨西哥三国共 16 座城市联合承办,参赛球队扩容至 48 支,成为世界杯历史上参赛规模之最。赛事筹办之际,刚果、乌干达正暴发埃博拉疫情,世界卫生组织已将其划定为 国际关注的突发公共卫生事件 。 2026 年 5 月 21 日,美国纽约哥伦布圆环购物中心挂起世界杯宣传标牌。 尽管疫情悬于海外,但传染病专家在接受 CNBC 采访时表示,世界杯期间埃博拉大范围蔓延的概率很低。即便美国联邦关键公共卫生机构经历过大规模预算削减、特朗普政府时期美国曾退出世卫组织,各地卫健部门、医疗机构的应急处置储备依旧充足。 加州大学欧文分校流行病学与感染预防副主任施鲁蒂・戈希尔博士:“我对埃博拉、汉坦病毒的担忧有限。风险并非完全为零,但概率极低,这类病毒并不容易实现人际传播。” 专家指出,相比埃博拉,数日内辗转多个赛场、多座城市的跨国游客,更容易助推高传染性疫病暴发,这类疾病才是今夏大型赛事的头号防疫难点。 首要风险为麻疹 —— 全球传染性最强的传染病之一,其次是新冠、流感等呼吸道病毒。2025 年美国麻疹确诊病例创下数十年新高,疫苗犹豫、全民接种率下滑是重要诱因。另有专家提醒:登革热等虫媒病毒、高温中暑、食源性疾病同样是赛事期间不可忽视的健康隐患。 美国各地依托污水监测等成熟防疫项目,并新增多种疫病追踪手段备战世界杯;整套监测系统将于 6 月 11 日赛事揭幕迎来首次实战大考,公共卫生负责人称各项筹备已全部就绪。 休斯顿市卫生局局长特蕾莎・特兰博士:“公共卫生如同隐形防护屏障,搭建这套全天候运转的防护网需要海量投入,我们默默付出,只为让球迷安心观赛、身处赛场时享有完善的健康保障。我们为这套防疫体系倍感自豪,全员日复一日全力筹备本次赛事。” 埃博拉本土传播风险有限 2026 年 6 月 2 日,刚果穆尼吉埃博拉诊疗中心,无国界医生医护身着全套防护装备在隔离红区巡查病患、诊疗护理、保障院区消杀。当日,刚果一处人道主义救援专用机场重新开放,当地疑似病例数据出现回落。 世卫组织数据显示,刚果与乌干达已确诊超 260 例埃博拉,另有 1100 余例疑似病例待排查;本轮流行的邦迪布焦亚型埃博拉致死率偏高,暂无获批特效药与对应疫苗。但截至本周三,美国境内暂无埃博拉确诊病例。 约翰・霍普金斯大学布隆伯格公共卫生学院客座副教授阿梅什・阿达贾解释:埃博拉只能通过密切接触发病患者体液、血液实现传染。感染者发病后身体状况极差,大多居家或入院治疗,基本不会前往大型集会场所。 “它不属于呼吸道传播病毒,不会在无体液接触的密集人群中扩散,因此客观上很难威胁本届世界杯。” 不过美国联邦及地方卫健部门仍落实全套埃博拉防控预案: 美国疾控中心(CDC)升级入境管控,过去 21 天到访过刚果、乌干达、南苏丹的入境人员,必须经由亚特兰大、休斯顿、纽约、华盛顿特区指定口岸入境,落地后统一接受入境健康筛查。入境核验包含行程问询、体温检测、留存联系方式,后续由属地卫健部门随访;相关人员还要完成完整 21 天潜伏期健康监测,并非仅落地当日检查。 堪萨斯城(世界杯承办城市)卫生局局长玛维娅・琼斯介绍,境外疫区人员入境信息会同步推送至属地卫健部门,全程追踪健康状况。 得州达拉斯郡承办世界杯赛事,当地卫健部门联动急救机构与定点医院,划定收治医院、完善院感流程、筹备特种转运车辆,确保出现疑似症状的旅客能安全送医;当地还复盘 2014 年达拉斯埃博拉处置经验,面向医护开展专项培训,重点强化旅居史问询、症状识别、病患隔离转运、密接追踪、防护装备规范使用等实操能力。郡卫生局长菲尔・黄坦言,本土过往防疫经历让埃博拉成为当地重点防范病种。 国际足联在声明中表示,持续紧盯埃博拉疫情动态,同步协调美加墨三国政府保障赛事安全,并专门向刚果、南苏丹、乌干达的持票球迷推送出行风险提示。 麻疹与呼吸道疾病成防疫重心 费城卫生局通讯主管詹姆斯・加罗称, 麻疹是本届世界杯防疫头号隐患 ,传染性极强。“全球多国接连出现麻疹暴发,乘客共处一架飞机短短一两小时,就可能造成跨地域病毒扩散。” 费城作为承办城市,重点强化医护麻疹快速甄别、跨部门联防处置能力;跨国游客短时间多地辗转,大幅提升病毒跨区域传播概率。 美国疾控数据:2025 年美国麻疹确诊超 2100 例,创 1991 年以来新高,全美 45 个行政区共暴发 48 起疫情(2024 年仅 16 起)。美国早在 2000 年就宣告消除本土麻疹,但疫苗谣言泛滥、接种率逐年走低导致病例反弹;去年超 93% 确诊患者未接种或疫苗接种史不明。 休斯顿卫健负责人特兰补充,全美疫苗覆盖率下降背景下,新冠、流感等空气传播类呼吸道疫病扩散风险同步抬升:“依靠飞沫空气传播的特性,让这类病毒的公共卫生威胁远大于埃博拉。休斯顿常驻流行病学团队全程盯防各类可通过疫苗预防的传染病,随时启动密接追踪。” 加州圣克拉拉郡(旧金山近郊,承办赛事)副卫生长官莫妮卡・罗伊提到,诺如病毒、各类食源性疾病、高温中暑、性传播疾病同样列入赛事防控清单;当地严格核查所有赛事周边餐饮摊贩的经营许可。休斯顿组建持证卫生稽查队伍,随时处置群体性食物中毒;结合本地高湿气候,大范围开展高温防暑科普宣传。 全域升级传染病监测体系 乔治城大学全球卫生安全中心负责人丽贝卡・卡茨博士表示,叠加美国公共卫生经费削减、2025 年初特朗普政府裁撤约一成疾控在编人员、美国退出世卫组织等背景,本届世界杯的防疫挑战更复杂,跨国疫情信息互通机制承压。目前美国疾控中心主任、军医局局长两个关键岗位长期空缺,直接影响全国突发公卫事件统筹调度。 即便经费与人力收缩,美国疾控仍依托白宫世界杯专项工作组统筹全国防疫,对接各承办城市卫健部门与合作机构;专属世界杯疫病数据看板进入最终调试阶段,方便各州实时查阅全域传染病走势。 为填补防疫资源缺口,卡茨 5 月牵头成立健康安全运营中心(隶属乔治城大学与梅德斯塔健康共建的全国健康韧性中心),自本周起每日向全美数百个地方卫健部门、联邦机构、赛事组委会、医院急诊科推送全球疫病快报;该中心同步参与泛美卫生组织(世卫美洲分支机构)每日线上会议,同步美、加、墨三国疫情数据。 各承办城市落地本地化监测升级: 污水流行病学监测 :达拉斯扩增污水采样点位实现全郡覆盖,新增宏基因组测序技术,从污水中全面检出细菌、病毒、真菌,突破单一病原体筛查局限;同时强化蚊虫监测,除本土流行的西尼罗河病毒外,重点排查登革热、基孔肯雅热、寨卡等输入性病媒传染病。 移动检测实验室 :费城启用全新车载移动检验舱,就地完成样本化验,省去标本跨区域送检流程,补强偏远片区检测能力。 纽约大学朗格尼医学中心儿科流行病学家玛格丽特・奥尔德里奇总结:“针对高致死性传染病,美国现有防疫体系完备度创下历史新高,各地卫健部门持续坚守一线,日常工作默默无闻,恰是公共卫生行业的特点。” 查看评论

IT之家 · 2026-06-03 23:56:58+08:00 · tech

IT之家 6 月 3 日消息,据彭博社报道,根据最新的公开财务披露文件,美国政府中至少有 10 名官员申报持有 SpaceX 或 xAI 相关资产。 统计显示,这些联邦官员持有的 SpaceX 或 xAI 股票总价值在 990 万美元(IT之家注:现汇率约合 6710.8 万元人民币)至 4380 万美元(现汇率约合 2.97 亿元人民币)之间。由于私人公司持股属于豁免范围,这些官员在此之后可能已出售全部或部分持股,且无需触发额外的披露要求。 例如,内政部首席信息官保罗 · 麦金纳尼(Paul McInerny)是一名前 SpaceX 工程师,他报告的 SpaceX 持股规模在所有人中最高,价值在 500 万至 2500 万美元之间。文件显示他无需剥离股份,而是获得了伦理豁免,可以参与可能影响该公司的广泛议题。 另外,上个月接替杰罗姆 · 鲍威尔出任美联储主席的凯文 · 沃什(Kevin Warsh),通过杜肯家族办公室关联的一只基金间接持有 SpaceX。不过,他在一份伦理文件中表示将在就任前剥离该基金。美联储对此拒绝置评。 SpaceX 计划最早于下周开启 IPO。若实现至少 1.8 万亿美元(现汇率约合 12.2 万亿元人民币)的估值目标,马斯克将成为全球首位万亿富豪,同时公司内部多人也将成为亿万富翁,旗下员工也能获得数百万美元的财富。 相关阅读: 《 马斯克 SpaceX 加速 IPO 进程:目标 6 月 12 日登陆纳斯达克,有望创史上最大 IPO 》

cnBeta全文版 · 2026-05-30 14:36:34+08:00 · tech

据报道,一起针对特斯拉FSD(完全自动驾驶)功能的集体诉讼案近日在北京市大兴区人民法院一审开庭。 10名中国车主以虚假宣传、消费欺诈为由将特斯拉告上法庭,索赔金额合计395万余元。 报道称,原告方代理律师、北京圣运律师事务所创始人王有银透露,庭审中双方围绕特斯拉FSD功能是否达到其宣传的“完全自动驾驶能力 " 展开举证辩论。 原告方认为,特斯拉明知其宣传的“完全自动驾驶”功能未获中国监管部门批准,无法实现其宣传的核心功能,并隐瞒硬件技术缺陷,进行误导性宣传,诱使原告购买,其行为符合欺诈的构成要件。 据了解,此次联合起诉的10名车主中,9人要求就FSD功能本身退一赔三,即退还FSD购买费用并支付三倍赔偿金;另有一名车主主张整车“退一赔三”,理由是完全自动驾驶能力是其购车的唯一、决定性因素。10名车主索赔金额共计395万余元。 庭审中, 特斯拉方主张FSD功能“现在已经实现”或部分实现,并称后续功能仍在研发中。 该案此前已历经波折。2025年8月,首批7名车主起诉特斯拉FSD欺诈案在北京市大兴区人民法院批量立案,原定于2025年11月开庭,但因特斯拉方提出管辖权异议导致开庭取消。此后起诉车主人数增至约10人,案件最终进入一审庭审。 车主们的不满主要集中在两点:一是特斯拉在销售时承诺的“完全自动驾驶”功能至今未能在中国落地,FSD入华后仅以智能辅助驾驶的名称推送,且仅适配搭载HW4.0硬件的部分车型,配备HW3.0的车辆不在推送范围内; 二是部分车主早在2019年就以5.6万至6.4万元的价格购买了FSD功能,等待多年仍未获得承诺的核心体验,而特斯拉销售人员曾声称“很快就能使用”。 这并非特斯拉在全球范围内因FSD宣传面临的唯一法律挑战。 美国加州一位联邦法官此前裁定,特斯拉将面临一项集体诉讼,车主称马斯克八年来一直在电动汽车自动驾驶能力方面误导消费者。 查看评论

IT之家 · 2026-05-27 09:12:31+08:00 · tech

IT之家 5 月 27 日消息,据彭博社北京时间昨晚报道,消息人士向该媒体透露 Qualcomm(高通)已与字节跳动 (ByteDance) 围绕 AI ASIC 达成了一份合作协议: 字节跳动将向高通采购数百万颗定制芯片 ,为其 AI 服务提供算力支持。 另一消息人士表示,这笔交易 将帮助字节跳动将已完成的内部芯片设计转变为生产就绪的半导体 。 IT之家注意到, 高通在四月末表示将在今年向某超大规模云服务商交付首款 ASIC ,而分析师 @jukan05 曾在上周表示字节跳动和 Amazon(亚马逊)是高通的 ASIC 设计服务客户。

IT之家 · 2026-05-21 13:26:45+08:00 · tech

IT之家 5 月 21 日消息,在牛津大学公开演讲时, Anthropic 联合创始人杰克 · 克拉克(Jack Clark)发表预测,勾勒了未来 2 年的 AI 进化时间表。 克拉克是全球顶尖人工智能实验室 Anthropic 的联合创始人兼政策主管(Policy Chief),现兼任公共利益长(Head of Public Benefit)。 克拉克用“进展快到令人眩晕”形容当下 AI 演化速度,并强调这不是单一技术节点的变化,而是科研、商业、机器人和产业组织方式同步跃迁。IT之家附上他在牛津大学演讲时预测进化情况如下: 未来 12 个月内,AI 将与人类合作产出诺贝尔奖级发现; 2 年内,双足机器人将辅助技工; 18 个月内,纯 AI 运营公司将创造数百万美元营收; 到 2028 年底,AI 系统或可设计自己的继任者。 他还表示,从人类整体利益看,若能放慢 AI 研发速度,会给社会更多时间理解,以及有更充裕时间应对其影响,但现实并不乐观。 不同公司与不同国家正处在高强度竞争中,商业利益与地缘政治博弈正在压过更宏观的生存性议题。因此,他直言这种发展状态“并不理想”,但大概率不会自动减速。 杰克 · 克拉克(Jack Clark),图源:Import AI

IT之家 · 2026-05-20 17:39:59+08:00 · tech

IT之家 5 月 20 日消息,据路透社报道,当地时间周二,德国汽车零部件巨头采埃孚宣布作出决定:继续自研并生产电动机,但为了提升竞争力,后续还将 继续推进新一轮裁员 ,规模预计达到数百人。 过去几年,欧洲车企与供应链企业持续加码新能源技术投资,但电动汽车市场增长速度 一度低于行业预期 。不过,当前市场需求已经开始逐渐回暖。 采埃孚此前已经在 去年 10 月敲定 7600 人裁员计划 。作为业务重组的一部分,采埃孚近期还与员工代表评估,是否继续保留电动机与逆变器的自主生产体系,或是选择改为外部采购。最终,采埃孚选择 继续保留自产模式 。而为了维持成本竞争力,企业仍需要进一步缩减人员规模,并尽量避免强制性裁员。 据IT之家了解,采埃孚发言人透露,位于德国南部的施韦因富特与奥尔巴赫工厂将裁减数百个岗位。目前,两座工厂员工总数超过 1000 人。

IT之家 · 2026-05-15 16:11:35+08:00 · tech

IT之家 5 月 15 日消息,今日,阿里旗下千问 App 宣布与国家药监局信息中心正式达成合作,接入数百万份药品、化妆品、医疗器械数据。 据官方介绍,接入权威数据后,千问在回答用药相关问题时, 将对照更加可靠的用药指导数据 ,把用药细节理清楚。针对药品是否靠谱,有哪些副作用等问题,千问还可以帮消费者核对国家审批信息,一眼辨明真伪、避开假货,还能智能提示潜在的不良反应。再结合消费者的身体情况,它也能分析用药禁忌、判断药对不对症。 不只是药品,消费者在国内买到的化妆品, 都要向国家药监局“备案”或“注册” 。基于本次合作,千问对化妆品也更精通了。无论是护肤品、彩妆、护发防脱、防晒还是香水,消费者想鉴别真伪、了解成分、搞清楚适不适合自己,都支持查询。 IT之家注意到,千问正在与国家药监局信息中心加强合作,抓紧“消化”相关数据信息,并持续跟随国家药监局信息中心的数据同步更新。

V2EX - 技术 · 2026-05-12 20:25:44+08:00 · tech

做了个会议录音 → 知识库的全自动管线,开源了,来分享一下。 背景 :公司用 Plaud 录音笔积累了大量会议录音,但一直躺在那里没人整理。Plaud 自带的 AI 笔记质量一般,而且说话人都是匿名的( Speaker 1 、Speaker 2…),行动项根本没法落实到人。 做了什么 : 录音文件 → 说话人分割 → 身份具名 → AI 纪要 → Wiki 知识库 ↓ 可浏览 + 可搜索 + 可 RAG 问答 每天 22:00 cron 自动跑,0 人工干预。 最核心的部分:三阶段说话人具名漏斗 说话人识别我试过纯声纹方案,发现 CAM++ 跨录音根本不可靠——同一个人在不同录音的余弦相似度只有 0.50–0.65 ,反而不如不同人在同一录音的 0.85–0.97 。直接用声纹聚类,阈值 0.65 时同一个人被拆成 17 个簇。 最后用了三层漏斗: 优先级 方法 命中率 1 外部标签时间戳对齐(地面真相) ~95% 2 CAM++ 声纹余弦匹配(阈值 0.55 ) 填补剩余 3 LLM + 组织架构图 + 称呼惯例推断 兜底 最终 94% 片段具名率( 56,862 / 60,664 ) 。有了具名,行动项才能从"某参与人说要做某事"变成"张经理需在周五前提交报价"。 技术栈 : 说话人分割:pyannote community-1 ( GPU ,~28x 实时,比 CAM++ 分割准多了) ASR:FunASR Paraformer-large 声纹提取:CAM++ 192-dim embedding LLM:OpenAI 兼容接口( Claude / GPT / 本地 Ollama 均可) Wiki:纯 Python http.server + mistune ,零框架 中文搜索:自制 Bigram 分词,不依赖 jieba 几个踩坑记录 : pyannote 直接读 OGG 会有分割边界漂移,先 ffmpeg 转 16kHz WAV 54 分钟音频不加 VAD 直接跑 FunASR → 需要 43GB 显存 → OOM ,必须开 fsmn-vad LLM 输出 JSON 要多策略解析( strip code fence → bare JSON → trailing comma ),单一策略会静默丢结果 S3 预签名 URL 不能带 Authorization header ,得用干净 session 开源地址 : https://github.com/xclgordon/plaud-pipeline 架构文档在 docs/ architecture.md ,比较详细。 需要 NVIDIA GPU ( pyannote 分割),其他没有特殊依赖。主流程已经和 Plaud 解耦,把录音文件丢进 recordings/ 文件夹就能跑。 欢迎提问和 PR 。

V2EX - 技术 · 2026-05-12 19:25:44+08:00 · tech

做了个会议录音 → 知识库的全自动管线,开源了,来分享一下。 背景 :公司用 Plaud 录音笔积累了大量会议录音,但一直躺在那里没人整理。Plaud 自带的 AI 笔记质量一般,而且说话人都是匿名的( Speaker 1 、Speaker 2…),行动项根本没法落实到人。 做了什么 : 录音文件 → 说话人分割 → 身份具名 → AI 纪要 → Wiki 知识库 ↓ 可浏览 + 可搜索 + 可 RAG 问答 每天 22:00 cron 自动跑,0 人工干预。 最核心的部分:三阶段说话人具名漏斗 说话人识别我试过纯声纹方案,发现 CAM++ 跨录音根本不可靠——同一个人在不同录音的余弦相似度只有 0.50–0.65 ,反而不如不同人在同一录音的 0.85–0.97 。直接用声纹聚类,阈值 0.65 时同一个人被拆成 17 个簇。 最后用了三层漏斗: 优先级 方法 命中率 1 外部标签时间戳对齐(地面真相) ~95% 2 CAM++ 声纹余弦匹配(阈值 0.55 ) 填补剩余 3 LLM + 组织架构图 + 称呼惯例推断 兜底 最终 94% 片段具名率( 56,862 / 60,664 ) 。有了具名,行动项才能从"某参与人说要做某事"变成"张经理需在周五前提交报价"。 技术栈 : 说话人分割:pyannote community-1 ( GPU ,~28x 实时,比 CAM++ 分割准多了) ASR:FunASR Paraformer-large 声纹提取:CAM++ 192-dim embedding LLM:OpenAI 兼容接口( Claude / GPT / 本地 Ollama 均可) Wiki:纯 Python http.server + mistune ,零框架 中文搜索:自制 Bigram 分词,不依赖 jieba 几个踩坑记录 : pyannote 直接读 OGG 会有分割边界漂移,先 ffmpeg 转 16kHz WAV 54 分钟音频不加 VAD 直接跑 FunASR → 需要 43GB 显存 → OOM ,必须开 fsmn-vad LLM 输出 JSON 要多策略解析( strip code fence → bare JSON → trailing comma ),单一策略会静默丢结果 S3 预签名 URL 不能带 Authorization header ,得用干净 session 开源地址 : https://github.com/xclgordon/plaud-pipeline 架构文档在 docs/ architecture.md ,比较详细。 需要 NVIDIA GPU ( pyannote 分割),其他没有特殊依赖。主流程已经和 Plaud 解耦,把录音文件丢进 recordings/ 文件夹就能跑。 欢迎提问和 PR 。

V2EX - 技术 · 2026-05-12 19:25:44+08:00 · tech

做了个会议录音 → 知识库的全自动管线,开源了,来分享一下。 背景 :公司用 Plaud 录音笔积累了大量会议录音,但一直躺在那里没人整理。Plaud 自带的 AI 笔记质量一般,而且说话人都是匿名的( Speaker 1 、Speaker 2…),行动项根本没法落实到人。 做了什么 : 录音文件 → 说话人分割 → 身份具名 → AI 纪要 → Wiki 知识库 ↓ 可浏览 + 可搜索 + 可 RAG 问答 每天 22:00 cron 自动跑,0 人工干预。 最核心的部分:三阶段说话人具名漏斗 说话人识别我试过纯声纹方案,发现 CAM++ 跨录音根本不可靠——同一个人在不同录音的余弦相似度只有 0.50–0.65 ,反而不如不同人在同一录音的 0.85–0.97 。直接用声纹聚类,阈值 0.65 时同一个人被拆成 17 个簇。 最后用了三层漏斗: 优先级 方法 命中率 1 外部标签时间戳对齐(地面真相) ~95% 2 CAM++ 声纹余弦匹配(阈值 0.55 ) 填补剩余 3 LLM + 组织架构图 + 称呼惯例推断 兜底 最终 94% 片段具名率( 56,862 / 60,664 ) 。有了具名,行动项才能从"某参与人说要做某事"变成"张经理需在周五前提交报价"。 技术栈 : 说话人分割:pyannote community-1 ( GPU ,~28x 实时,比 CAM++ 分割准多了) ASR:FunASR Paraformer-large 声纹提取:CAM++ 192-dim embedding LLM:OpenAI 兼容接口( Claude / GPT / 本地 Ollama 均可) Wiki:纯 Python http.server + mistune ,零框架 中文搜索:自制 Bigram 分词,不依赖 jieba 几个踩坑记录 : pyannote 直接读 OGG 会有分割边界漂移,先 ffmpeg 转 16kHz WAV 54 分钟音频不加 VAD 直接跑 FunASR → 需要 43GB 显存 → OOM ,必须开 fsmn-vad LLM 输出 JSON 要多策略解析( strip code fence → bare JSON → trailing comma ),单一策略会静默丢结果 S3 预签名 URL 不能带 Authorization header ,得用干净 session 开源地址 : https://github.com/xclgordon/plaud-pipeline 架构文档在 docs/ architecture.md ,比较详细。 需要 NVIDIA GPU ( pyannote 分割),其他没有特殊依赖。主流程已经和 Plaud 解耦,把录音文件丢进 recordings/ 文件夹就能跑。 欢迎提问和 PR 。

V2EX - 技术 · 2026-05-12 18:25:44+08:00 · tech

做了个会议录音 → 知识库的全自动管线,开源了,来分享一下。 背景 :公司用 Plaud 录音笔积累了大量会议录音,但一直躺在那里没人整理。Plaud 自带的 AI 笔记质量一般,而且说话人都是匿名的( Speaker 1 、Speaker 2…),行动项根本没法落实到人。 做了什么 : 录音文件 → 说话人分割 → 身份具名 → AI 纪要 → Wiki 知识库 ↓ 可浏览 + 可搜索 + 可 RAG 问答 每天 22:00 cron 自动跑,0 人工干预。 最核心的部分:三阶段说话人具名漏斗 说话人识别我试过纯声纹方案,发现 CAM++ 跨录音根本不可靠——同一个人在不同录音的余弦相似度只有 0.50–0.65 ,反而不如不同人在同一录音的 0.85–0.97 。直接用声纹聚类,阈值 0.65 时同一个人被拆成 17 个簇。 最后用了三层漏斗: 优先级 方法 命中率 1 外部标签时间戳对齐(地面真相) ~95% 2 CAM++ 声纹余弦匹配(阈值 0.55 ) 填补剩余 3 LLM + 组织架构图 + 称呼惯例推断 兜底 最终 94% 片段具名率( 56,862 / 60,664 ) 。有了具名,行动项才能从"某参与人说要做某事"变成"张经理需在周五前提交报价"。 技术栈 : 说话人分割:pyannote community-1 ( GPU ,~28x 实时,比 CAM++ 分割准多了) ASR:FunASR Paraformer-large 声纹提取:CAM++ 192-dim embedding LLM:OpenAI 兼容接口( Claude / GPT / 本地 Ollama 均可) Wiki:纯 Python http.server + mistune ,零框架 中文搜索:自制 Bigram 分词,不依赖 jieba 几个踩坑记录 : pyannote 直接读 OGG 会有分割边界漂移,先 ffmpeg 转 16kHz WAV 54 分钟音频不加 VAD 直接跑 FunASR → 需要 43GB 显存 → OOM ,必须开 fsmn-vad LLM 输出 JSON 要多策略解析( strip code fence → bare JSON → trailing comma ),单一策略会静默丢结果 S3 预签名 URL 不能带 Authorization header ,得用干净 session 开源地址 : https://github.com/xclgordon/plaud-pipeline 架构文档在 docs/ architecture.md ,比较详细。 需要 NVIDIA GPU ( pyannote 分割),其他没有特殊依赖。主流程已经和 Plaud 解耦,把录音文件丢进 recordings/ 文件夹就能跑。 欢迎提问和 PR 。

V2EX - 技术 · 2026-05-12 18:13:29+08:00 · tech

做了个会议录音 → 知识库的全自动管线,开源了,来分享一下。 背景 :公司用 Plaud 录音笔积累了大量会议录音,但一直躺在那里没人整理。Plaud 自带的 AI 笔记质量一般,而且说话人都是匿名的( Speaker 1 、Speaker 2…),行动项根本没法落实到人。 做了什么 : 录音文件 → 说话人分割 → 身份具名 → AI 纪要 → Wiki 知识库 ↓ 可浏览 + 可搜索 + 可 RAG 问答 每天 22:00 cron 自动跑,0 人工干预。 最核心的部分:三阶段说话人具名漏斗 说话人识别我试过纯声纹方案,发现 CAM++ 跨录音根本不可靠——同一个人在不同录音的余弦相似度只有 0.50–0.65 ,反而不如不同人在同一录音的 0.85–0.97 。直接用声纹聚类,阈值 0.65 时同一个人被拆成 17 个簇。 最后用了三层漏斗: 优先级 方法 命中率 1 外部标签时间戳对齐(地面真相) ~95% 2 CAM++ 声纹余弦匹配(阈值 0.55 ) 填补剩余 3 LLM + 组织架构图 + 称呼惯例推断 兜底 最终 94% 片段具名率( 56,862 / 60,664 ) 。有了具名,行动项才能从"某参与人说要做某事"变成"张经理需在周五前提交报价"。 技术栈 : 说话人分割:pyannote community-1 ( GPU ,~28x 实时,比 CAM++ 分割准多了) ASR:FunASR Paraformer-large 声纹提取:CAM++ 192-dim embedding LLM:OpenAI 兼容接口( Claude / GPT / 本地 Ollama 均可) Wiki:纯 Python http.server + mistune ,零框架 中文搜索:自制 Bigram 分词,不依赖 jieba 几个踩坑记录 : pyannote 直接读 OGG 会有分割边界漂移,先 ffmpeg 转 16kHz WAV 54 分钟音频不加 VAD 直接跑 FunASR → 需要 43GB 显存 → OOM ,必须开 fsmn-vad LLM 输出 JSON 要多策略解析( strip code fence → bare JSON → trailing comma ),单一策略会静默丢结果 S3 预签名 URL 不能带 Authorization header ,得用干净 session 开源地址 : https://github.com/xclgordon/plaud-pipeline 架构文档在 docs/ architecture.md ,比较详细。 需要 NVIDIA GPU ( pyannote 分割),其他没有特殊依赖。主流程已经和 Plaud 解耦,把录音文件丢进 recordings/ 文件夹就能跑。 欢迎提问和 PR 。

V2EX - 技术 · 2026-05-12 18:04:50+08:00 · tech

做了个会议录音 → 知识库的全自动管线,开源了,来分享一下。 背景 :公司用 Plaud 录音笔积累了大量会议录音,但一直躺在那里没人整理。Plaud 自带的 AI 笔记质量一般,而且说话人都是匿名的( Speaker 1 、Speaker 2…),行动项根本没法落实到人。 做了什么 : 录音文件 → 说话人分割 → 身份具名 → AI 纪要 → Wiki 知识库 ↓ 可浏览 + 可搜索 + 可 RAG 问答 每天 22:00 cron 自动跑,0 人工干预。 最核心的部分:三阶段说话人具名漏斗 说话人识别我试过纯声纹方案,发现 CAM++ 跨录音根本不可靠——同一个人在不同录音的余弦相似度只有 0.50–0.65 ,反而不如不同人在同一录音的 0.85–0.97 。直接用声纹聚类,阈值 0.65 时同一个人被拆成 17 个簇。 最后用了三层漏斗: 优先级 方法 命中率 1 外部标签时间戳对齐(地面真相) ~95% 2 CAM++ 声纹余弦匹配(阈值 0.55 ) 填补剩余 3 LLM + 组织架构图 + 称呼惯例推断 兜底 最终 94% 片段具名率( 56,862 / 60,664 ) 。有了具名,行动项才能从"某参与人说要做某事"变成"张经理需在周五前提交报价"。 技术栈 : 说话人分割:pyannote community-1 ( GPU ,~28x 实时,比 CAM++ 分割准多了) ASR:FunASR Paraformer-large 声纹提取:CAM++ 192-dim embedding LLM:OpenAI 兼容接口( Claude / GPT / 本地 Ollama 均可) Wiki:纯 Python http.server + mistune ,零框架 中文搜索:自制 Bigram 分词,不依赖 jieba 几个踩坑记录 : pyannote 直接读 OGG 会有分割边界漂移,先 ffmpeg 转 16kHz WAV 54 分钟音频不加 VAD 直接跑 FunASR → 需要 43GB 显存 → OOM ,必须开 fsmn-vad LLM 输出 JSON 要多策略解析( strip code fence → bare JSON → trailing comma ),单一策略会静默丢结果 S3 预签名 URL 不能带 Authorization header ,得用干净 session 开源地址 : https://github.com/xclgordon/plaud-pipeline 架构文档在 docs/ architecture.md ,比较详细。 需要 NVIDIA GPU ( pyannote 分割),其他没有特殊依赖。主流程已经和 Plaud 解耦,把录音文件丢进 recordings/ 文件夹就能跑。 欢迎提问和 PR 。

V2EX - 技术 · 2026-05-12 17:40:25+08:00 · tech

做了个会议录音 → 知识库的全自动管线,开源了,来分享一下。 背景 :公司用 Plaud 录音笔积累了大量会议录音,但一直躺在那里没人整理。Plaud 自带的 AI 笔记质量一般,而且说话人都是匿名的( Speaker 1 、Speaker 2…),行动项根本没法落实到人。 做了什么 : 录音文件 → 说话人分割 → 身份具名 → AI 纪要 → Wiki 知识库 ↓ 可浏览 + 可搜索 + 可 RAG 问答 每天 22:00 cron 自动跑,0 人工干预。 最核心的部分:三阶段说话人具名漏斗 说话人识别我试过纯声纹方案,发现 CAM++ 跨录音根本不可靠——同一个人在不同录音的余弦相似度只有 0.50–0.65 ,反而不如不同人在同一录音的 0.85–0.97 。直接用声纹聚类,阈值 0.65 时同一个人被拆成 17 个簇。 最后用了三层漏斗: 优先级 方法 命中率 1 外部标签时间戳对齐(地面真相) ~95% 2 CAM++ 声纹余弦匹配(阈值 0.55 ) 填补剩余 3 LLM + 组织架构图 + 称呼惯例推断 兜底 最终 94% 片段具名率( 56,862 / 60,664 ) 。有了具名,行动项才能从"某参与人说要做某事"变成"张经理需在周五前提交报价"。 技术栈 : 说话人分割:pyannote community-1 ( GPU ,~28x 实时,比 CAM++ 分割准多了) ASR:FunASR Paraformer-large 声纹提取:CAM++ 192-dim embedding LLM:OpenAI 兼容接口( Claude / GPT / 本地 Ollama 均可) Wiki:纯 Python http.server + mistune ,零框架 中文搜索:自制 Bigram 分词,不依赖 jieba 几个踩坑记录 : pyannote 直接读 OGG 会有分割边界漂移,先 ffmpeg 转 16kHz WAV 54 分钟音频不加 VAD 直接跑 FunASR → 需要 43GB 显存 → OOM ,必须开 fsmn-vad LLM 输出 JSON 要多策略解析( strip code fence → bare JSON → trailing comma ),单一策略会静默丢结果 S3 预签名 URL 不能带 Authorization header ,得用干净 session 开源地址 : https://github.com/xclgordon/plaud-pipeline 架构文档在 docs/ architecture.md ,比较详细。 需要 NVIDIA GPU ( pyannote 分割),其他没有特殊依赖。主流程已经和 Plaud 解耦,把录音文件丢进 recordings/ 文件夹就能跑。 欢迎提问和 PR 。