WWW.YOUINFO.SITE
标签聚合 北京大学

/tag/北京大学

www.ithome.com · 2026-05-05 08:50:21+08:00 · tech

IT之家 5 月 5 日消息,北京大学 5 月 4 日迎来建校 128 周年,发布首部 AI 宣传片《 举火 》。 总有先行者举火破冰,于长夜中守护不灭希望。从隐姓埋名到逐梦星河,薪火跨越百余年生生不息。如今,我辈接承先辈之志,牢记殷殷嘱托,胸怀远大理想,矢志拼搏奋斗,在新征程上贡献青春力量。 视频中展示了北京大学的重要历史事件、知名校友、重要研发成果等。 IT之家查询公开资料获悉,北京大学创办于 1898 年,是戊戌变法的产物,也是中华民族救亡图存、兴学图强的结果,初名京师大学堂,是中国近现代第一所国立综合性大学,辛亥革命后,于 1912 年改为现名。 中华人民共和国成立后,全国高校于 1952 年进行院系调整,北京大学成为一所以文理基础教学和研究为主、兼有前沿应用学科的综合性大学,为社会主义建设事业培养了大批杰出人才,在 23 位“两弹一星”元勋中有 12 位北大校友。

linux.do · 2026-04-30 20:54:57+08:00 · tech

DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》,提出一种新的多模态推理框架。 该框架的核心做法是将空间标记——坐标点和边界框——提升为模型思维链中的“最小思考单元”,在推理过程中直接交织使用,使模型在"思考"的同时能够"指向"图像中的具体位置。 当前多模态大语言模型的思维链推理几乎完全在语言空间中进行。业界此前的改进方向集中在通过高分辨率裁剪等手段弥补“感知差距”(即让模型看得更清楚),但论文指出,一个更根本的瓶颈被忽视了——“引用差距”:自然语言天然无法精确、无歧义地指向连续视觉空间中的具体对象。 在密集计数、多步空间推演等任务中,模型的语言"思路"会丢失对视觉实体的追踪,导致推理逻辑崩塌并产生级联幻觉。 该模型基于DeepSeek-V4-Flash构建,总参数量284B,推理时激活参数13B。架构上采用了压缩稀疏注意力机制,对一张800×800的图像,KV缓存中仅保留约90个视觉条目,从原始像素到最终缓存实现了7,056倍的压缩比。 这意味着该模型在视觉token用量远低于同级系统的前提下,仍能维持相当的推理深度。 训练流程分为五个阶段:预训练阶段通过大规模网络数据(经两轮语义与几何质量筛选后保留约3.17万个数据源、超4,000万高质量样本)赋予模型输出视觉原语的基础能力;随后进入后训练,依次经历专项监督微调、专项强化学习(使用GRPO算法配合格式/质量/准确度三类奖励模型)、统一拒绝采样微调,最终通过在策略蒸馏将两个专家模型(分别擅长边界框和坐标点)的能力合并为单一模型。 在7项公开基准和4项自建基准的评测中,该模型在计数、空间推理、拓扑推理等维度上达到或超过GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash的表现,平均得分77.2%,为所有被测模型中最高。 值得关注的是,在迷宫导航和路径追踪两项拓扑推理任务上,该模型分别取得66.9%和56.7%的准确率,而其余前沿模型均未超过51%,这表明现有多模态模型在拓扑推理方面仍有很大提升空间。 论文同时指出了当前的局限:受限于输入分辨率,模型在细粒度场景中的视觉原语输出偶有偏差;视觉原语思考能力目前依赖显式触发词激活,尚不能由模型自主判断何时启用;以坐标点解决复杂拓扑推理的跨场景泛化能力也有待增强。 2 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-30 18:35:38+08:00 · tech

DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》及其开源仓库,提出一种新的多模态推理框架。该框架的核心做法是将空间标记——坐标点和边界框——提升为模型思维链中的“ 最小思考单元 ”,在推理过程中直接交织使用,使模型在"思考"的同时能够"指向"图像中的具体位置。 github.com GitHub - deepseek-ai/Thinking-with-Visual-Primitives 通过在 GitHub 上创建帐户来为 deepseek-ai/Thinking-with-Visual-Primitives 开发做出贡献。 在7项公开基准和4项自建基准的评测中,该模型在计数、空间推理、拓扑推理等维度上达到或超过GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash的表现,平均得分77.2%,为所有被测模型中最高。值得关注的是,在迷宫导航和路径追踪两项拓扑推理任务上,该模型分别取得66.9%和56.7%的准确率,而其余前沿模型均未超过51%,这表明现有多模态模型在拓扑推理方面仍有很大提升空间。 论文同时指出了当前的局限:受限于输入分辨率,模型在细粒度场景中的视觉原语输出偶有偏差; 视觉原语思考能力目前依赖显式触发词激活 ,尚不能由模型自主判断何时启用;以坐标点解决复杂拓扑推理的跨场景泛化能力也有待增强。 6 个帖子 - 4 位参与者 阅读完整话题

36氪 · None · tech

近日,由北京大学前沿工程博士联合会与声智科技(SoundAI)联合主办的“声智融合、智启未来”全场景语音AI技术与产业发展战略研讨会在北京大学落幕。活动汇聚了海淀区人才工作局、北京市科技装备业商会等政府机构代表,以及来自华为鸿蒙、字节跳动、中信证券等企业与金融机构的专家。研讨会由声智科技CPO、北大光华校友黄赟贺担任主持。会上展示了声智科技联合创新研发的AI Agent Mic,接入openclaw、声智语音AI技术等核心能力,覆盖办公与生活场景。