IT之家 6 月 6 日消息,OpenCV 团队本周正式发布了 OpenCV 5。 据介绍,二十多年来,OpenCV 一直是计算机视觉研究、机器人技术、嵌入式视觉、AI 应用、工业检测、AR / VR、医学成像以及无数生产系统的基础。如今,该库在 GitHub 上拥有超过 86,000 颗 stars,每天的安装量超过一百万次,并且拥有世界上最庞大的计算机视觉算法集合之一。 OpenCV 5 在此基础之上,对该库进行了重大的现代化改造。它带来了全新的 DNN 引擎、更强大的 ONNX 支持、硬件加速方面的改进、更好的 Python 集成、新的数据类型、扩展的 3D 视觉功能、改进的文档,以及面向未来更清晰的架构。 ▲ ONNX 算子覆盖率从 4.x 时期的不到 23% 增加到超 80% IT之家附 OpenCV 5 主要更新内容如下: 更好的语言支持 :现代化的 Python、更新的语言绑定(bindings),以及使用命名参数(named arguments)而非靠猜测来确定参数顺序。 更快、更小巧的核心 :更紧凑的代码、弃用传统的 C API,以及更精简的构建方式。 更清晰的硬件加速层 :使硬件供应商能够直接插入优化后的内核(kernels),而不会陷入杂乱的 #ifdef 条件编译之中。 更简洁的 API :规范的 0D/1D 张量(tensors)、原生的 FP16/BF16 支持,以及真正的日志记录机制。 下一代 DNN 引擎 :基于图(graph-based)的架构,支持算子融合(fusions)、广泛的 ONNX 支持,以及对 Transformer 模型、视觉语言模型 / 大型语言模型(VLM / LLMs)的支持。 更好的 3D 视觉 :ChArUco 标定板、多相机标定以及可视化功能。 更好的文档 :现代化、易于导航,且阅读体验令人愉悦。
IT之家 5 月 27 日消息,据腾讯云消息,腾讯会议正式推出“声链”功能。 据介绍,开启“声链”后,同一间会议室里的几个人同时开麦发言,不会再有啸叫,并且能自动识别发言人。 “为什么同室开会这么容易引发啸叫?”根源在于音频回路:A 设备播放的声音被 B 设备拾取播出来,又再次被 A 设备拾取,信号不断循环放大,最终变成了尖锐的杂音。 过去,行业内普遍的应对方式是,要么花钱买专业硬件,要么靠人工提醒。目前国内还没有产品从纯软件层面真正解决过多设备交叉回声这个技术难题。 腾讯会议「声链」能力来自腾讯天籁实验室,核心依托的是一种名叫“跨设备 AI 回声消除技术”。 当会议中有多个设备同时开麦时,它的工作流如下: 首先,算法会对每一个设备所收集到的音频进行回声消除处理; 紧接着,将高质量音频统一传输到声链中心; 声链中心完成多路麦克风数据的高精度混音对齐后,再上传到会议系统。 通过这一套组合拳,「声链」以纯软件方案,就能为用户打造清晰流畅、无啸叫干扰的优质音频体验。 据IT之家了解,用户可升级到腾讯会议最新版本体验“声链”功能。
IT之家 5 月 19 日消息,西部数据 (WD) 美国加州当地时间 18 日介绍了业界首款 PQC(IT之家注:后量子加密)机械硬盘 Ultrastar DC HC6100 UltraSMR,这一新型号 可抵御量子计算时代的新安全威胁 。 HC6100 在代码签名算法上采用了获得 NIST PQC 认证的 ML-DSA-87 ,并与 RSA-3072 形成双重保障。其支持 PQC 时代的公钥基础设施(PKI)与硬件安全模块(HSM)工作流,具有回滚保护机制。 西部数据表示,企业级存储基础设施的服役寿命正延伸至 5 年乃至更长,这意味着其生命周期中可能出现能破解经典密码的量子计算机。恶意行为者可能采取“ 先收集,后解密 ”的策略, 存储设备需要及时强化加密技术 。
IT之家 4 月 28 日消息,希捷银河 Exos 企业级硬盘 32TB 版开售, 售价 12999 元 。 据介绍,这款新品采用希捷的 Mozaic 魔彩盒 HAMR(IT之家注:热辅助磁记录)技术平台,有效降低机房空间、功耗与整体运维成本。 希捷银河 Exos 企业级机械硬盘 32TB 版为 CMR 磁记录,稳定耐用;7200RPM 高转速 + 512MB 大缓存;支持 7×24 小时全天候不间断运行,提供 5 年官方质保。 京东 希捷(SEAGATE)企业级硬盘 32TB 12999 元 直达链接
4月24日,DeepSeek全新系列模型DeepSeek-V4的预览版本正式上线并同步开源。据介绍,DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。 即日起登录官网 chat.deepseek.com 或官方App,即可与最新的DeepSeek-V4对话,探索1M超长上下文记忆的全新体验。API服务已同步更新,通过修改model_name为 deepseek-v4-pro或deepseek-v4-flash即可调用。 此外,DeepSeek-V4对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent 产品进行了适配优化,在代码及文档生成等任务上表现提升。V4-Pro与V4-Flash均支持 1M上下文长度,并同时提供非思考模式与思考模式,后者可设置 reasoning_effort 参数(high / max)。面向复杂 Agent 场景,官方建议使用思考模式并将强度设为max。 查看评论
36氪获悉,6月9日,美团旗下GN06团队宣布AI原生浏览器Tabbit 1.0正式上线。据介绍,Tabbit是浏览器形式的AI入口,内置多款大模型,用户输入需求后,Tabbit可自动执行跨软件、跨网页等各类复杂任务。Tabbit全新上线的1.0版本将新增记忆功能,会持续记录用户偏好、背景以及其他重要信息,并形成“可调用记忆”,自动适配用户回复风格,减少无效对话及动作。
36氪获悉,6月5日,金山办公正式发布AI笔记产品WPS笔记。据介绍,作为一款面向个人知识管理场景的AI原生多模态笔记产品,WPS笔记支持语音、图片、文字、网页等多种信息录入方式,并将AI能力贯穿从记录到复用的全过程。该产品已于今年3月开启内测。
36氪获悉,京东推出JoyAI-Echo长音视频生成框架。据介绍,框架引入智能“导演助理”Director Agent,并内置了一个专门的记忆库,能在多镜头生成过程中,持续保存并调用角色的外观特征和说话人音色信息。JoyAI-Echo的代码与权重已全部开源。
36氪获悉,据千问大模型官微,6月2日,阿里正式发布Qwen3.7-Plus多模态智能体模型。据介绍,该模型在Qwen3.7文本能力的基础上,全面升级了视觉-语言能力,同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。
36氪获悉,5月30日,广汽资本宣布,已完成对领伟创新智能系统(浙江)有限公司(下称领伟创新)的投资。据介绍,领伟创新已进入广汽集团核心供应链,为广汽埃安、广汽昊铂核心车型配套非晶定子铁芯。
36氪获悉,五一视界具身智能数据平台Aperdata.ai正式上线。据介绍,该平台主要面向具身智能训练与验证数据缺失的痛点,构建高保真、受物理法则严格约束的仿真训练环境与合成数据,加速AI从数字世界迈向物理世界。
36氪获悉,汉王科技正式发布录写本M6。据介绍,该产品集录音本、记事本和阅读本于一体。支持51种语言的实时翻译,可直接处理跨语言的会议场景。此外,该产品还接入了自研天地大模型及DeepSeek、通义千问等大模型,用户给出指令后,AI助手可迅速提炼会议精华、撰写草案。
36氪获悉,宇树科技发布GD01载人变形机甲,390万元起售。据介绍,GD01为全球首款量产版载人机甲,还可以变形,民用交通工具,体重约500kg(载人后)。(宇树科技)
5月11日,沃尔沃汽车宣布其大中华区管理层最新任命。据介绍,沃尔沃汽车大中华区总裁兼CEO袁小林决定卸任公司日常运营管理工作,将更多的时间留给家庭。段建军被任命为沃尔沃汽车大中华区新任总裁兼CEO, 加入集团全球核心管理层以及全球销售管理层,并向中国董事会汇报。他将即刻履新,全面执掌大中华区端到端业务,负责全价值链的工业和商业整体运营(研产供销)。袁小林则将在未来的一段时间支持管理层的平稳交接。(界面)
5月5日,中国移动发布消息称,5月7日-9日,2026移动云大会将在苏州金鸡湖国际会议中心举办,届时将推出AI-eSIM产品。据介绍,该产品可以实时调度云端模型,让设备能自主思考、即时响应,可应用于AI玩具、智慧穿戴等终端。
4月30日,亚马逊云科技宣布推出桌面AI助手Amazon Quick,将个人AI助手引入桌面。据介绍,用户能够直接在Amazon Quick中创建实时仪表板、智能应用、演示文稿和图片。Amazon Quick通过集成Google Workspace、Zoom、Microsoft 365以及Salesforce等,将应用、工具和数据汇聚一处,实现日常应用的一站式操作。(界面)
36氪获悉,近日,安克创新发布首款神经网络存算一体AI音频芯片Thus™。据介绍。该芯片基于NOR Flash技术,原生支持4兆参数模型,实验室测试显示相比传统蓝牙耳机芯片最高可带来150倍AI峰值算力提升。
36氪获悉,4月24日,阶跃发布新一代自动语音识别模型StepAudio 2.5 ASR。据介绍,该模型率先将大语言模型推理加速技术引入语音识别领域,在推理速度与转写精度两个维度均有显著提升,主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。
36氪获悉,字节跳动正式发布更高精度的新一代3D生成大模型——Seed3D 2.0。据介绍,该模型采用MoE架构,通过稀疏专家路由,在扩大模型参数量和分辨率的同时控制推理计算量,使模型能生成更丰富的纹理细节和更精确的金属-粗糙度边界。目前Seed3D 2.0技术报告已公开,API也已上线火山引擎。
36氪获悉,4月16日,阶跃发布新一代语音生成模型StepAudio 2.5 TTS。据介绍,该模型围绕全局语境控制、文中语境控制,以及零样本复刻与全音色控制等能力进行了升级,主要面向角色配音、有声内容创作、智能语音交互等场景。StepAudio 2.5 TTS支持利用自然语言来进行合成控制。目前,StepAudio 2.5 TTS已全量上线“阶跃星辰开放平台”和Step Plan。