IT之家 6 月 4 日消息,6 月 16 日,中国信息通信研究院人工智能研究所等将在北京联合召开“高质量 Token 服务研讨会”。 据《科创板日报》记者获悉,论坛将成立“高质量 Token 服务特别研究组”,并启动“高质量 Token 服务能力攀登计划”;论坛将上线新版“公有云大模型 Token 服务性能监测平台”,并发布“ 公有云大模型 Token 服务性能监测结果(2026 年 6 月) ”,对主流 Token 服务平台的 Token 吞吐率、时延 等性能进行客观量化评估,为产业各方选型参考与服务质量提升提供参考依据。 此外,论坛将集中发布“Token 服务”系列标准并进行权威解读,同时将为通过“可信 AI-高质量 Token 服务评估”的单位颁发证书。此外,论坛将特邀国内头部科研机构、Token 服务提供商、运营商、大模型厂商、大模型应用方等,进行相关主题分享。 IT之家注:Token 词元是大模型处理文本、代码、图像、音频、视频等所有信息时采用的最小运算单元,正在成为人工智能服务的计量单位、结算单位和统计单位。截至 2026 年 3 月, 我国日均词元调用量已攀升至 140 万亿次以上 ,这一数字较 2024 年初的 1000 亿次实现千倍跃升;即便与 2025 年底的 100 万亿次相比,短短三个月内增幅亦超过四成。
IT之家 6 月 3 日消息,科技媒体 NeoWin 昨日(6 月 2 日)发布博文,报道称 Windows 11 系统的“持续功能推出”(CFR)机制引发用户不满, 认为微软高调宣传的诸多新功能 / 新特性严重滞后。 在 Windows 11 现行的 CFR 测试机制中,微软在会邀请部分 Windows Insider 频道用户,灰度测试各种新功能和新特性。 但用户认为即便升级到 Windows 11 最新预览版,并开启“立即获取最新更新”选项,可能依然无法第一时间体验到官方预告的新功能 / 新特性。 Reddit 用户 horizon936 认为,Windows Insider 测试频道已经足够成熟,微软仍过度依赖渐进式推送,导致预告中反复出现的新功能迟迟无法落地,热情常在等待中消失。IT之家附上相关截图如下: 网友但也表达类似看法。有评论称,用户可能在第 1 天获得新功能,也可能等 6 个月,只能等待微软远程选择设备。除非使用 ViveTool 等工具,否则普通用户缺少明确控制权。
佬友们在vibe coding的时候怎么做联调和功能测试,效果怎么样 4 个帖子 - 2 位参与者 阅读完整话题
各位佬 感觉codex额度用的不太正常,想请教下有没有能测试codex额度等于多少刀的项目呢? 如果使用sub2api测,需要codex使用的api接入吗? 3 个帖子 - 3 位参与者 阅读完整话题
经常捣鼓大模型的朋友都知道,各大厂商提供的模型是生产力工具。可以蹭,但也需要计算性价比。一些小的任务或是隐私任务,放在本地更合适。随着越来越多开源的 SLM ( Small Language Model )智力水平的提升,部署到本地也是一个选择。 作为一个玩过智能家居、玩过路由器、玩过 NAS 的人,本地模型当然也要拉下来玩玩。这不仅可以用来窥探模型本身的技术架构,还可以解决手边的小问题。但技术选型过程中,会遇到两个问题:一个是本地显/内存有限的前提下,最有性价比或者说最有智力的模型是谁?第二个问题是,我该用什么框架来部署服务。 在不知道咋选的时候,我选择用最新的开源模型。但是不少模型其实是有显存要求的。最新是好,但不一定能部署到本机。后来,我通过拉取最新的模型数据,构造并发布了一个网页应用 Traktoken ,这下可以直观了解模型能力与所需显存间的关系。 模型框架方面,我选择用适合本机显存的最强开源模型结合早期占据市场心智的 Ollama 。但这真的是最优解吗,我有时候也会问自己。这个疑惑,在我开发 PageGrok (一款浏览器插件 AI 产品)时,到达巅峰。 为什么要做这个评测? 首先是实际的业务痛点。PageGrok 是一款浏览器插件,用来在不跳转、不用外部 API (省事省钱)的情况下,解读当前页面的内容。其不用外部 API ,靠的就是用户自己部署的本地模型。本意是减少用户动作,但真上线后发现:用户选中内容并发送给本地模型处理时,响应延迟非常大。 虽然本地不花 API 费用,但是时间也是钱啊(摔)。动辄数十秒的冷启动时间,让用户一度以为插件失灵。显然,瓶颈不在插件和通信,是本地服务的问题。框架性能表现成为必须关注的核心。到底咋回事,为啥 Chatbot 感觉不明显的模型加载和提示词填充,在这个场景下延迟明显? 其次是新老框架的交替和抉择。我从去年就开始在生产活动中使用本地模型(例如在“相亲小镇”项目中),一直使用 Ollama 框架,部署 Gemma 3 模型作为底座模型。早期在 MacBook 上风扇转得飞快,但迁移到 Linux 服务器后,GPU 你转就转吧。 早在 23 年,苹果就推出了专为 Apple Silicon 优化的 MLX 框架。但直到 26 年上半年,在其基础上开发的 oMLX 才受到大范围关注,社媒上看到其声称更好适配苹果设备。没过多久,Ollama 也在新版本声称支持了 MLX 框架。这种感觉就像是:“你别迁移,我能行”。 真的行吗?我一开始下载的是 LM Studio ,它出现的时间比 Ollama 更早。Ollama 后来居上,凭借其 YC 投资背景和简洁的设计,很快占据了不少市场。面对不同的框架,我的核心疑问随之而来: 最适合 Mac 电脑部署的本地框架到底是什么? 拒绝感觉良好,得有套系统的测评手段。 评测指标体系设计 在开始自己重复造轮子前,我也系统看了现有的解决方案。大家主要关注三个方面的指标,分别是用户体验指标(如:TTFT 首字延迟时间)、成本指标(如:TPS token 吞吐量)、资源消耗(如:GPU 占用情况)。 这个方向的测评,我们不关注模型在测评集上的表现。即默认相同模型权重在 MMLU 这类测评的表现是一致的(实际上不一致,会因为数据处理方式的差异,有略微表现差异)。 关于这部分的讨论,其实早在 23 、24 年就有了。不少模型平台提供方也提供了它们自己的脚手架工具,例如 huggingface/inference-benchmarker 。模型部署框架方也做了不少工作,例如 oMLX 就自带测评工具。 不过,总的看来,这些测评工具都多少有些耦合和过度设计。比如 oMLX 这套只能说明它自己的模型效果,无法横向测评其他框架结果。Hugging Face 这套则是和它自身的生态绑定,学习曲线比较陡峭。 网上也有不少开源项目,目前看来都缺少维护,简单 vibe 发布后,后续就没有迭代了。基于上述情况,我决定自己根据这些测评角度,开发一套简单易用、跨多个框架的测评工具。 在上述背景下, LLM Bench 应运而生。这是一个网页应用,用户可以直接连接本地大模型,简单点击即可进行测评。 核心指标 首字延迟( TTFT ) :直接决定用户等待焦虑度,是本地体验的关键。一般来说,线上服务的等待时间控制在 2-3s 内会比较好。TTFT 实际上是排队等待 + 提示词预填充时间( Prefill Time )+ 网络波动的总和。从用户角度来说,就是我发消息过去,直到屏幕上开始出现字的等待时间。 输出速度( Tokens Per Second ) :首个 token 到最后一个 token 之间的 decode 速率。分母不包含 TTFT ,确保 prefill 和 decode 正交衡量。人类的阅读速度一般是每秒 4 个字符,感觉流畅要大于 30 个 token/s 。相同硬件条件下,TPS 越高,反映出资源利用率越高,成本控制越好。 除开上述两个指标外,本地模型还有个指标非常重要,是 冷启动时的 TTFT 。这反映模型加载到框架到出现字符的时间,这也是前文我们体感觉得慢的地方。这个指标,在其他测评框架中基本整合进 TTFT ,但我觉得很有必要单独拎出来。 另外,还会有 字间延迟分布( Inter-Token Latency ) 这个指标,用来衡量两个 token 之间的时间间隔,越高表示卡顿越明显,用户感知为“一卡一卡的”。内存管理或者是显存带宽出现问题,都会导致这个指标升高。 并发扩展性( Scalability ) 则是指当并发请求出现时,模型的表现情况。计算方式为 TPS@concurrency=8 / TPS@concurrency=1 。比值 1.0 表示完美扩展(并发不影响单请求速度),0.15 以下表示严重退化。 各框架与模型表现对比 说完测评指标,我们来看不同框架下,相同模型的表现情况。本次测试了三个框架,分别是 Ollama 、LM Studio 以及 oMLX 。我的 MBP 是 16G 内存,根据 Traktoken 的开源模型智能指数与 VRAM 需求图,本次参加对比的模型是 Gemma 4 E2B 。其中需要注意的是,Ollama 是默认 GGUF 格式,LM Studio 和 oMLX 选择的是 MLX 格式的模型权重。 框架表现结论: 整体来说,LM Studio 的总和评分最高; oMLX 受制于并发能力,得分垫底。但若不考虑并发,单点情况下 oMLX 的冷启动和首字加载优于 LM Studio ,吞吐量优于 Ollama 。 结论与使用者建议 从上面的图表,我们可以轻易对比得出理想的框架。就我来说,目前可选项是 oMLX ,如果有高并发需求且不看重冷启动延迟,那么 LM Studio 是相对较好的选择。而 Ollama ,虽然它声称新版本已经支持了 MLX 格式的权重文件,但下载的时候提供的仍然是 llama.cpp 支持的 GGUF ,需要额外的转换。 当然,我们的测试也不是没有局限。我们并没有做额外的操作,来检查并控制它们的系统配置参数一致,仅使用框架默认的参数。所以,就单个框架本身,肯定是有优化空间的。这点,读者朋友们可以自己试试。 目前,我们的测评工具开源在 GitHub - benchmark-for-LLM ,欢迎关注 star 和一起改进。对于无法跨域暴露给外网地址的,还提供了自部署和 Python 包两种选择。Python 包地址: llm-benchmark-runner 。 如果你对我的浏览器本地 AI 插件感兴趣,Chrome 商店搜索 PageGrok 即可获得,或者直接访问 PageGrok 官网 下载安装插件。目前我日常深度使用中,未来还会有更多的体验优化,欢迎关注。 如果你对 Traktoken 感兴趣,可访问 Traktoken ,了解我每日追踪的 500 多个大模型关于能力、定价的数据信息,以及关于本地部署大模型参数量的估算数据。 最后, 拒绝感觉有效,让实验数据说话 。 参考资料 A collection of benchmarks for LLM inference engines: SGLang vs vLLM - Reddit r/LocalLLaMA 社区讨论帖 AI API 性能测试器 - 在线工具网页 JohnMing143/llm-api-speedtester - 开源测速工具代码库 coder543/llm-speed-benchmark - 开源测速工具代码库 hyscale-lab/LLM-Benchmarking - 全景基准测试框架代码库 luminal-ai/simple_benchmarking - 简易推理服务测试脚本库 huggingface/inference-benchmarker - Hugging Face 官方推理基准测试工具 LLM Inference Benchmarking - Measure What Matters - DigitalOcean 技术博客 LLM Inference Benchmarking: Fundamental Concepts - NVIDIA 技术博客 BENCH360 - Benchmarking Local LLM Inference from 360° - 学术研究论文 关于作者
日常开发时,用来做功能测试,不关注质量,只需要便宜管饱。 除了自建,用啥方案最好?
日常开发时,用来做功能测试,不关注质量,只需要便宜管饱。 除了自建,用啥方案最好?
日常开发时,用来做功能测试,不关注质量,只需要便宜管饱。 除了自建,用啥方案最好?
日常开发时,用来做功能测试,不关注质量,只需要便宜管饱。 除了自建,用啥方案最好?
日常开发时,用来做功能测试,不关注质量,只需要便宜管饱。 除了自建,用啥方案最好?
日常开发时,用来做功能测试,不关注质量,只需要便宜管饱。 除了自建,用啥方案最好?
日常开发时,用来做功能测试,不关注质量,只需要便宜管饱。 除了自建,用啥方案最好?
日常开发时,用来做功能测试,不关注质量,只需要便宜管饱。 除了自建,用啥方案最好?
日常开发时,用来做功能测试,不关注质量,只需要便宜管饱。 除了自建,用啥方案最好?
日常开发时,用来做功能测试,不关注质量,只需要便宜管饱。 除了自建,用啥方案最好?
给母亲买来用,希望是像医院那样的胳膊伸进去就能测的,然后希望有自己的小程序或者app可以远程监控到的,预算不确定,佬友有推荐的吗? 感谢 14 个帖子 - 7 位参与者 阅读完整话题
IT之家 5 月 18 日消息,特斯拉官方微博今日发布视频, 展示了特斯拉汽车的座椅防夹功能 。 从视频可以看到,特斯拉采用一只玩具鸭子进行测试,当座椅折叠、汽车尾门关闭时,检测到玩具鸭子后, 座椅和尾门就会自动回弹 。 IT之家注意到,特斯拉公司副总裁 陶琳 转发了该视频,并表示“特斯拉的安全,藏在每一个不易察觉的细节里”。 特斯拉 CEO 埃隆 · 马斯克也在海外社交媒体上转发了该视频 。特斯拉亚洲官方 X 账号表示:为了保护乘客和货物,Model Y 的电动后排座椅和后备箱在折叠时检测到障碍物时会自动回弹。
最近做了一个小站,叫 SBTI Match: https://sbtimatch.com/ 它不是严肃心理测评,也不想碰诊断那套。定位更像一个轻量的社交电量测试:先测出自己的 SBTI 类型,再和朋友、情侣或群聊对象做匹配。 现在能玩的几个入口: - 测试页: https://sbtimatch.com/test - 匹配页: https://sbtimatch.com/compatibility - 类型总览: https://sbtimatch.com/types 我做这个站的原因很简单:很多人格测试结果页到此为止,但真实传播往往发生在“我和你合不合”“我们群里谁最耗电”这种对话里。所以第一版重点不是做一套很重的理论,而是把测试、结果卡、匹配解释和分享做顺。 目前第一版已经上线,想听几个具体反馈: 1. 测试流程会不会太长,或者题目太像重复问法? 2. 匹配页的解释有没有可读性,还是太像模板拼接? 3. 类型名和结果卡有没有分享欲? 4. 英文站对中文用户会不会门槛太高? 提前说明一下边界: - 这是娱乐和自我观察工具,不是心理诊断。 - 站点目前免费,没有登录和付费。 - 第一版主攻英文和印尼语 SEO ,所以中文内容还没有单独做。 欢迎直接拍砖,尤其是产品体验、SEO 页面结构、测试题设计这几块。
中转站(不是说佬友们的)可能存在挂羊头卖狗肉的现象。有没有什么成熟方案测试真实的模型、指纹认证 之类的 2 个帖子 - 2 位参与者 阅读完整话题
目前中转站看起来样式主要有两个流派,我没研究过具体是啥名儿,但其中有一个样式的网站默认是没有“忘记密码”的,我麻烦各位网站主理人上线前自己先体验一下,我承认我每次注册这种网站都随机生成一个密码下次登录靠重置我有 99%的问题,但你们这些网站连基本的重置密码功能都没有至少 1%的问题还是有的吧?