微软近日低调更新文档称,只要设备搭载满足条件的独立显卡,即便不是 Copilot+ PC,也可以在 Windows 11 上运行本地语言模型 API,这被视为削弱 Copilot+ PC 独占优势的重要一步。 根据最新说明,符合条件的硬件包括 NVIDIA GeForce RTX 30 系列及更新型号,并且显存需达到 6GB 及以上。 这意味着,一部分原本不符合 Copilot+ PC 标准的高性能 PC,将能够通过 GPU 获得系统级本地 AI 能力,而不再完全依赖具备高算力 NPU 的新机型。 Copilot+ PC 于 2024 年 6 月 18 日正式亮相,微软当时将其包装为运行本地 AI 的“唯一途径”,并以此作为推动 PC 更新换代的重要卖点。 按微软最初的定义,一台设备要被标记为 Copilot+ PC,至少需要配备 16GB 内存、固态硬盘,以及可提供不低于 40 TOPS 算力的 NPU(神经处理单元)。 NPU 被设计用于高效运行 AI 模型,强调能效比,而 GPU 则擅长大规模并行计算,具备更强的原始算力。 不过在此前的策略下,微软将 Windows Recall、“Click to Do”等本地 AI 功能限定在搭载 NPU 的 Copilot+ PC 上,导致许多在硬件性能上同样强大的 GPU 电脑无法使用这些内建 AI 能力。 这一次的转向来自微软在 GitHub 上的一则更新说明,微软在文档中确认,语言模型 API 已经可以在非 Copilot+ PC 上通过 GPU 运行,只要满足两项条件:一是拥有 RTX 30 系列或更新型号显卡,二是显卡显存达到至少 6GB。 微软在说明中称,“语言模型 API 现已可在搭载受支持 GPU 的非 Copilot+ PC 上运行,将本地语言模型能力带到更广泛的 Windows 11 设备。”受支持的硬件目前包括 NVIDIA GeForce RTX 30 系列及更新产品线,且显存须为 6GB 及以上。 在实质效果上,这一调整将本地语言模型的适用范围从新款 Copilot+ PC 拓展到大量已在使用中的高性能 Windows 11 设备。 从开发者视角来看,语言模型 API 提供了一套可以在本地调用的 Windows.AI.Text 接口,背后由名为 “Phi Silica” 的小型语言模型提供支持。 该模型此前已在 Microsoft Edge 等产品中出现,用于“Rewrite using AI”(使用 AI 改写)等功能。 按照微软的设定,目前普通 Windows PC 默认并不预装本地 AI 模型,只有购买 Copilot+ PC 的用户才会在系统中预置相关内容。 在新方案下,如果用户运行支持本地语言模型 API 的应用,系统可以通过 Windows Update 下载 Phi Silica 模型,并在满足条件的 GPU 上本地运行。 基于目前公布的接口能力,开发者可以在应用中调用的本地 AI 功能包括:利用 Windows.AI.Text 接口实现的文本智能格式化,文本摘要(TextSummarizer),改写(TextRewriter),文本转表格(TextToTableConverter),以及通用的提示词生成等。 换言之,只要硬件达标,用户将能够在 Windows 应用中原生获得类似 ChatGPT 的部分文本处理体验,而且计算过程完全在本地完成,相比依赖云端模型的 Copilot 或 ChatGPT,在隐私保护方面更具优势。 需要注意的是,微软目前仅在语言模型 API 这一层面放开了 GPU 的适用范围。 就现有信息来看,Windows Recall、“Click to Do”以及画图(MS Paint)等应用中的部分 AI 功能,仍暂时只对内置 NPU 的 Copilot+ PC 开放。 换句话说,此次调整更多是为文字与提示类本地 AI 能力“解锁”更广泛的硬件平台,而非全面取消 NPU 在 Copilot+ 生态中的门槛。 尽管如此,随着本地 AI 能力逐步向传统高性能 GPU PC 延伸,Copilot+ PC 作为“唯一能本地运行 AI”的卖点已经明显被削弱,这也让外界开始猜测,微软未来是否会进一步放宽甚至取消对 NPU 的强制要求。 查看评论
公司领导要求调研国产计算卡算力生态,要求如下: 1、windows/linux通用,像普通显卡一样插pcie 2、开发api最好类cuda/cudnn,不像也没关系 3、推理性能>=RTX 3060,只能高不能低 有玩过类似计算卡的佬能给点意见吗,这个要求国产卡能不能达到 1 个帖子 - 1 位参与者 阅读完整话题
可以答这种题目的,谢谢佬们! 1 个帖子 - 1 位参与者 阅读完整话题
如题,我有一个自用的4060ti显卡,趁着618换了rx9070,想着在闲鱼上把旧显卡出掉,但是有点害怕遇到掉包、换核心的不良买家,请教下大家有哪些注意事项以及应对措施。 早上有个回收商已经拍下了我的显卡,之后就有一个人过来跟我讲,拍下的人是个骗子,搞得我好慌。 还有个问题,有很多回收商会派人自提,这样买家如何测试我的卡没有问题呢?如果不是当面测试+签收,是不是也有掉包的风险? 正规回收平台,类似转转,回收价格会低400,现在看来闲鱼水好深。 12 个帖子 - 12 位参与者 阅读完整话题
显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432
显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432
佬友们,这多年不用的台式机,今天开机发现这个显卡坏了,接上显示不亮,只能使用集成显卡,进了系统,问问佬友们,这个能修么,还有没有其它好的处理方法 25 个帖子 - 16 位参与者 阅读完整话题
从部署、厂商支持等角度来说 200w 以内显卡预算
从部署、厂商支持等角度来说 200w 以内显卡预算
用前几天讨论的 只有 3 个运算操作的解密函数 更新了之前的时间锁算法。现在“GPU 并行加密时间 / CPU 单核解密时间”的比例更大,在高端显卡上可达到万级,几秒钟的加密可生成一天的解密。 在线演示 默认 8192 并发,高端显卡可以调高。想测试 GPU 性能的话,可以把 Cost 调到几万,否则加密很快就完成。 加密完成后点击 Share 按钮可生成解密链接,打开后可测试 CPU 的解密速度和用时。不过 CPU 单核性能不像 GPU 那样有巨大差距,即使顶配也只有 6GHz 左右(能长时间稳定运行的频率),因此解密的时间差距相对公平,这也是这个锁的意义。 原理细节 (看不懂的话让 AI 解读下就可以,文档本身就是 AI 写的~)
从部署、厂商支持等角度来说 200w 以内显卡预算
用前几天讨论的 只有 3 个运算操作的解密函数 更新了之前的时间锁算法。现在“GPU 并行加密时间 / CPU 单核解密时间”的比例更大,在高端显卡上可达到万级,几秒钟的加密可生成一天的解密。 在线演示 默认 8192 并发,高端显卡可以调高。想测试 GPU 性能的话,可以把 Cost 调到几万,否则加密很快就完成。 加密完成后点击 Share 按钮可生成解密链接,打开后可测试 CPU 的解密速度和用时。不过 CPU 单核性能不像 GPU 那样有巨大差距,即使顶配也只有 6GHz 左右(能长时间稳定运行的频率),因此解密的时间差距相对公平,这也是这个锁的意义。 原理细节 (看不懂的话让 AI 解读下就可以,文档本身就是 AI 写的~)
之前开帖子问的那款智凯100,太慢了,双卡64g跑32b的千问,只能16tokens每秒 我看有华为,摩尔线程这些,你们实际使用哪一款更合适服务器使用呢? 2 个帖子 - 2 位参与者 阅读完整话题
最近新买了3把风扇,调了一下,玩3A游戏的时候显卡温度62度左右,顶部和后面出风转速1200转左右,前面风扇转速1400转,显卡下面一个风扇转速1500转左右,感觉有点吵 2 个帖子 - 2 位参与者 阅读完整话题
无显卡配置: Intel 酷睿Ultra7 270K PULLS 散热:酷里奥倚天P60T DIG BK数显黑化版 主板:微星PRO Z890-P WIFI6 显卡:Intel Graphics 集成显卡 内存:华硕ROG联名异极32G(16G*2) DDR5 6000 黑色马甲 硬盘:西数黑盘SN7100 1T PCIE4.0 固态硬盘 机箱:先马 探影 无立柱海景房 黑色 电源:先马GT850 额定850W金牌全模组黑色 ATX3.1 3 个帖子 - 3 位参与者 阅读完整话题
从部署、厂商支持等角度来说 200w 以内显卡预算
从部署、厂商支持等角度来说 200w 以内显卡预算
从部署、厂商支持等角度来说 200w 以内显卡预算
从部署、厂商支持等角度来说 200w 以内显卡预算
从部署、厂商支持等角度来说 200w 以内显卡预算