WWW.YOUINFO.SITE
标签聚合 a3b

/tag/a3b

LinuxDo 最新话题 · 2026-05-20 09:01:20+08:00 · tech

本人手头有两张4060,一直很想跑稍大一些(相比9B 4B)的模型,基于最近llama.cpp支持的一些新功能运行35B A3B模型测试。 模型 Qwen3.6 35B A3B APEX-MTP Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf -》13.7 GB 省流: 台式机和USB4拓展坞都可以跑在8g显存的显卡上,MTP的速度挺快的, 30+tokens/s ,代码能跑到 45-50 因为显存不够,上下文prompt太多了以后处理起来很慢,拓展坞情况比我的台式机慢3-4倍 补充: 台式机后续尝试了I-Compact和I-Quality,发现速度有下降,但是不明显 4060还是玩9B吧…跑起来还快点,当然不嫌慢,等这个慢慢跑也行(我记得特总视频也提过这一点) 8 个帖子 - 4 位参与者 阅读完整话题

linux.do · 2026-04-29 16:03:31+08:00 · tech

nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free poolside是下面公司出的 laguna-m.1 应该这个效果会好点 Poolside Introducing Laguna XS.2 and Laguna M.1 We’re releasing two foundation models and two products into preview today. openrouter.ai Laguna XS.2 (free) - API Pricing & Providers Laguna XS.2 is the second-generation model in the XS size class from [Poolside](https://poolside.ai), their efficient coding agent series. $0 per million input tokens, $0 per million output tokens. 131,072 token context window, maximum output of... openrouter.ai Laguna M.1 (free) - API Pricing & Providers Laguna M.1 is the flagship coding agent model from [Poolside](https://poolside.ai), optimized for complex software engineering tasks. $0 per million input tokens, $0 per million output tokens. 131,072 token context window, maximum output of 8,192... 3 个帖子 - 2 位参与者 阅读完整话题

www.ithome.com · 2026-04-29 07:35:02+08:00 · tech

IT之家 4 月 29 日消息,当地时间 4 月 28 日,英伟达宣布推出名为 Nemotron 3 Nano Omni 的开源全模态推理模型,旨在为企业级 AI Agent 提供一体化基础模型底座。 据介绍,这是一款将视频、音频、图像和文本的统一多模态推理集成于单个高效开放模型中的产品。该模型旨在替代智能体系统中常见的碎片化视觉-语音-语言模型链,从而减少推理跳数与编排复杂度,降低推理成本,同时增强跨模态上下文一致性。 Nemotron 3 Nano Omni 可在智能体系统中充当多模态感知与上下文子 Agent,使智能体能够在单个共享的“感知-行动”循环中处理视觉、音频和文本输入,提升收敛速度,降低编排复杂度和推理成本。 在文档智能榜单(如 MMlongbench-Doc 和 OCRBenchV2)上,该模型取得了同类领先的准确率;同时在视频与音频理解基准(WorldSense、DailyOmni、VoiceBench)中也表现优异。 行业基准 MediaPerf(基于真实媒体数据和生成任务评估视频理解模型的性能、成本和吞吐量)显示,Nemotron 3 Nano Omni 在所有任务上实现了最高吞吐量,且视频级标注的推理成本最低。 ▲ 在固定的用户交互阈值下,各模型所能维持的总系统吞吐量 该模型基于 30B‑A3B 混合专家(MoE)架构,可根据任务和模态进行激活,实现高吞吐量与可扩展的多模态性能。IT之家注意到,其模型权重、数据集和训练配方完全开放,开发者可在本地、云端或企业环境中定制、部署和集成多模态子 Agent。 英伟达表示,在固定交互延迟阈值下,Nemotron 3 Nano Omni 在视频推理任务中可持续提供更高的聚合吞吐量,相比其他开放式全模态模型有效系统容量最高提升约 9.2 倍;在多文档推理任务中,有效系统容量最高提升约 7.4 倍。在 Blackwell GPU 上采用 NVFP4 量化时,该模型在处理复杂文档、长时推理和大批量视频的企业级工作负载中,吞吐量在开放式全模态模型中居于领先。 架构设计方面,Nemotron 3 Nano Omni 核心为混合 MoE,结合 Mamba 层(提升序列与内存效率)和 Transformer 层(实现精准推理),内存和计算效率最高可提升 4 倍。 视觉处理方面,它采用 3D 卷积捕捉帧间运动,推理时通过高效视频采样层将高密度视觉 token 压缩为 LLM 可处理的精简集合;音频部分则基于 NVIDIA Parakeet 编码器与专用数据集;文本部分以强大的文本模型作为中心解码器,保留基础模型的语言能力;视觉编码采用 C-RADIOv4-H,支持高分辨率图像与 OCR 精度。 其训练方法涵盖适配器与编码器训练(约 1270 亿跨模态 token)、多阶段监督微调及后监督强化学习(超过 230 万次环境 rollout)。该模型权重已在 Hugging Face 上提供,并即将作为 NVIDIA NIM 微服务上线。英伟达还开放了完整的端到端训练与评估配方、部署指南、微调食谱以及开放数据集。

linux.do · 2026-04-27 11:00:08+08:00 · tech

是在hermes中生成的,提示词如下: 你是 Apple Inc 的顶级 UI 设计师,以 iOS 18 的设计风格(毛玻璃效果、高斯模糊、动态渐变、细腻阴影)创建一个单个HTML文件(包含完整CSS和JavaScript)。实现横板天气页面,包含4个并排的动画天气卡片: 晴天(太阳光线、动态光晕) 大风(飘动云朵、摇曳树木、风线) 暴雨(下落雨滴、形成水洼、闪电) 暴雪(下落雪花、堆积效果) 卡片需深色背景,支持按钮切换天气状态,实现流畅交互和微动效。代码必须可直接运行,美观度优先。 感觉还不错啊(是我审美有问题吗? 2 个帖子 - 2 位参与者 阅读完整话题

v2ex.com · 2026-04-27 09:30:50+08:00 · tech

感觉本地的模型有很大的潜力,但也有局限,主要是受限于硬件吧。以下几点: 除了复杂架构调整分析工作外,日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上,几乎可以替代在线模型。 复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。 经过豆包和模型自身给出 llm 优化建议,使用 GGUF 模型能跑出 33 token/s 的速度,使用 MLX 能到 38 token/s 。 36G 内存不够,开太大上下文会爆显存,只能重启。 第一次体会到 Mac 的性能居然这么不够用,搞得都想换 M5 Max 了,但感觉专门为 AI 也不是特别值得。

v2ex.com · 2026-04-27 09:30:50+08:00 · tech

感觉本地的模型有很大的潜力,但也有局限,主要是受限于硬件吧。以下几点: 除了复杂架构调整分析工作外,日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上,几乎可以替代在线模型。 复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。 经过豆包和模型自身给出 llm 优化建议,使用 GGUF 模型能跑出 33 token/s 的速度,使用 MLX 能到 38 token/s 。 36G 内存不够,开太大上下文会爆显存,只能重启。 第一次体会到 Mac 的性能居然这么不够用,搞得都想换 M5 Max 了,但感觉专门为 AI 也不是特别值得。

v2ex.com · 2026-04-27 09:14:03+08:00 · tech

感觉本地的模型有很大的潜力,但也有局限,主要是受限于硬件吧。以下几点: 除了复杂架构调整分析工作外,日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上,几乎可以替代在线模型。 复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。 经过豆包和模型自身给出 llm 优化建议,使用 GGUF 模型能跑出 33 token/s 的速度,使用 MLX 能到 38 token/s 。 36G 内存不够,开太大上下文会爆显存,只能重启。 第一次体会到 Mac 的性能居然这么不够用,搞得都想换 M5 Max 了,但感觉专门为 AI 也不是特别值得。

v2ex.com · 2026-04-27 07:47:44+08:00 · tech

感觉本地的模型有很大的潜力,但也有局限,主要是受限于硬件吧。以下几点: 除了复杂架构调整分析工作外,日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上,几乎可以替代在线模型。 复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。 经过豆包和模型自身给出 llm 优化建议,使用 GGUF 模型能跑出 33 token/s 的速度,使用 MLX 能到 38 token/s 。 36G 内存不够,开太大上下文会爆显存,只能重启。 第一次体会到 Mac 的性能居然这么不够用,搞得都想换 M5 Max 了,但感觉专门为 AI 也不是特别值得。

v2ex.com · 2026-04-27 07:47:44+08:00 · tech

感觉本地的模型有很大的潜力,但也有局限,主要是受限于硬件吧。以下几点: 除了复杂架构调整分析工作外,日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上,几乎可以替代在线模型。 复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。 经过豆包和模型自身给出 llm 优化建议,使用 GGUF 模型能跑出 33 token/s 的速度,使用 MLX 能到 38 token/s 。 36G 内存不够,开太大上下文会爆显存,只能重启。 第一次体会到 Mac 的性能居然这么不够用,搞得都想换 M5 Max 了,但感觉专门为 AI 也不是特别值得。

linux.do · 2026-04-26 16:52:57+08:00 · tech

我是windows上llama.cpp部署的,先看效果图。 这里面,我用的模型是 unsloth 量化的 Qwen3.6-35B-A3B-UD-IQ1_M 模型。 得益于其超强的量化,整个模型可以完美装在 2080ti 11g 显存里面,用 q4 量化上下文可以跑到128k 的上下文。 单并发 67 tps 的速度,如果2-4并发最多可以翻倍tps。 模型性能 跑在 pi-coding-agent 里面绰绰有余, 我让他复现了一个自动证明系统,要求如下 最后也是保质保量完成了,而且自己跑通了测试流程。 为什么不用qwen 3.6 27B 我下载了qwen 3.6 27B 比较小的量化版本,可以全部跑在显存里面,但是上下文只有32k而且tps只有22左右,而且我接入 pi-coding-agent 里面还发生了死循环,感觉不太可用,虽然网上说 27B 版本很牛,但是我还是觉得moe版本的更好。 有什么用 本地部署可以搞一些隐私数据,其他我觉得真的不如薅点免费或者低价的api。 接入openclaw应该是能玩的,但是电费成本算下来不一定打得过低价api。 不过在二手1200元左右淘到的2080ti上跑起来agent还是很有成就感的 简单的 benchmark 用了 GitHub - stevibe/BenchLocal: Test LLMs on real tasks. Compare models side-by-side. · GitHub 这个来做测试。跑的是其中这个 DataExtract-15 benchmark。 对比模型找了好久,感觉不是很能找到主流的更弱的模型。 注意,这个 Qwen3.6-35B-A3B-UD-IQ1_M 是超级量化版本,不代表 Qwen 该模型满血水平。 Model Total Clean Extraction Noisy and Informal Multi-Entity Implicit and Missing Complex Documents GLM Model 91 97 86 92 90 91 DeepSeek V4 Flash Free 90 95 84 92 85 97 Step 3.5 Flash 83 95 57 82 97 84 Local qwen 81 85 69 84 84 78 注: deepseek用的zenmux api,然后Step用的魔搭api,然后glm是学校本地部署的,我猜是4.7模型。 结论 :勉勉强强能打step 3.5 flash,也是没出乎意料垫底了。 碎碎念(如果你也想部署) 想清楚自己想要什么,如果load一点模型到内存里面,会减至少一半tps,但是上下文更多,能跑的模型更好。 具体运行代码 \llama-server.exe -m "C:\Users\……\Qwen3.6-35B-A3B-UD-IQ1_M.gguf" -c 131072 -ngl 99 --parallel 1 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -b 512 -ub 64 --port 8080 --host 0.0.0.0 ,这是没加载识图模型的版本,qwen该模型支持识图,但是显存开销会变大。 pi-coding-agent 很轻便,很好用,适合本地模型。 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-24 17:03:05+08:00 · tech

模型来源 RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face Qwen3.6-35B-A3B速度 单用户串行测试 : num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。 吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms 8 并发用户测试 : num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。 吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms 固定 QPS 多用户测试 : num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。 吞吐 229.79 tok/s, Mean TTFT 521.67 ms, P99 TTFT 4542.64 ms, Mean TPOT 62.82 ms 场景 成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms) 单用户串行测试 20 136.99 37.94 543.42 2878.45 23.46 24.17 8 并发用户测试 100 135.85 164.39 331.77 786.20 43.45 44.19 固定 QPS 多用户测试 200 194.69 229.79 521.67 4542.64 62.82 62.22 Qwen3.6-27B 单用户串行测试 : num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。 吞吐 11.68 tok/s, Mean TTFT 1078.83 ms, P99 TTFT 14364.02 ms, Mean TPOT 81.68 ms 8 并发用户测试 : num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。 吞吐 79.13 tok/s, Mean TTFT 678.16 ms, P99 TTFT 4253.76 ms, Mean TPOT 89.96 ms 固定 QPS 多用户测试 : num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。 吞吐 132.89 tok/s, Mean TTFT 428.64 ms, P99 TTFT 761.94 ms, Mean TPOT 108.11 ms 场景 成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms) 单用户串行测试 20 445.13 11.68 1078.83 14364.02 81.68 81.37 8 并发用户测试 100 280.35 79.13 678.16 4253.76 89.96 89.79 固定 QPS 多用户测试 200 336.47 132.89 428.64 761.94 108.11 106.61 总结 由于dgxspark的内存带宽和cuda核心都比较弱,只是内存比较大,能跑MOE模型还是优先跑MOE模型。这里跑Dense模型速度快砍半了 2 个帖子 - 2 位参与者 阅读完整话题