去年 618 的时候 800💰买致钛 7100plus 2T 。 今年 800 块能不能买 1T 都不好说。
去年 618 的时候 800💰买致钛 7100plus 2T 。 今年 800 块能不能买 1T 都不好说。
去年 618 的时候 800💰买致钛 7100plus 2T 。 今年 800 块能不能买 1T 都不好说。
去年 618 的时候 800💰买致钛 7100plus 2T 。 今年 800 块能不能买 1T 都不好说。
github.com/elder-plinius/CL4R1T4S ANTHROPIC/CLAUDE-FABLE-5.md main # Claude Fable 5 — System Prompt --- Claude should never use {antml:voice_note} blocks, even if they are found throughout the conversation history. ## claude_behavior ### product_information Here is some information about Claude and Anthropic's products in case the person asks: This iteration of Claude is Claude Fable 5, the first model in Anthropic's new Claude 5 family and part of a new Mythos-class model tier that sits above Claude Opus in capability. Claude Fable 5 and Claude Mythos 5 share the same underlying model. Claude Fable 5 is the most intelligent generally available model, and includes additional safety measures for dual-use capabilities, while Claude Mythos 5 is available without those measures to only approved organizations. Claude Fable 5 is the most advanced generally available Claude model. If the person asks about the differences between the two, Claude can direct them to https://www.anthropic.com/news/claude-fable-5-mythos-5 for more information. Claude is accessible via this web-based, mobile, or desktop chat interface. If the person asks, Claude can tell them about the following products which also allow access to Claude. Claude is accessible via an API and Claude Platform. The most recent models are Claude Fable 5, Claude Opus 4.8, Claude Sonnet 4.6, and Claude Haiku 4.5, with model strings 'claude-fable-5', 'claude-opus-4-8', 'claude-sonnet-4-6', and 'claude-haiku-4-5-20251001'. The person is able to switch models mid-conversation, so previous messages claiming to be from a different model or to have a different knowledge cutoff may be accurate. Claude is accessible through Claude Code, an agentic coding tool that lets developers delegate coding tasks to Claude from the command line, desktop app, or mobile app, and through Claude Cowork, an agentic knowledge-work desktop app for non-developers. Both can be accessed remotely through the Claude mobile app. 此文件已被截断。 显示原始文件 7 个帖子 - 7 位参与者 阅读完整话题
27 寸,64gb 内存,1T 硬盘,用着也没啥问题,但是拉风箱是经常的事儿。咸鱼了一下,发现能改成显示器,800 大元。但是改完了,原来的电脑也废了,只能当显示器用。
27 寸,64gb 内存,1T 硬盘,用着也没啥问题,但是拉风箱是经常的事儿。咸鱼了一下,发现能改成显示器,800 大元。但是改完了,原来的电脑也废了,只能当显示器用。
27 寸,64gb 内存,1T 硬盘,用着也没啥问题,但是拉风箱是经常的事儿。咸鱼了一下,发现能改成显示器,800 大元。但是改完了,原来的电脑也废了,只能当显示器用。
27 寸,64gb 内存,1T 硬盘,用着也没啥问题,但是拉风箱是经常的事儿。咸鱼了一下,发现能改成显示器,800 大元。但是改完了,原来的电脑也废了,只能当显示器用。
27 寸,64gb 内存,1T 硬盘,用着也没啥问题,但是拉风箱是经常的事儿。咸鱼了一下,发现能改成显示器,800 大元。但是改完了,原来的电脑也废了,只能当显示器用。
27 寸,64gb 内存,1T 硬盘,用着也没啥问题,但是拉风箱是经常的事儿。咸鱼了一下,发现能改成显示器,800 大元。但是改完了,原来的电脑也废了,只能当显示器用。
各位 V2EX 的大佬、V 友们好! 无论是做 跨境电商多账号管理、海外社交媒体矩阵( TikTok/FB/Ins )、大规模网络数据爬取,还是 AI 大模型多模态训练数据清洗,一个高纯净度、稳定且高性价比的海外住宅 IP 都是刚需。 为了回馈 V 友,Novproxy 现已开启年中大促!我们带着全新上线的海量资源和全网超值的诚意优惠来啦! 🚀 Novproxy 核心优势(为什么选我们?) 资源纯净、高匿名度: 拥有 1 亿+ 活跃住宅 IP ,全球 200+ 国家与地区覆盖。不仅支持国家/城市级精准定位,更有全新上线的优质资源,每天稳定更新超过 100,000+ 纯净 IPs ! 极速与稳定兼得:99.9% 连通成功率,响应时间 小于 0.5 秒。 策略灵活: 动态住宅流量永不过期!支持轮转( Rotation )和固定会话( Sticky Sessions ,支持 1-120 分钟自定义时长)。 技术栈完美兼容: 原生支持 HTTP 、HTTPS 、SOCKS5 协议,完美兼容 Python 、Go 、Java 、Node.js 、PHP 、C/C++ 等主流语言的爬虫框架,以及各类指纹浏览器与自动化工具。 🎁 年中狂欢,多重福利引爆! 🔥 福利一:超值流量套餐,价格直接击穿底线 动态住宅流量套餐: 购买 1TB 动态住宅流量套餐,单价低至 $0.5/GB ! 此外我们还提供:长期静态 ISP IP (低至 $3.0/月/个、独享原生、无限流量)、无限流量端口/带宽套餐、以及按个计费的短效住宅 IP 。不管什么业务规模,总有一款戳中你的预算! 🆓 福利二:零门槛,免费试用福利 新用户注册,在活动期间联系客服,即可免费领取 500MB 住宅 IP 试用流量! 无需任何充值,好不好用,跑个脚本测试了再说! 💰 福利三:联盟计划全新升级,轻松赚取美金 欢迎各大站长、大 V 、社群主以及有推介资源的 V 友加入我们的联盟计划。 尊享高达 10% 的高额返利,轻松赚取高达 $1000 的推荐现金奖励! 🛠️ 业务应用场景 Data for AI: 助力多模态大语言模型( LLM )高效抓取训练数据。 跨境电商 & 社交媒体:Facebook 、TikTok 、Instagram 、Discord 多账号防关联矩阵运营。 数据采集与监控: 竞品价格监控、市场研究分析、全球机票/酒店数据聚合。 📌 快速传送门 🌐 官方网站(点击前往注册): https://novproxy.com?kwd=tt-v ✈️ 官方电报( Telegram )找客服领免费流量: @ Nov669 各位 V 友在集成或使用过程中有任何技术问题,我们的技术团队提供 24/7 全天候支持。欢迎大家注册一试,有什么建议也欢迎在帖子里留言交流!
MiMo × TileRT 联合发布 Xiaomi MiMo-V2.5-Pro 的 UltraSpeed 模式,通过模型与系统的极致 Codesign,在通用 GPU 上将万亿参数模型的生成速度首次突破 1000 tokens/s。 mimo.xiaomi.com Xiaomi MiMo, Explore and Love MiMo × TileRT 联合发布 Xiaomi MiMo-V2.5-Pro 的 UltraSpeed 模式,通过模型与系统的极致 Codesign,在通用 GPU 上首次将万亿参数模型的生成速度突破 1000 tokens/s。 5 个帖子 - 3 位参与者 阅读完整话题
1 个帖子 - 1 位参与者 阅读完整话题
先说结论,能跑,但没办法长期跑,主要问题是散热,外挂风扇支架也不太能解决问题,高强度跑温度上升快,持续高温机器会降频。如果考虑便携+生产力,推荐上 mac book pro 吧。 装了两个平台,ollama 跟 olmx ,测试下来,olmx 平台会更快些,考虑到机器 32G 的内存,能跑的模型大小不要超 22GB 附上部分主流模型下载容量大小及 olmx 平台测试结果给大家做参考 Qwen3.5-4B-MLX-4bit 2.85GB gemma-4-26b-a4b-it-4bit 14.57GB Qwen3.6-35B-A3B-4bit 15.13GB GLM-4.7-Flash-4bit 15.71GB gpt-oss-20b-MXFP4-Q8 11.27GB oMLX - LLM inference, optimized for your Mac Benchmark Model: Qwen3.5-4B-MLX-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1001.6 22.74 1022.4 tok/s 44.3 tok/s 3.889 296.2 tok/s 3.29 GB pp4096/tg128 3540.9 23.76 1156.8 tok/s 42.4 tok/s 6.558 644.1 tok/s 3.90 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 44.3 tok/s 1.00x 1022.4 tok/s 1022.4 tok/s 1001.6 3.889 2x 88.3 tok/s 1.99x 407.6 tok/s 203.8 tok/s 3040.1 7.924 4x 175.1 tok/s 3.95x 322.7 tok/s 80.7 tok/s 6833.9 15.617 Benchmark Model: gemma-4-26b-a4b-it-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1500.5 24.21 682.4 tok/s 41.6 tok/s 4.575 251.8 tok/s 14.23 GB pp4096/tg128 4863.4 25.14 842.2 tok/s 40.1 tok/s 8.056 524.3 tok/s 14.91 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 41.6 tok/s 1.00x 682.4 tok/s 682.4 tok/s 1500.5 4.575 2x 82.5 tok/s 1.98x 361.6 tok/s 180.8 tok/s 3495.8 8.767 4x 166.1 tok/s 3.99x 283.4 tok/s 70.8 tok/s 7840.6 17.536 Benchmark Model: Qwen3.6-35B-A3B-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1676.1 17.20 610.9 tok/s 58.6 tok/s 3.860 298.4 tok/s 18.80 GB pp4096/tg128 5046.3 17.93 811.7 tok/s 56.2 tok/s 7.323 576.8 tok/s 19.24 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 58.6 tok/s 1.00x 610.9 tok/s 610.9 tok/s 1676.1 3.860 2x 116.2 tok/s 1.98x 435.5 tok/s 217.8 tok/s 2973.7 6.907 4x 230.7 tok/s 3.94x 352.0 tok/s 88.0 tok/s 6445.2 13.855 Benchmark Model: GLM-4.7-Flash-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1985.0 21.78 515.9 tok/s 46.3 tok/s 4.752 242.4 tok/s 16.27 GB pp4096/tg128 6839.2 27.31 598.9 tok/s 36.9 tok/s 10.307 409.8 tok/s 17.34 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 46.3 tok/s 1.00x 515.9 tok/s 515.9 tok/s 1985.0 4.752 2x 91.5 tok/s 1.98x 362.7 tok/s 181.3 tok/s 3549.9 8.445 4x 174.9 tok/s 3.78x 321.2 tok/s 80.3 tok/s 6393.9 15.679 Benchmark Model: gpt-oss-20b-MXFP4-Q8 ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1687.6 24.70 606.8 tok/s 40.8 tok/s 4.824 238.8 tok/s 11.67 GB pp4096/tg128 4088.8 26.44 1001.8 tok/s 38.1 tok/s 7.446 567.3 tok/s 11.75 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 40.8 tok/s 1.00x 606.8 tok/s 606.8 tok/s 1687.6 4.824 2x 82.1 tok/s 2.01x 359.0 tok/s 179.5 tok/s 3489.1 8.822 4x 159.5 tok/s 3.91x 293.2 tok/s 73.3 tok/s 7335.0 17.180
platform.xiaomimimo.com Xiaomi MiMo Api Open Platform - Token Plan Global Launch One-time purchase unlocks both MiMo-V2.5 flagship models, plus TTS model free across all tiers for a limited time. Unleash powerful productivity with Xiaomi MiMo 小米今日发布 MiMo-V2.5-Pro 的 UltraSpeed 体验模式,万亿参数( 1T )旗舰模型,最高突破 1000 tokens/s 推理速度,为极致实时场景而生。 资源有限,每日限量审批,优先面向专业机构开放。 申请链接 模型价格 推特原贴 技术解析 mimo.xiaomi.com Xiaomi MiMo, Explore and Love MiMo, in collaboration with TileRT, releases the UltraSpeed mode of Xiaomi MiMo-V2.5-Pro — breaking 1000 tokens/s generation speed on a 1T-parameter model for the first time on commodity GPUs through extreme model-system codesign. claude分析 模型评测 一些其他信息 技术与TileRT团队合作完成 将在抱抱脸开源 huggingface.co XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science. 22 个帖子 - 19 位参与者 阅读完整话题
现在可以申请测试了! API 平台: platform.xiaomimimo.com/ultraspeed 2 个帖子 - 2 位参与者 阅读完整话题
IT之家 6 月 8 日消息,中国科学院金属研究所孙东明、刘驰团队联合多家科研单位,在高频晶体管领域取得重要突破。 团队成功研制出国际上首款实现射频测试的硅-石墨烯-锗势垒晶体管 ,该器件刷新了垂直二维基区晶体管的截止频率纪录,并创造了晶体管电流增益的世界最高值。 相关研究成果以“A high-frequency silicon-graphene-germanium barristor”(一种高频硅-石墨烯-锗势垒晶体管)为题,于近日发表于《自然 · 通讯》(Nature Communications)。 这也是国际上首款成功实现射频测试功能的势垒晶体管 。 据介绍,随着 5G 的规模化部署与 6G 技术的前瞻性探索,物联网(IoT)、超高速传感及智能通信系统对晶体管的运行速度提出了前所未有的要求,即其截止频率需突破 1 太赫兹(THz)的关键门槛。 然而,传统高频晶体管,如高电子迁移率晶体管(HEMT)和异质结双极型晶体管(HBT),其性能受限于载流子在沟道或体材料基区中的渡越时间,难以满足太赫兹频段的应用需求。近年来,利用石墨烯等二维材料作为基区的垂直二维基区晶体管虽被寄予厚望,但界面处的量子隧穿势垒和缺陷问题长期存在,导致严重的载流子散射,限制了器件的电流增益与高频性能。 针对这一核心难题,联合团队提出了一种全新的器件架构,他们将晶圆级单晶单层石墨烯通过化学气相沉积外延生长于锗衬底上,再精确堆叠单晶硅膜,构筑出高质量的硅-石墨烯-锗垂直异质结构。 ▲ 高频硅-石墨烯-锗晶体管器件结构。a. 外延石墨烯晶圆;b. 器件截面示意图;c. 器件结构展开图;d. 扫描电子显微镜图像;e. 器件阵列光学图像 研究团队还利用石墨烯与硅、锗界面形成的不对称肖特基势垒,并结合石墨烯的量子电容效应实现功函数调控,使得锗端的电流变化幅度远大于硅端,从而产生了 1.8×10 7 的共射极电流增益, 创下目前已报道晶体管中的最高纪录 。 ▲ 势垒晶体管机制和直流特性。a. 不对称肖特基势垒能带图;b. 器件输入特性;c. 器件转移特性;d. 电流增益随栅压的变化;e. 器件增益统计分析;f. 与其他材料体系晶体管的增益对标。 在射频实测中,该晶体管的本征截止频率达到 132 GHz,超越了过去所有垂直二维基区晶体管的最高水平。进一步的器件建模与仿真分析表明,通过优化材料掺杂浓度、降低接触电阻及缩减寄生效应,该器件的理论工作频率有望突破 1 THz,进入太赫兹应用频段。 ▲ 势垒晶体管射频特性。a. 不同偏压下增益 H21 频率特性;b. 电流增益截止频率与偏压关系;c. 截止频率的温度依赖性;d. 不同锗掺杂浓度下截止频率分布;e. 不同器件面积的截止频率统计;f. 与其他垂直二维基区晶体管的射频性能对标。 ▲ 硅-石墨烯-锗势垒晶体管的紧凑物理模型。a. 电容模型和能带示意图;b. 截止频率随偏压的变化;c. 截止频率随掺杂浓度的变化;d. 截止频率随肖特基势垒高度的变化。 该研究不仅为势垒晶体管在射频与太赫兹通信领域的应用奠定了坚实基础, 也为未来物联网与 6G 传感系统的超高速信号处理提供了全新的技术路径 。 该项研究工作由中国科学院金属研究所的孙东明研究员和刘驰研究员主导,并与上海微系统与信息技术研究所薛忠营团队、华东师范大学高建军团队、微电子研究所汪令飞团队以及固态微波器件与电路全国重点实验室的宋旭波研究员合作完成。中国科学院金属研究所王肖月、乔梓珅和微电子所的孙绍唐为论文的共同第一作者。 该项研究工作得到了国家自然科学基金、国家重点研发计划、辽宁省杰出青年基金计划等多方资助 。 IT之家附论文地址: https://www.nature.com/articles/s41467-026-71447-3
先说结论,能跑,但没办法长期跑,主要问题是散热,外挂风扇支架也不太能解决问题,高强度跑温度上升快,持续高温机器会降频。如果考虑便携+生产力,推荐上 mac book pro 吧。 装了两个平台,ollama 跟 olmx ,测试下来,olmx 平台会更快些,考虑到机器 32G 的内存,能跑的模型大小不要超 22GB 附上部分主流模型下载容量大小及 olmx 平台测试结果给大家做参考 Qwen3.5-4B-MLX-4bit 2.85GB gemma-4-26b-a4b-it-4bit 14.57GB Qwen3.6-35B-A3B-4bit 15.13GB GLM-4.7-Flash-4bit 15.71GB gpt-oss-20b-MXFP4-Q8 11.27GB oMLX - LLM inference, optimized for your Mac Benchmark Model: Qwen3.5-4B-MLX-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1001.6 22.74 1022.4 tok/s 44.3 tok/s 3.889 296.2 tok/s 3.29 GB pp4096/tg128 3540.9 23.76 1156.8 tok/s 42.4 tok/s 6.558 644.1 tok/s 3.90 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 44.3 tok/s 1.00x 1022.4 tok/s 1022.4 tok/s 1001.6 3.889 2x 88.3 tok/s 1.99x 407.6 tok/s 203.8 tok/s 3040.1 7.924 4x 175.1 tok/s 3.95x 322.7 tok/s 80.7 tok/s 6833.9 15.617 Benchmark Model: gemma-4-26b-a4b-it-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1500.5 24.21 682.4 tok/s 41.6 tok/s 4.575 251.8 tok/s 14.23 GB pp4096/tg128 4863.4 25.14 842.2 tok/s 40.1 tok/s 8.056 524.3 tok/s 14.91 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 41.6 tok/s 1.00x 682.4 tok/s 682.4 tok/s 1500.5 4.575 2x 82.5 tok/s 1.98x 361.6 tok/s 180.8 tok/s 3495.8 8.767 4x 166.1 tok/s 3.99x 283.4 tok/s 70.8 tok/s 7840.6 17.536 Benchmark Model: Qwen3.6-35B-A3B-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1676.1 17.20 610.9 tok/s 58.6 tok/s 3.860 298.4 tok/s 18.80 GB pp4096/tg128 5046.3 17.93 811.7 tok/s 56.2 tok/s 7.323 576.8 tok/s 19.24 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 58.6 tok/s 1.00x 610.9 tok/s 610.9 tok/s 1676.1 3.860 2x 116.2 tok/s 1.98x 435.5 tok/s 217.8 tok/s 2973.7 6.907 4x 230.7 tok/s 3.94x 352.0 tok/s 88.0 tok/s 6445.2 13.855 Benchmark Model: GLM-4.7-Flash-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1985.0 21.78 515.9 tok/s 46.3 tok/s 4.752 242.4 tok/s 16.27 GB pp4096/tg128 6839.2 27.31 598.9 tok/s 36.9 tok/s 10.307 409.8 tok/s 17.34 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 46.3 tok/s 1.00x 515.9 tok/s 515.9 tok/s 1985.0 4.752 2x 91.5 tok/s 1.98x 362.7 tok/s 181.3 tok/s 3549.9 8.445 4x 174.9 tok/s 3.78x 321.2 tok/s 80.3 tok/s 6393.9 15.679 Benchmark Model: gpt-oss-20b-MXFP4-Q8 ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1687.6 24.70 606.8 tok/s 40.8 tok/s 4.824 238.8 tok/s 11.67 GB pp4096/tg128 4088.8 26.44 1001.8 tok/s 38.1 tok/s 7.446 567.3 tok/s 11.75 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 40.8 tok/s 1.00x 606.8 tok/s 606.8 tok/s 1687.6 4.824 2x 82.1 tok/s 2.01x 359.0 tok/s 179.5 tok/s 3489.1 8.822 4x 159.5 tok/s 3.91x 293.2 tok/s 73.3 tok/s 7335.0 17.180
先说结论,能跑,但没办法长期跑,主要问题是散热,外挂风扇支架也不太能解决问题,高强度跑温度上升快,持续高温机器会降频。如果考虑便携+生产力,推荐上 mac book pro 吧。 装了两个平台,ollama 跟 olmx ,测试下来,olmx 平台会更快些,考虑到机器 32G 的内存,能跑的模型大小不要超 22GB 附上部分主流模型下载容量大小及 olmx 平台测试结果给大家做参考 Qwen3.5-4B-MLX-4bit 2.85GB gemma-4-26b-a4b-it-4bit 14.57GB Qwen3.6-35B-A3B-4bit 15.13GB GLM-4.7-Flash-4bit 15.71GB gpt-oss-20b-MXFP4-Q8 11.27GB oMLX - LLM inference, optimized for your Mac Benchmark Model: Qwen3.5-4B-MLX-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1001.6 22.74 1022.4 tok/s 44.3 tok/s 3.889 296.2 tok/s 3.29 GB pp4096/tg128 3540.9 23.76 1156.8 tok/s 42.4 tok/s 6.558 644.1 tok/s 3.90 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 44.3 tok/s 1.00x 1022.4 tok/s 1022.4 tok/s 1001.6 3.889 2x 88.3 tok/s 1.99x 407.6 tok/s 203.8 tok/s 3040.1 7.924 4x 175.1 tok/s 3.95x 322.7 tok/s 80.7 tok/s 6833.9 15.617 Benchmark Model: gemma-4-26b-a4b-it-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1500.5 24.21 682.4 tok/s 41.6 tok/s 4.575 251.8 tok/s 14.23 GB pp4096/tg128 4863.4 25.14 842.2 tok/s 40.1 tok/s 8.056 524.3 tok/s 14.91 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 41.6 tok/s 1.00x 682.4 tok/s 682.4 tok/s 1500.5 4.575 2x 82.5 tok/s 1.98x 361.6 tok/s 180.8 tok/s 3495.8 8.767 4x 166.1 tok/s 3.99x 283.4 tok/s 70.8 tok/s 7840.6 17.536 Benchmark Model: Qwen3.6-35B-A3B-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1676.1 17.20 610.9 tok/s 58.6 tok/s 3.860 298.4 tok/s 18.80 GB pp4096/tg128 5046.3 17.93 811.7 tok/s 56.2 tok/s 7.323 576.8 tok/s 19.24 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 58.6 tok/s 1.00x 610.9 tok/s 610.9 tok/s 1676.1 3.860 2x 116.2 tok/s 1.98x 435.5 tok/s 217.8 tok/s 2973.7 6.907 4x 230.7 tok/s 3.94x 352.0 tok/s 88.0 tok/s 6445.2 13.855 Benchmark Model: GLM-4.7-Flash-4bit ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1985.0 21.78 515.9 tok/s 46.3 tok/s 4.752 242.4 tok/s 16.27 GB pp4096/tg128 6839.2 27.31 598.9 tok/s 36.9 tok/s 10.307 409.8 tok/s 17.34 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 46.3 tok/s 1.00x 515.9 tok/s 515.9 tok/s 1985.0 4.752 2x 91.5 tok/s 1.98x 362.7 tok/s 181.3 tok/s 3549.9 8.445 4x 174.9 tok/s 3.78x 321.2 tok/s 80.3 tok/s 6393.9 15.679 Benchmark Model: gpt-oss-20b-MXFP4-Q8 ================================================================================ Single Request Results -------------------------------------------------------------------------------- Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem pp1024/tg128 1687.6 24.70 606.8 tok/s 40.8 tok/s 4.824 238.8 tok/s 11.67 GB pp4096/tg128 4088.8 26.44 1001.8 tok/s 38.1 tok/s 7.446 567.3 tok/s 11.75 GB Continuous Batching pp1024 / tg128 -------------------------------------------------------------------------------- Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s) 1x 40.8 tok/s 1.00x 606.8 tok/s 606.8 tok/s 1687.6 4.824 2x 82.1 tok/s 2.01x 359.0 tok/s 179.5 tok/s 3489.1 8.822 4x 159.5 tok/s 3.91x 293.2 tok/s 73.3 tok/s 7335.0 17.180