WWW.YOUINFO.SITE
标签聚合 27b

/tag/27b

LinuxDo 最新话题 · 2026-06-09 19:21:10+08:00 · tech

如题,这个帖子是本人为iPad升级了iPadOS27beta1,体验如何呢? 设备:iPad pro 2024 系统整体个人评价:部分地方比26系统流畅很多,部分地方比26.5卡顿;但是我个人不喜欢27系统的图标,感觉没有26系统好看( 游戏评价:部分游戏不能游玩,原因应该是sdk不兼容,包括但不限于米游全家桶、掌上无畏契约。 引导式访问评价:不再有26系统的那种卡一秒点不动的问题,没有音游掉帧的问题,但是关闭引导式访问的过场动画会飘,不知道后续会不会修复;反正我是不在意这个小问题的,毕竟用引导式访问就不是为了美观。 如果不是我这个机型,为了更流畅的引导式访问而升级是没有必要的、有风险的,因为b站上有人说引导式访问有关不掉的bug(不过我猜测他们是刚更新结束还没把设备稍微放置一下,就火急火燎地开引导式访问左侧是我,然后就出bug了) 我发现的网上没人说的bug:使用辅助触控掉帧严重,概率100%,而且重启按钮失效,不知道是不是因为我的系统我至今还在indexing,不过应该就是bug 1 个帖子 - 1 位参与者 阅读完整话题

v2ex · 2026-06-06 08:02:01+08:00 · tech

https://crazyrouter.com/ 27b0ca8628c3457baec5baaf89729f5c 588d80377be1476a85889c1befee1e24 25d5008c72b24fe5ab11dc93b26101ea 224a9993a6b34d41ae31acab9d2cb3a9 985de20df9cf4fe486ee9adccd489c37 e71c0f12655746e89cfd0f1376d13a47 4ef3c62159f94514911540082ed1346d 004b78efc79f486daf8d05326d35e38b 80b59f4d46594543871db5f560349322 cf6a7e8a1c194239b489bdf309789f6c c7e5a30733304663a693cb258165381a de726f0425ec4f1892471a5141cc91a6 c704df4e79a9445993a5b3753636d644 86f103fc86434ffd805de3f79348269a b48b894d7e2444e7966408ae5204064b cc0acc1168b3474eadfaf9d009db8024 e03a3c2c0ba0431b80e3e47f1ba31830 6eccf4b2ca1246b19115a73f3f047ed3 dd99e1d81eca4b9fa07b2059a2372d44 bc3443eb5d594007a3aaa857279cc96e 3f924cc0eef748aebfc9d1dd5201456c 12df0f4eda5c441b9a9b573bdad1471f 2a1ac88c0eb645ef8ac3a52873ca18c9 b0668e4bc751486599a3b7fe4ef77fbc e57c5f0796e74b4db02e54d2637031a8 23d7a10be5044882bd2e9729353205ac 04970ec75a9d480fa7d8fa9a0fef8d8e d7620482ab4a453a9f21b88a75405a74 b83f72bc0c344ad0b75a7ae36c6986c2 8b74eda7842b4054b960b3cff63d232c

LinuxDo 最新话题 · 2026-05-26 14:30:04+08:00 · tech

模型选择,请自行下载并准备好以下两个模型 1、Qwen/Qwen3.6-27B-FP8,作用:用来给下方的模型开启MTP 2、sakamakismile/Huihui-Qwen3.6-27B-abliterated-NVFP4 docker镜像 docker pull scitrera/dgx-spark-sglang:0.5.12 给镜像打补丁 mkdir docker-build cd docker-build 输入nano Dockerfile,在其中填写以下内容 # 基于你提供的基础镜像 FROM scitrera/dgx-spark-sglang:0.5.12 # 切换到 root 用户(确保有安装权限) USER root # 安装你需要的所有 Python 包 RUN pip install --no-cache-dir \ cuda-tile \ tabulate \ nvidia-cudnn-cu12 \ nvidia-cudnn-frontend # 容器启动命令(继承原镜像) CMD ["/bin/bash"] 保存退出后,执行以下命令打包新镜像,请确保有科学上网的能力 docker build -t dgx-spark-sglang-nvfp4:latest . 完成后,输入docker images 查看镜像列表 运行模型,可以将下方代码保存到一个脚本中,方便后续调用 docker run -d --gpus all \ --privileged \ --restart unless-stopped \ --network host \ -v /data/models:/models \ --name sglang-Qwen3.6-27B-NVFP4 \ --ipc=host \ dgx-spark-sglang-nvfp4:latest \ sglang serve --sleep-on-idle \ --model-path /models/Huihui-Qwen3.6-27B-abliterated-NVFP4 \ --served-model-name "Qwen3.6-27B" \ --api-key "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --speculative-draft-model-path /models/Qwen3.6-27B-FP8/ \ ##官方模型此时用来作为MTP模型使用 --mamba-scheduler-strategy extra_buffer \ --context-length 262144 \ --trust-remote-code \ --host 0.0.0.0 \ --port 30000 \ --dtype auto \ --max-running-requests 4 \ --prefill-max-requests 4 \ --mem-fraction-static 0.4 \ --mamba-full-memory-ratio 0.1 \ --cuda-graph-max-bs 8 \ --radix-eviction-policy slru \ --schedule-policy lpm 实测速度,最快可达到每秒27 tokens,图中没截到最快的 4 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-24 12:53:17+08:00 · tech

最近看到站内有不少朋友在分享并推崇这个大模型榜单,我来批判下,欢迎各位理性交流。 先回顾下这个榜单的基本情况: 性质 :个人性质评测,使用滚动更新的私有题库进行长期跟踪。 侧重点 :主要测试大模型在逻辑、数学、编程及人类直觉等方面的表现。由于不是全方位测试,主要提供一个观察大模型进化趋势的侧面视角。 体量 :题库数量在 60 道左右。 我的批判: 1. 题库样本量过小 相比于目前主流的 Humanity’s Last Exam (HLE) 等动辄 2100 道题的大型 Benchmark,60 道的题量在评估全面性和稳定性上存在明显差距。 2. 测能力变成了“掷硬币”——离谱的得分方差 在仅有 60 道题的盘子里,模型答题甚至会出现 30% 到 40% 的巨大震荡。这意味着模型做这套题的表现,很大程度上等同于“抛硬币盲猜”——运气好蒙对几题,或运气差错失几题,分数就会产生剧烈跳水。用这种极高方差的数据来排榜,很难真正证明“谁比谁聪明”,反而暴露了题库量太少、提示词可能存在诱导性,导致测试结果充满了极大的偶然性。 3. 开启 Think(思考)参数前后反差过于离谱 Grok 4.20 Beta (Think) :靠着思考模式狂砍 63.98 分,高居前列;但你往下看,它的基础原版 Grok 4.20 Beta 居然只有惊人的 8.94 分(全榜倒数第一!)。 Gemini 3 Flash (High) :得分 68.89 ,而原版 Gemini 3 Flash 仅为 32.41 分。 思考模式固然有加成,但在同一榜单中出现如此极端的分差,其评分机制的合理性有待商榷。 4. 排名与主流榜单存在较大出入 在 HLE 等当前尚未被“刷爆”的榜单上,Mimo v2.5 Pro 的表现远超 Qwen3.6 27B;但在该榜单中,二者成绩却相差无几。这种“千亿大模型(1T)与 27B 模型打平”的反差感,不可否认给榜单带来了流量,但也确实有悖于主流共识。 5. 作为主打“逻辑”的榜单,缺乏区分度 在题目设置上合理性欠佳,没有拉开区分度。表面上看,DeepSeek v4 Pro 和前三名分数咬得很紧,但事实上,在更多严谨的主流 Benchmark 上,它们之间的差距依然十分显著。 下面这道题,去年11月的gemini3.0pro可以解答,目前还没有一个国产模型可以正确回答,从这种问题可以看出来,很多所谓的逻辑题,都是有一定的逻辑陷阱,这里的陷阱就是形状是可以用手感知的。回答结果29的模型都没有注意到这一点,反而在用常规逻辑解答。 在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆形苹果味匹配五角星桃子味糖果,或者有圆形桃子味匹配五角星苹果味糖果都满足要求) 苹果味 桃子味 西瓜味 圆形 7 9 8 五角星形 7 6 4 6. 模型的思考深度及细节瑕疵 观察发现,排名靠后的模型平均输出 Token 通常很短。对于逻辑题而言,主流模型往往需要较长的思维链(CoT)来支撑。这里顺便吐槽下 DeepSeek 的老问题:思维链中的无效信息依然偏多。 另外榜单还有一些小瑕疵,比如榜上出现了两个 Mimo v2.5;还有 Gemma4 31B 的推理速度极慢,与直觉严重不符。 总结: 当然,个人制作榜单并坚持长期更新实属不易,非常感谢原作者的用心分享和付出。但综合以上几点,还是希望大家在评估 LLM 能力时能多方参考,不要单纯把这类榜单奉为圭臬来进行严谨的排名对比。 4 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-24 01:48:28+08:00 · tech

看到过太多人把这个榜单奉为圭臬,说下我的看法,理性交流。 1. 只有60道题目的逻辑测试 相比较humanity’s last exam(HLE)等前沿benchmark,差距巨大。 2. 极度反常的think参数差异 同样的grok4.20,开启think前后是8.94 vs 63.98,一个说胡话的倒数第一模型,开启think模式后立刻暴涨, gemini3-flash 前后是32 vs 68。 3. 测能力变成了“掷硬币”——离谱的得分方差 总共就 60 道题的盘子,模型答题居然能出现 30% 到 40% 的巨大震荡!这说明模型做这套题的表现, 等同于抛硬币闭眼瞎蒙 。稍微运气好蒙对几题,或者运气差错几题,分数就会产生剧烈跳水。 4. 有两个mimo-v2.5 可能是没有正确标注 think模式,mimo默认开启thinking参数 5. 极度反常的mimo得分 真的稍微用过mimov2.5pro和qwen3.6-27B本地版的,都不会觉得这俩模型是一个逻辑水平。在humanity’s last exam(HLE)榜单上,gemma4-31B 和qwen3.6-27B的得分如下 6. 前排模型没有拉开差距 在复杂的数学逻辑题目上,gemini,gpt,claude相对于国产模型都有巨大优势,但是主打 逻辑 的榜单看不出这种差距。 7.思考时间和输出token长度 排名靠后的模型普遍输出token少,思考时间短,对于逻辑题目来说,目前的大模型会普遍产生很长的思维链,这个榜单的数据非常异常。这里给一个例子各位参考下 在离营地100公里的沙漠中有一个宝贝,中间无人烟,开汽车去取。汽车每公里要消耗1升的油,汽车最多可以装100升的油。怎样才能把宝贝取回来? 如何数学建模找到最优解 其他的小问题还有,gemma4 31b的速度非常慢,很奇怪。 总结 虽然主流benchmark会被llm过拟合刷分,但是参考性还是比这种图一乐的榜单强。 3 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-09 07:04:30+08:00 · tech

各位佬,小弟需要一个问题,看大家都在用MTP给大模型加速,速度几乎都提升了一倍。于是我也试了试,我的环境是A100,vllm0.16.x,Qwen3.5 27B稠密模型,上下文开到256k。 mtp参数如下:–speculative-config ‘{“method”: “mtp”, “num_speculative_tokens”: 2}’ 启动日志中显示已经使用了MTP,但是速度和没开之前是一样的,毫无提升,都是25-27token每秒。希望各位指点一二,万分感谢! 3 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-07 20:50:49+08:00 · tech

codex造飞机!(最新进展,坠机了/(ㄒoㄒ)/~~ ) 开发调优 ========================================================= 以下是原帖 [4e2ea621ee3cdb27bcda3ad54b44216e] 最近在搞fpv无人机智能驾驶的项目,但是ap飞控死活搞不定,差不多我自己搞了两个月还没能搞定 然后codex上手第一天就把固件搞定了,电机驱动也第一时间搞定了,同时辅导我装硬件(完全把我当傻… 好了,让gpt分析错误日志再调一次,特奶奶的直接原地炸鸡(图二) 9 个帖子 - 9 位参与者 阅读完整话题

linux.do · 2026-05-04 10:21:26+08:00 · tech

上集回顾 [Qwen3.6]27B-FP8 VLLM本地部署主观个人测评 环境: WLS2 Ubuntu22.04 硬件: 4090 48G SGLang太佛系了,快一个月了还不更新正式版,需要好好挖掘pr。目前已经找到4090 48G本地部署的版本。 我测试了两个模型。以及DFlash加速方案。 模型: 官方FP8 Qwen/Qwen3.6-27B-FP8 · Hugging Face HuiHui edp1096/Huihui-Qwen3.6-27B-abliterated-FP8 · Hugging Face 均支持MTP 加速,以及DFlash加速。 SGlang venv环境部署: uv venv sglang-dev --python 3.12 source sglang-dev/bin/activate #Ubuntu 可能遇到环境依赖问题,选择性安装 curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y source $HOME/.cargo/env apt-get install -y protobuf-compiler #主要安装pr #23190 uv pip install "git+https://github.com/sgl-project/sglang.git@refs/pull/23190/head#subdirectory=python" 老惯例,启动配置脚本附件,参数都在里面,脚本仅为方便调试参数。 启动配置.zip (1.7 KB) 具体可查阅 【SGLang】409048G魔改部署 Qwen3.5-27B-FP8&35B A3B一些心得经验分享。 以下是测试截图: DFlash还属于测试版本,我测试下来,不太稳定,能用,但是没有MTP加速效果快。等正式版发布。 这次主要有一个非常的地方,是我群里的好友提出的,我测试了以后有效。在他大炮RTX6000Pro的硬件下,跑出了单发200+top/s的惊人速度! 核心:SGLang的配置参数中,指定MTP模型路径!–speculative-draft-model-path (指向模型文件路径即可) 否则SGLang使用的是自带的MTP模型。Qwen3.6 27B 自带MTP模型,加速效果非常显著! HuiHui模型非常好用,配合Hermes、GenericAgent等agent,轻松实现各种破限操作。 GenericAgent 强烈推荐由复旦大学研究生团队出品的国产agent 框架,我最近一直在使用,其核心是将skill成功运行以后结晶为SOP,同时在框架中优化上下文截断原理,保证agent在执行任务过程中不被上下文过长的问题造成污染。 指路: GenericAgent 教程: hello-generic-agent 原理(建议阅读): GenericAgent 的第一性原理 后续我会另开帖子详细分享GenericAgent使用体验! 1 个帖子 - 1 位参与者 阅读完整话题