对 ai infra 领域感兴趣的同学欢迎投递~ 深入理解 vLLM/SGLang 等主流引擎机制,优化推理服务稳定性与资源效率~ 期望构建基于可观测体系( Metrics/Profiling/Tracing )的性能回归自动化平台。设计高可用架构,建立故障应急、容量评估与限流降级机制,分析线上异常( OOM 、延迟抖动、软死锁等)并闭环解决~ https://neitui.italent.cn/AIPOWER/sharejobs/detail?shareId=1ebaacf1-b42f-4929-8185-de95c2c1ea85&language=zh_CN
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。 transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
上集回顾 [Qwen3.6]27B-FP8 VLLM本地部署主观个人测评 环境: WLS2 Ubuntu22.04 硬件: 4090 48G SGLang太佛系了,快一个月了还不更新正式版,需要好好挖掘pr。目前已经找到4090 48G本地部署的版本。 我测试了两个模型。以及DFlash加速方案。 模型: 官方FP8 Qwen/Qwen3.6-27B-FP8 · Hugging Face HuiHui edp1096/Huihui-Qwen3.6-27B-abliterated-FP8 · Hugging Face 均支持MTP 加速,以及DFlash加速。 SGlang venv环境部署: uv venv sglang-dev --python 3.12 source sglang-dev/bin/activate #Ubuntu 可能遇到环境依赖问题,选择性安装 curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y source $HOME/.cargo/env apt-get install -y protobuf-compiler #主要安装pr #23190 uv pip install "git+https://github.com/sgl-project/sglang.git@refs/pull/23190/head#subdirectory=python" 老惯例,启动配置脚本附件,参数都在里面,脚本仅为方便调试参数。 启动配置.zip (1.7 KB) 具体可查阅 【SGLang】409048G魔改部署 Qwen3.5-27B-FP8&35B A3B一些心得经验分享。 以下是测试截图: DFlash还属于测试版本,我测试下来,不太稳定,能用,但是没有MTP加速效果快。等正式版发布。 这次主要有一个非常的地方,是我群里的好友提出的,我测试了以后有效。在他大炮RTX6000Pro的硬件下,跑出了单发200+top/s的惊人速度! 核心:SGLang的配置参数中,指定MTP模型路径!–speculative-draft-model-path (指向模型文件路径即可) 否则SGLang使用的是自带的MTP模型。Qwen3.6 27B 自带MTP模型,加速效果非常显著! HuiHui模型非常好用,配合Hermes、GenericAgent等agent,轻松实现各种破限操作。 GenericAgent 强烈推荐由复旦大学研究生团队出品的国产agent 框架,我最近一直在使用,其核心是将skill成功运行以后结晶为SOP,同时在框架中优化上下文截断原理,保证agent在执行任务过程中不被上下文过长的问题造成污染。 指路: GenericAgent 教程: hello-generic-agent 原理(建议阅读): GenericAgent 的第一性原理 后续我会另开帖子详细分享GenericAgent使用体验! 1 个帖子 - 1 位参与者 阅读完整话题