WWW.YOUINFO.SITE
标签聚合 nvfp4

/tag/nvfp4

LinuxDo 最新话题 · 2026-05-26 14:30:04+08:00 · tech

模型选择,请自行下载并准备好以下两个模型 1、Qwen/Qwen3.6-27B-FP8,作用:用来给下方的模型开启MTP 2、sakamakismile/Huihui-Qwen3.6-27B-abliterated-NVFP4 docker镜像 docker pull scitrera/dgx-spark-sglang:0.5.12 给镜像打补丁 mkdir docker-build cd docker-build 输入nano Dockerfile,在其中填写以下内容 # 基于你提供的基础镜像 FROM scitrera/dgx-spark-sglang:0.5.12 # 切换到 root 用户(确保有安装权限) USER root # 安装你需要的所有 Python 包 RUN pip install --no-cache-dir \ cuda-tile \ tabulate \ nvidia-cudnn-cu12 \ nvidia-cudnn-frontend # 容器启动命令(继承原镜像) CMD ["/bin/bash"] 保存退出后,执行以下命令打包新镜像,请确保有科学上网的能力 docker build -t dgx-spark-sglang-nvfp4:latest . 完成后,输入docker images 查看镜像列表 运行模型,可以将下方代码保存到一个脚本中,方便后续调用 docker run -d --gpus all \ --privileged \ --restart unless-stopped \ --network host \ -v /data/models:/models \ --name sglang-Qwen3.6-27B-NVFP4 \ --ipc=host \ dgx-spark-sglang-nvfp4:latest \ sglang serve --sleep-on-idle \ --model-path /models/Huihui-Qwen3.6-27B-abliterated-NVFP4 \ --served-model-name "Qwen3.6-27B" \ --api-key "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --speculative-draft-model-path /models/Qwen3.6-27B-FP8/ \ ##官方模型此时用来作为MTP模型使用 --mamba-scheduler-strategy extra_buffer \ --context-length 262144 \ --trust-remote-code \ --host 0.0.0.0 \ --port 30000 \ --dtype auto \ --max-running-requests 4 \ --prefill-max-requests 4 \ --mem-fraction-static 0.4 \ --mamba-full-memory-ratio 0.1 \ --cuda-graph-max-bs 8 \ --radix-eviction-policy slru \ --schedule-policy lpm 实测速度,最快可达到每秒27 tokens,图中没截到最快的 4 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-30 15:31:12+08:00 · tech

导师搞了台DGX Spark,说要部署一个大模型进去,关于DGX的中文部署教程目前并不算多,和各位佬友分享一下这次部署过程完整,顺手写一篇教程。 这里计划部署的模型是 AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-NVFP4 · Hugging Face 一、安装Conda环境 执行命令,下载ARM64 版本的 Miniforge cd ~ wget -O Miniforge3-Linux-aarch64.sh \ https://mirrors.tuna.tsinghua.edu.cn/github-release/conda-forge/miniforge/LatestRelease/Miniforge3-Linux-aarch64.sh 为了避免国内网络问题这里使用了清华源 下载结束后安装: bash Miniforge3-Linux-aarch64.sh 安装过程中出现许可协议,一直yes就行 安装完成后,让配置立即生效: source ~/.bashrc 最后检查 Conda 是否安装成功: conda --version 二、安装模型 1.准备conda环境 执行命令创建名为 ‘hf’ 的conda环境 conda create -n hf python=3.13 -y conda activate hf 前面的括号是hf代表当前在hf这个环境当中 2.下载hfd.sh 由于国内网络问题,直接下载会很慢,这里使用hf-mirror提供的工具下载(如遇无法访问hf-mirror,挂个代理上去 https://github.com/nelvko/clash-for-linux-install) wget https://hf-mirror.com/hfd/hfd.sh chmod +x hfd.sh 发现访问不了,走代理 source ~/clashctl/scripts/cmd/clashctl.sh clashon export http_proxy=http://127.0.0.1:7890 export https_proxy=http://127.0.0.1:7890 wget https://hf-mirror.com/hfd/hfd.sh chmod +x hfd.sh 3.安装aria2 sudo apt-get install aria2 4.安装Hugging Face 相关依赖 pip install -U "huggingface_hub[cli]" hf_transfer 建议开启高速下载: export HF_HUB_ENABLE_HF_TRANSFER=1 输入下载命令下载模型(具体细节需要根据你的用户名称等进行修改) cd /home/cavin-dgx/models mkdir -p AEON-7 cd AEON-7 export HF_ENDPOINT=https://hf-mirror.com export HF_HUB_ENABLE_HF_TRANSFER=1 /home/cavin-dgx/hfd.sh AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-NVFP4 \ --tool aria2c \ -x 4 如遇权限问题请修改权限: sudo chown -R cavin-dgx:cavin-dgx /home/cavin-dgx/models 开始下载: 三、使用vllm运行模型 1. 拉取 AEON vLLM 镜像 sudo docker pull ghcr.io/aeon-7/vllm-aeon-ultimate-dflash:qwen36-v3 执行后发现这个镜像拉去太慢了,在1panel配置下加速 https://github.com/1Panel-dev/1Panel: { "registry-mirrors": [ "https://docker.1panel.live", "https://docker.1panel.dev", "https://docker.1ms.run", "https://docker.registry.cyou", "https://docker-cf.registry.cyou", "https://dockercf.jsdelivr.fyi", "https://docker.jsdelivr.fyi", "https://dockertest.jsdelivr.fyi", "https://mirror.aliyuncs.com", "https://dockerproxy.com", "https://mirror.baidubce.com", "https://docker.m.daocloud.io", "https://docker.nju.edu.cn", "https://docker.mirrors.sjtug.sjtu.edu.cn", "https://docker.mirrors.ustc.edu.cn", "https://mirror.iscas.ac.cn", "https://docker.rainbond.cc", "https://do.nark.eu.org", "https://dc.j8.work", "https://gst6rzl9.mirror.aliyuncs.com", "https://registry.docker-cn.com", "http://hub-mirror.c.163.com", "http://mirrors.ustc.edu.cn/", "https://mirrors.tuna.tsinghua.edu.cn/", "http://mirrors.sohu.com/" ], "insecure-registries": [ "registry.docker-cn.com", "docker.mirrors.ustc.edu.cn" ], "debug": true, "experimental": false } 试试,发现还是很慢,问题不在docker上,在云上,换个镜像站的地址看看 sudo docker pull ghcr.milu.moe/aeon-7/vllm-aeon-ultimate-dflash:qwen36-v3 发现这个速度还是很抽象,挂后台让他慢慢下吧 下了一晚上终于下好啦 2.运行vllm 输入命令测试下: sudo docker run --rm --gpus all \ --ipc=host \ --network=host \ -e TORCH_CUDA_ARCH_LIST="12.0+PTX" \ -e PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \ -e VLLM_USE_FLASHINFER_MOE_FP4=0 \ -v /home/cavin-dgx/models/AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-NVFP4:/models/aeon-ultimate \ ghcr.io/aeon-7/vllm-aeon-ultimate-dflash:qwen36-v3 \ vllm serve /models/aeon-ultimate \ --served-model-name aeon-ultimate \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --dtype auto \ --quantization compressed-tensors \ --max-model-len 65536 \ --max-num-seqs 16 \ --max-num-batched-tokens 32768 \ --gpu-memory-utilization 0.85 \ --enable-chunked-prefill \ --no-enable-prefix-caching \ --load-format safetensors \ --trust-remote-code \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser qwen3 \ --attention-backend flash_attn 接下来就是加载时间 启动成功!测一下通不通 3.导入到new api 我的new api也部署到这个机子上了,需要docker内部的网络统一一下,这里使用1panel-network和8000端口,根据实际情况可以自己修改,这里使用nohup挂到后台 nohup sudo docker run --rm --name nervous_kirch --gpus all --ipc=host --network 1panel-network -p 8000:8000 -e TORCH_CUDA_ARCH_LIST="12.0+PTX" -e PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True -e VLLM_USE_FLASHINFER_MOE_FP4=0 -v /home/cavin-dgx/models/AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-NVFP4:/models/aeon-ultimate ghcr.io/aeon-7/vllm-aeon-ultimate-dflash:qwen36-v3 vllm serve /models/aeon-ultimate --served-model-name aeon-ultimate --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --dtype auto --quantization compressed-tensors --max-model-len 65536 --max-num-seqs 16 --max-num-batched-tokens 32768 --gpu-memory-utilization 0.85 --enable-chunked-prefill --no-enable-prefix-caching --load-format safetensors --trust-remote-code --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 --attention-backend flash_attn > /home/cavin-dgx/aeon_vllm.log 2>&1 & 注意这里填网关地址,不要填成设备地址,new api部署到vps不需要考虑这个 测试通过,搞定! 四、远程调用 直接丢到CC开蹬! 整体部署容易踩雷的地方主要还是模型和下载镜像的网络问题,还有docker网关的问题。 5 个帖子 - 3 位参与者 阅读完整话题

linux.do · 2026-04-24 17:03:05+08:00 · tech

模型来源 RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face Qwen3.6-35B-A3B速度 单用户串行测试 : num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。 吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms 8 并发用户测试 : num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。 吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms 固定 QPS 多用户测试 : num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。 吞吐 229.79 tok/s, Mean TTFT 521.67 ms, P99 TTFT 4542.64 ms, Mean TPOT 62.82 ms 场景 成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms) 单用户串行测试 20 136.99 37.94 543.42 2878.45 23.46 24.17 8 并发用户测试 100 135.85 164.39 331.77 786.20 43.45 44.19 固定 QPS 多用户测试 200 194.69 229.79 521.67 4542.64 62.82 62.22 Qwen3.6-27B 单用户串行测试 : num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。 吞吐 11.68 tok/s, Mean TTFT 1078.83 ms, P99 TTFT 14364.02 ms, Mean TPOT 81.68 ms 8 并发用户测试 : num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。 吞吐 79.13 tok/s, Mean TTFT 678.16 ms, P99 TTFT 4253.76 ms, Mean TPOT 89.96 ms 固定 QPS 多用户测试 : num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。 吞吐 132.89 tok/s, Mean TTFT 428.64 ms, P99 TTFT 761.94 ms, Mean TPOT 108.11 ms 场景 成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms) 单用户串行测试 20 445.13 11.68 1078.83 14364.02 81.68 81.37 8 并发用户测试 100 280.35 79.13 678.16 4253.76 89.96 89.79 固定 QPS 多用户测试 200 336.47 132.89 428.64 761.94 108.11 106.61 总结 由于dgxspark的内存带宽和cuda核心都比较弱,只是内存比较大,能跑MOE模型还是优先跑MOE模型。这里跑Dense模型速度快砍半了 2 个帖子 - 2 位参与者 阅读完整话题