IT之家 6 月 1 日消息,在今日的 2026 台北国际电脑展主题演讲中,英伟达 CEO 黄仁勋发布了“全球最强大的桌面 AI 超级计算机”—— DGX Station for Windows 。 DGX Station for Windows 用于在 Windows 上开发和运行智能体 —— 基于英伟达 GB300 Grace Blackwell Ultra Desktop Superchip 构建, 将于今年第四季度上市 。 英伟达表示,繁重的企业级 AI 工作负载(训练、微调、大规模推理和多智能体开发)通常需要数据中心运行在 Linux 上,而绝大多数财富 500 强公司则使用 Windows 进行日常生产力、创意、设计和工程应用程序。 DGX Station for Windows 基于 NVIDIA DGX Station 系统设计,作为首款将 GB300 Grace Blackwell 级 AI 基础架构直接引入 Windows 生态系统的桌面 AI 超级计算机,弥合了这一差距。 DGX Station 由 GB300 Grace Blackwell Ultra 桌面超级芯片提供支持,通过 NVIDIA NVLink-C2C 互连将 Blackwell Ultra GPU 连接到 72 核 Grace CPU。 它配备高达 748GB 的相干内存和高达 20 petaflops 的 FP4 性能,并可与 RTX PRO 6000 Blackwell 工作站 GPU 配合使用,实现前沿 AI 计算,包括光线追踪可视化和模拟。 此外,DGX Station for Windows 还配备了 NVIDIA ConnectX-8 SuperNIC,该网卡经过优化,可显著提升超大规模 AI 计算工作负载的性能。ConnectX-8 SuperNIC 支持高达 800Gb/s 的网络传输速度,能够为 AI 工作负载提供更快的网络数据传输,并支持多个 DGX Station 系统之间的高速连接,从而处理更大规模的工作负载。 DGX Station for Windows 由英伟达与微软合作开发,支持高达 1 万亿参数的 AI 模型。DGX Station 还支持大规模运行智能体,数百个智能体可以同时执行任务。 IT之家从英伟达公告获悉,预计华硕、戴尔、技嘉、惠普、微星和超微将于 今年第四季度 推出 DGX Station for Windows 产品。
模型选择,请自行下载并准备好以下两个模型 1、Qwen/Qwen3.6-27B-FP8,作用:用来给下方的模型开启MTP 2、sakamakismile/Huihui-Qwen3.6-27B-abliterated-NVFP4 docker镜像 docker pull scitrera/dgx-spark-sglang:0.5.12 给镜像打补丁 mkdir docker-build cd docker-build 输入nano Dockerfile,在其中填写以下内容 # 基于你提供的基础镜像 FROM scitrera/dgx-spark-sglang:0.5.12 # 切换到 root 用户(确保有安装权限) USER root # 安装你需要的所有 Python 包 RUN pip install --no-cache-dir \ cuda-tile \ tabulate \ nvidia-cudnn-cu12 \ nvidia-cudnn-frontend # 容器启动命令(继承原镜像) CMD ["/bin/bash"] 保存退出后,执行以下命令打包新镜像,请确保有科学上网的能力 docker build -t dgx-spark-sglang-nvfp4:latest . 完成后,输入docker images 查看镜像列表 运行模型,可以将下方代码保存到一个脚本中,方便后续调用 docker run -d --gpus all \ --privileged \ --restart unless-stopped \ --network host \ -v /data/models:/models \ --name sglang-Qwen3.6-27B-NVFP4 \ --ipc=host \ dgx-spark-sglang-nvfp4:latest \ sglang serve --sleep-on-idle \ --model-path /models/Huihui-Qwen3.6-27B-abliterated-NVFP4 \ --served-model-name "Qwen3.6-27B" \ --api-key "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --speculative-draft-model-path /models/Qwen3.6-27B-FP8/ \ ##官方模型此时用来作为MTP模型使用 --mamba-scheduler-strategy extra_buffer \ --context-length 262144 \ --trust-remote-code \ --host 0.0.0.0 \ --port 30000 \ --dtype auto \ --max-running-requests 4 \ --prefill-max-requests 4 \ --mem-fraction-static 0.4 \ --mamba-full-memory-ratio 0.1 \ --cuda-graph-max-bs 8 \ --radix-eviction-policy slru \ --schedule-policy lpm 实测速度,最快可达到每秒27 tokens,图中没截到最快的 4 个帖子 - 2 位参与者 阅读完整话题
安装 Python 3.12 使用 miniconda 安装 Python 3.12 mkdir -p ./miniconda3_install_tmp # Download the miniconda3 installation script wget https://repo.anaconda.com/miniconda/Miniconda3-py312_26.3.2-2-Linux-aarch64.sh -O ./miniconda3_install_tmp/miniconda.sh # Install miniconda3 into the project directory bash ./miniconda3_install_tmp/miniconda.sh -b -u -p ./miniconda3 安装完成后,您将获得一个空的初始环境。请激活此初始环境,它默认使用 Python 3.12。 source ./miniconda3/bin/activate python --version # Should display 3.12.x 进入项目目录中拉取官方demo项目 cd miniconda3 git clone https://github.com/OpenBMB/MiniCPM-o-Demo.git 下载decord github.com/csabakecskemeti/dgx_spark_prebuilds decord/decord-0.6.0-cp312-cp312-linux_aarch64.whl main 此文件是二进制文件。 显示原始文件 下载torchcodec github.com/time2k/torchcodec_for_aarch64 torchcodec-0.8.1-cp312-cp312-linux_aarch64.whl main 此文件是二进制文件。 显示原始文件 将下载的decord、torchcodec包放到MiniCPM-o-Demo目录内 修改install.sh文件 修改python版本号为3.12 PYTHON="${PYTHON:-python3.12}" 修改torch、torchaudio安装版本,增加torchcodec、decord安装 修改前 ${PIP} install "torch==2.8.0" "torchaudio==2.8.0" 修改后 ${PIP} install torch==2.9.0+cu130 torchaudio==2.9.0 --index-url https://download.pytorch.org/whl/cu130 ${PIP} install torchcodec-0.8.1-cp312-cp312-linux_aarch64.whl ${PIP} install decord-0.6.0-cp312-cp312-linux_aarch64.whl 完整install.sh文件内容 #!/bin/bash # MiniCPMO45 Service One-Click Environment Installation Script # # Usage: # cd minicpmo45_service # bash install.sh # # Features: # 1. Create a Python 3.10 virtual environment # 2. Install PyTorch + core dependencies # 3. Attempt to install Flash Attention 2 (auto-skip on failure, fallback to SDPA) # 4. Verify installation results # # Environment Variables (optional): # PYTHON=python3.11 Specify Python interpreter (default: python3.10) # SKIP_FLASH_ATTN=1 Skip Flash Attention installation # MAX_JOBS=8 Flash Attention compilation parallelism (default: nproc) set -e # Exit on error (flash-attn section handled separately) # ============ Configuration ============ VENV_DIR=".venv/base" PIP="${VENV_DIR}/bin/pip" PYTHON_BIN="${VENV_DIR}/bin/python" PYTHON="${PYTHON:-python3.12}" MAX_JOBS="${MAX_JOBS:-$(nproc 2>/dev/null || echo 8)}" FLASH_ATTN_VERSION=">=2.7.1,<=2.8.2" # Officially recommended version range # ============ Colored Output ============ GREEN='\033[0;32m' YELLOW='\033[1;33m' RED='\033[0;31m' NC='\033[0m' # No Color info() { echo -e "${GREEN}[INFO]${NC} $1"; } warn() { echo -e "${YELLOW}[WARN]${NC} $1"; } error() { echo -e "${RED}[ERROR]${NC} $1"; } # ============ Step 1: Create Virtual Environment ============ info "Step 1/4: Creating virtual environment (${VENV_DIR})" if [ -d "${VENV_DIR}" ]; then warn "Virtual environment already exists: ${VENV_DIR}, skipping creation" else if ! command -v "${PYTHON}" &> /dev/null; then error "${PYTHON} not found. Please install Python 3.10+ or specify the path via PYTHON=python3.x" exit 1 fi PYTHON_VERSION=$("${PYTHON}" -c "import sys; print(f'{sys.version_info.major}.{sys.version_info.minor}')") info "Using Python ${PYTHON_VERSION} (${PYTHON})" "${PYTHON}" -m venv "${VENV_DIR}" info "Virtual environment created successfully" fi ${PIP} install --upgrade pip -q # ============ Step 2: Install PyTorch ============ info "Step 2/4: Installing PyTorch + torchaudio" # Check if already installed (skip redundant installation) if ${PYTHON_BIN} -c "import torch; print(torch.__version__)" 2>/dev/null | grep -q "2.8"; then TORCH_VER=$(${PYTHON_BIN} -c "import torch; print(torch.__version__)") CUDA_VER=$(${PYTHON_BIN} -c "import torch; print(torch.version.cuda)") info "PyTorch already installed: ${TORCH_VER} (CUDA ${CUDA_VER}), skipping" else ${PIP} install torch==2.9.0+cu130 torchaudio==2.9.0 --index-url https://download.pytorch.org/whl/cu130 ${PIP} install torchcodec-0.8.1-cp312-cp312-linux_aarch64.whl ${PIP} install decord-0.6.0-cp312-cp312-linux_aarch64.whl TORCH_VER=$(${PYTHON_BIN} -c "import torch; print(torch.__version__)") CUDA_VER=$(${PYTHON_BIN} -c "import torch; print(torch.version.cuda)") info "PyTorch installed successfully: ${TORCH_VER} (CUDA ${CUDA_VER})" fi # ============ Step 3: Install Core Dependencies ============ info "Step 3/4: Installing core dependencies (requirements.txt)" ${PIP} install -r requirements.txt info "Core dependencies installed successfully" # ============ Step 4: Install Flash Attention 2 (Not Recommended) ============ # info "Step 4/4: Installing Flash Attention 2 (optional, auto-skip on failure)" # if [ "${SKIP_FLASH_ATTN}" = "1" ]; then # warn "SKIP_FLASH_ATTN=1, skipping Flash Attention installation" # warn "Inference will use PyTorch SDPA (approximately 5-15% slower)" # else # # Check if already installed # if ${PYTHON_BIN} -c "import flash_attn; print(flash_attn.__version__)" 2>/dev/null; then # FA_VER=$(${PYTHON_BIN} -c "import flash_attn; print(flash_attn.__version__)") # info "Flash Attention already installed: ${FA_VER}, skipping" # else # info "Attempting to install flash-attn${FLASH_ATTN_VERSION} (MAX_JOBS=${MAX_JOBS})..." # info "This may take several minutes (compiling CUDA kernels)..." # set +e # Temporarily disable errexit to allow failure # MAX_JOBS=${MAX_JOBS} ${PIP} install "flash-attn${FLASH_ATTN_VERSION}" --no-build-isolation 2>&1 # FLASH_EXIT_CODE=$? # set -e # Restore errexit # if [ ${FLASH_EXIT_CODE} -eq 0 ]; then # FA_VER=$(${PYTHON_BIN} -c "import flash_attn; print(flash_attn.__version__)") # info "Flash Attention installed successfully: ${FA_VER}" # else # warn "==========================================" # warn "Flash Attention installation failed (exit code: ${FLASH_EXIT_CODE})" # warn "This does not affect service operation — inference will automatically use PyTorch SDPA" # warn "Performance difference: SDPA is approximately 5-15% slower than Flash Attention" # warn "" # warn "Common causes:" # warn " - CUDA toolkit version mismatch with PyTorch" # warn " - Unsupported GPU architecture (requires SM80+, e.g. A100/H100)" # warn " - Missing compilation toolchain (gcc/g++/nvcc)" # warn "" # warn "To retry manually:" # warn " MAX_JOBS=${MAX_JOBS} ${PIP} install \"flash-attn${FLASH_ATTN_VERSION}\" --no-build-isolation" # warn "==========================================" # fi # fi # fi # ============ Installation Summary ============ echo "" echo "============================================" info "Installation complete! Environment summary:" echo "============================================" ${PYTHON_BIN} -c " import torch print(f' Python: {__import__(\"sys\").version.split()[0]}') print(f' PyTorch: {torch.__version__}') print(f' CUDA: {torch.version.cuda}') print(f' GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else \"N/A\"}') try: import flash_attn print(f' Flash Attn: {flash_attn.__version__} ✓') attn_backend = 'flash_attention_2' except ImportError: print(f' Flash Attn: Not installed (will use SDPA)') attn_backend = 'sdpa' import transformers print(f' Transformers: {transformers.__version__}') print() print(f' Attention Backend: {attn_backend}') " echo "" info "Next steps:" echo " 1. Configure model path:" echo " cp config.example.json config.json" echo " # Edit config.json and set model.model_path" echo "" echo " 2. Start the service:" echo " bash start_all.sh" echo "============================================" 安装MiniCPM 执行安装脚本 bash install.sh 安装前端 cd frontend/mobile/ bun install 安装docs-app cd - cd docs-app npm install cd .. 复制配置文件 将项目目录中的 config.example.json 复制到 config.json 。 cp config.example.json config.json 修改config.json中的模型路径 模型路径( model_path )默认为 openbmb/MiniCPM-o-4_5 。如果您有 Hugging Face 的访问权限,则无需进行任何修改——模型将自动从 Hugging Face 拉取。 启动MiniCPM bash start_all.sh 停止MiniCPM pkill -f "gateway.py|worker.py" 1 个帖子 - 1 位参与者 阅读完整话题
手里有一台 NVIDIA DGX Spark ,需要基于教育场景,职大或者本科这种院校,搭建业务场景,没有具体的需求,不知道该咋搞了,求助。 19 个帖子 - 7 位参与者 阅读完整话题
IT之家 5 月 7 日消息,联发科技 (Mediatek) 今日宣布其位于苗栗铜锣科学园区的研发数据中心一期正式启用。该项目始建于 2023 年,后续将按实际需求弹性逐步扩展二、三期。 联发科技表示,苗栗铜锣研发数据中心是 中国台湾地区首座以 NVIDIA(英伟达)DGX B200 平台驱动的 NVIDIA DGX SuperPOD 系统打造的 AI 高算力计算平台 ;也是 岛内首座大规模导入新式节能浸没式冷却技术的研发数据中心 ,PUE 低至 1.1;配套“晶圆厂等级”的供电系统。 IT之家注意到,在环保方面该研发数据中心上方设有光伏电池板,总容量 235kW,能满足 67 个家庭的需求;其空调将再生水作为主要冷却介质,冷却系统也部分应用再生水。
Spark 最贵,和后两者价钱有点儿区别,不过看起来都像是同一个方案,只是公版和各家自己牌子的区别而已? Spark 自带开箱即用的工具集,会有老黄家在 Spark 上才能用的工具吗? 用线对联 Spark 也能和另外两个机型,扩展使用 LLM ? 三者有什么产品硬件上的差异区别?
Spark 最贵,和后两者价钱有点儿区别,不过看起来都像是同一个方案,只是公版和各家自己牌子的区别而已? Spark 自带开箱即用的工具集,会有老黄家在 Spark 上才能用的工具吗? 用线对联 Spark 也能和另外两个机型,扩展使用 LLM ? 三者有什么产品硬件上的差异区别?
Spark 最贵,和后两者价钱有点儿区别,不过看起来都像是同一个方案,只是公版和各家自己牌子的区别而已? Spark 自带开箱即用的工具集,会有老黄家在 Spark 上才能用的工具吗? 用线对联 Spark 也能和另外两个机型,扩展使用 LLM ? 三者有什么产品硬件上的差异区别?
Spark 最贵,和后两者价钱有点儿区别,不过看起来都像是同一个方案,只是公版和各家自己牌子的区别而已? Spark 自带开箱即用的工具集,会有老黄家在 Spark 上才能用的工具吗? 用线对联 Spark 也能和另外两个机型,扩展使用 LLM ? 三者有什么产品硬件上的差异区别?
Spark 最贵,和后两者价钱有点儿区别,不过看起来都像是同一个方案,只是公版和各家自己牌子的区别而已? Spark 自带开箱即用的工具集,会有老黄家在 Spark 上才能用的工具吗? 用线对联 Spark 也能和另外两个机型,扩展使用 LLM ? 三者有什么产品硬件上的差异区别?
Spark 最贵,和后两者价钱有点儿区别,不过看起来都像是同一个方案,只是公版和各家自己牌子的区别而已? Spark 自带开箱即用的工具集,会有老黄家在 Spark 上才能用的工具吗? 用线对联 Spark 也能和另外两个机型,扩展使用 LLM ? 三者有什么产品硬件上的差异区别?
Spark 最贵,和后两者价钱有点儿区别,不过看起来都像是同一个方案,只是公版和各家自己牌子的区别而已? Spark 自带开箱即用的工具集,会有老黄家在 Spark 上才能用的工具吗? 用线对联 Spark 也能和另外两个机型,扩展使用 LLM ? 三者有什么产品硬件上的差异区别?
Spark 最贵,和后两者价钱有点儿区别,不过看起来都像是同一个方案,只是公版和各家自己牌子的区别而已? Spark 自带开箱即用的工具集,会有老黄家在 Spark 上才能用的工具吗? 用线对联 Spark 也能和另外两个机型,扩展使用 LLM ? 三者有什么产品硬件上的差异区别?
Spark 最贵,和后两者价钱有点儿区别,不过看起来都像是同一个方案,只是公版和各家自己牌子的区别而已? Spark 自带开箱即用的工具集,会有老黄家在 Spark 上才能用的工具吗? 用线对联 Spark 也能和另外两个机型,扩展使用 LLM ? 三者有什么产品硬件上的差异区别?
导师搞了台DGX Spark,说要部署一个大模型进去,关于DGX的中文部署教程目前并不算多,和各位佬友分享一下这次部署过程完整,顺手写一篇教程。 这里计划部署的模型是 AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-NVFP4 · Hugging Face 一、安装Conda环境 执行命令,下载ARM64 版本的 Miniforge cd ~ wget -O Miniforge3-Linux-aarch64.sh \ https://mirrors.tuna.tsinghua.edu.cn/github-release/conda-forge/miniforge/LatestRelease/Miniforge3-Linux-aarch64.sh 为了避免国内网络问题这里使用了清华源 下载结束后安装: bash Miniforge3-Linux-aarch64.sh 安装过程中出现许可协议,一直yes就行 安装完成后,让配置立即生效: source ~/.bashrc 最后检查 Conda 是否安装成功: conda --version 二、安装模型 1.准备conda环境 执行命令创建名为 ‘hf’ 的conda环境 conda create -n hf python=3.13 -y conda activate hf 前面的括号是hf代表当前在hf这个环境当中 2.下载hfd.sh 由于国内网络问题,直接下载会很慢,这里使用hf-mirror提供的工具下载(如遇无法访问hf-mirror,挂个代理上去 https://github.com/nelvko/clash-for-linux-install) wget https://hf-mirror.com/hfd/hfd.sh chmod +x hfd.sh 发现访问不了,走代理 source ~/clashctl/scripts/cmd/clashctl.sh clashon export http_proxy=http://127.0.0.1:7890 export https_proxy=http://127.0.0.1:7890 wget https://hf-mirror.com/hfd/hfd.sh chmod +x hfd.sh 3.安装aria2 sudo apt-get install aria2 4.安装Hugging Face 相关依赖 pip install -U "huggingface_hub[cli]" hf_transfer 建议开启高速下载: export HF_HUB_ENABLE_HF_TRANSFER=1 输入下载命令下载模型(具体细节需要根据你的用户名称等进行修改) cd /home/cavin-dgx/models mkdir -p AEON-7 cd AEON-7 export HF_ENDPOINT=https://hf-mirror.com export HF_HUB_ENABLE_HF_TRANSFER=1 /home/cavin-dgx/hfd.sh AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-NVFP4 \ --tool aria2c \ -x 4 如遇权限问题请修改权限: sudo chown -R cavin-dgx:cavin-dgx /home/cavin-dgx/models 开始下载: 三、使用vllm运行模型 1. 拉取 AEON vLLM 镜像 sudo docker pull ghcr.io/aeon-7/vllm-aeon-ultimate-dflash:qwen36-v3 执行后发现这个镜像拉去太慢了,在1panel配置下加速 https://github.com/1Panel-dev/1Panel: { "registry-mirrors": [ "https://docker.1panel.live", "https://docker.1panel.dev", "https://docker.1ms.run", "https://docker.registry.cyou", "https://docker-cf.registry.cyou", "https://dockercf.jsdelivr.fyi", "https://docker.jsdelivr.fyi", "https://dockertest.jsdelivr.fyi", "https://mirror.aliyuncs.com", "https://dockerproxy.com", "https://mirror.baidubce.com", "https://docker.m.daocloud.io", "https://docker.nju.edu.cn", "https://docker.mirrors.sjtug.sjtu.edu.cn", "https://docker.mirrors.ustc.edu.cn", "https://mirror.iscas.ac.cn", "https://docker.rainbond.cc", "https://do.nark.eu.org", "https://dc.j8.work", "https://gst6rzl9.mirror.aliyuncs.com", "https://registry.docker-cn.com", "http://hub-mirror.c.163.com", "http://mirrors.ustc.edu.cn/", "https://mirrors.tuna.tsinghua.edu.cn/", "http://mirrors.sohu.com/" ], "insecure-registries": [ "registry.docker-cn.com", "docker.mirrors.ustc.edu.cn" ], "debug": true, "experimental": false } 试试,发现还是很慢,问题不在docker上,在云上,换个镜像站的地址看看 sudo docker pull ghcr.milu.moe/aeon-7/vllm-aeon-ultimate-dflash:qwen36-v3 发现这个速度还是很抽象,挂后台让他慢慢下吧 下了一晚上终于下好啦 2.运行vllm 输入命令测试下: sudo docker run --rm --gpus all \ --ipc=host \ --network=host \ -e TORCH_CUDA_ARCH_LIST="12.0+PTX" \ -e PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \ -e VLLM_USE_FLASHINFER_MOE_FP4=0 \ -v /home/cavin-dgx/models/AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-NVFP4:/models/aeon-ultimate \ ghcr.io/aeon-7/vllm-aeon-ultimate-dflash:qwen36-v3 \ vllm serve /models/aeon-ultimate \ --served-model-name aeon-ultimate \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --dtype auto \ --quantization compressed-tensors \ --max-model-len 65536 \ --max-num-seqs 16 \ --max-num-batched-tokens 32768 \ --gpu-memory-utilization 0.85 \ --enable-chunked-prefill \ --no-enable-prefix-caching \ --load-format safetensors \ --trust-remote-code \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser qwen3 \ --attention-backend flash_attn 接下来就是加载时间 启动成功!测一下通不通 3.导入到new api 我的new api也部署到这个机子上了,需要docker内部的网络统一一下,这里使用1panel-network和8000端口,根据实际情况可以自己修改,这里使用nohup挂到后台 nohup sudo docker run --rm --name nervous_kirch --gpus all --ipc=host --network 1panel-network -p 8000:8000 -e TORCH_CUDA_ARCH_LIST="12.0+PTX" -e PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True -e VLLM_USE_FLASHINFER_MOE_FP4=0 -v /home/cavin-dgx/models/AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-NVFP4:/models/aeon-ultimate ghcr.io/aeon-7/vllm-aeon-ultimate-dflash:qwen36-v3 vllm serve /models/aeon-ultimate --served-model-name aeon-ultimate --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --dtype auto --quantization compressed-tensors --max-model-len 65536 --max-num-seqs 16 --max-num-batched-tokens 32768 --gpu-memory-utilization 0.85 --enable-chunked-prefill --no-enable-prefix-caching --load-format safetensors --trust-remote-code --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 --attention-backend flash_attn > /home/cavin-dgx/aeon_vllm.log 2>&1 & 注意这里填网关地址,不要填成设备地址,new api部署到vps不需要考虑这个 测试通过,搞定! 四、远程调用 直接丢到CC开蹬! 整体部署容易踩雷的地方主要还是模型和下载镜像的网络问题,还有docker网关的问题。 5 个帖子 - 3 位参与者 阅读完整话题
有厂商来我们公司宣讲AI怎么怎么怎么牛逼,怎么怎么赋能,怎么怎么壮大,还要AI AGENT等等,然后老板就被洗脑了。在我的极力劝阻下,不知道从哪搞了这么一台,这个烂摊子就扔给我了 看了看除128GB好像没啥优势 13 个帖子 - 7 位参与者 阅读完整话题
模型来源 RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face Qwen3.6-35B-A3B速度 单用户串行测试 : num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。 吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms 8 并发用户测试 : num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。 吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms 固定 QPS 多用户测试 : num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。 吞吐 229.79 tok/s, Mean TTFT 521.67 ms, P99 TTFT 4542.64 ms, Mean TPOT 62.82 ms 场景 成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms) 单用户串行测试 20 136.99 37.94 543.42 2878.45 23.46 24.17 8 并发用户测试 100 135.85 164.39 331.77 786.20 43.45 44.19 固定 QPS 多用户测试 200 194.69 229.79 521.67 4542.64 62.82 62.22 Qwen3.6-27B 单用户串行测试 : num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。 吞吐 11.68 tok/s, Mean TTFT 1078.83 ms, P99 TTFT 14364.02 ms, Mean TPOT 81.68 ms 8 并发用户测试 : num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。 吞吐 79.13 tok/s, Mean TTFT 678.16 ms, P99 TTFT 4253.76 ms, Mean TPOT 89.96 ms 固定 QPS 多用户测试 : num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。 吞吐 132.89 tok/s, Mean TTFT 428.64 ms, P99 TTFT 761.94 ms, Mean TPOT 108.11 ms 场景 成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms) 单用户串行测试 20 445.13 11.68 1078.83 14364.02 81.68 81.37 8 并发用户测试 100 280.35 79.13 678.16 4253.76 89.96 89.79 固定 QPS 多用户测试 200 336.47 132.89 428.64 761.94 108.11 106.61 总结 由于dgxspark的内存带宽和cuda核心都比较弱,只是内存比较大,能跑MOE模型还是优先跑MOE模型。这里跑Dense模型速度快砍半了 2 个帖子 - 2 位参与者 阅读完整话题
这东西我都没见过实物,在 USA 的同学有一台,但是他上线后应用的事情都快拉爆了,暂时没空测我的想法,只能想象着来问一下这里各位佬了: C++,Python 的代码 review; 根据提示词,处理 MySQL 返回来 8k~13k 条已成 JSON 的数据提取;(字段和内容不多,爆不了上下文) 给出初高中的数学物理,某题的解题思路; 需求就这三类事情为主。 问题: DGX Spark 128G 跑个什么模型能应付以上三类强度的事情? 如果有合适(或者将就)应付的模型,90%额定容量的上下文打进去,要多久时间有反应开始出 tokens? 每秒能吐多少 tokens? 考虑: 场地空间和物理条件所限,只能找这类小机. 可以考虑 Mac Studio M3U 256G,再新款的加钱也不好买,也贵.
这东西我都没见过实物,在 USA 的同学有一台,但是他上线后应用的事情都快拉爆了,暂时没空测我的想法,只能想象着来问一下这里各位佬了: C++,Python 的代码 review; 根据提示词,处理 MySQL 返回来 8k~13k 条已成 JSON 的数据提取;(字段和内容不多,爆不了上下文) 给出初高中的数学物理,某题的解题思路; 需求就这三类事情为主。 问题: DGX Spark 128G 跑个什么模型能应付以上三类强度的事情? 如果有合适(或者将就)应付的模型,90%额定容量的上下文打进去,要多久时间有反应开始出 tokens? 每秒能吐多少 tokens? 考虑: 场地空间和物理条件所限,只能找这类小机. 可以考虑 Mac Studio M3U 256G,再新款的加钱也不好买,也贵.
这东西我都没见过实物,在 USA 的同学有一台,但是他上线后应用的事情都快拉爆了,暂时没空测我的想法,只能想象着来问一下这里各位佬了: C++,Python 的代码 review; 根据提示词,处理 MySQL 返回来 8k~13k 条已成 JSON 的数据提取;(字段和内容不多,爆不了上下文) 给出初高中的数学物理,某题的解题思路; 需求就这三类事情为主。 问题: DGX Spark 128G 跑个什么模型能应付以上三类强度的事情? 如果有合适(或者将就)应付的模型,90%额定容量的上下文打进去,要多久时间有反应开始出 tokens? 每秒能吐多少 tokens? 考虑: 场地空间和物理条件所限,只能找这类小机. 可以考虑 Mac Studio M3U 256G,再新款的加钱也不好买,也贵.