WWW.YOUINFO.SITE
标签聚合 cuda

/tag/cuda

LinuxDo 最新话题 · 2026-06-09 09:33:03+08:00 · tech

背景:需要在完全离线的国产 Linux(老版本 glibc)服务器上完成 llama.cpp CUDA 版本编译。 限制条件:1. 无 root 权限 2. 无 yum/apt 3. 无在线下载。 坑1:系统 GCC 版本过低 解决方案:使用 conda-forge 构建 GCC11 环境,通过 conda-pack 打包后在离线服务器使用 conda create -n gcc11 gcc=11 gxx=11 conda-pack 打包后解压使用 注意点:需要显式指定编译器,否则 CMake 可能仍使用系统 gcc export CC=$CONDA_PREFIX/bin/x86_64-conda-linux-gnu-gcc export CXX=$CONDA_PREFIX/bin/x86_64-conda-linux-gnu-g++ 坑2:libcuda.so.1 找不到 本质:不是驱动损坏或 CUDA 未安装,而是 CUDA 链接阶段缺少 -lcuda 对应的开发库 解决方案:使用 CUDA Toolkit 中的 stub 库进行链接阶段补全 /usr/local/cuda/lib64/stubs/libcuda.so 配置方式: export LIBRARY_PATH=/usr/local/cuda/lib64/stubs:$LIBRARY_PATH 说明:该方式仅用于编译链接阶段,不参与运行时加载,运行时仍依赖系统 NVIDIA driver 坑3:GLIBC 版本不满足 错误处理建议:不要尝试升级系统 glibc、不要替换 /lib64/libc.so,这类操作风险极高,可能导致系统直接不可用 解决方案:使用 conda 提供的用户态动态链接器绕过系统 glibc $CONDA_ENV/lib/ld-linux-x86-64.so.2 --library-path $CONDA_ENV/lib ./llama-server 原理说明:不是替换系统 glibc,而是直接使用 conda 的 ELF interpreter 启动程序,使程序运行在 conda 用户态运行时环境中 整体方案如下: GCC11(Conda toolchain) CUDA stubs(解决 libcuda 链接问题) Conda glibc runtime(解决运行时兼容问题) 最终在完全离线国产服务器环境中成功编译并运行 llama.cpp CUDA 版本。 1 个帖子 - 1 位参与者 阅读完整话题

cnBeta全文版 · 2026-06-05 20:35:18+08:00 · tech

一款从未正式发布的 NVIDIA GeForce RTX 3050 Ti 桌面显卡近日在网络曝光,证实这一“只存在于笔记本端”的型号在 Ampere 时代其实曾有桌面版工程样卡流出。 曝光者 @GOKForFree 提供的图片显示,这张卡采用双风扇、双槽设计,通过单个 8 针供电接口供电,安装在华硕主板上,卡身无品牌涂装,仅贴有标注规格的标签。 爆料称该卡来自一家名为 “Robiny” 的厂商,但这一品牌此前在显卡领域几乎没有知名度。 从标签和 GPU-Z 截图来看,这款 RTX 3050 Ti 桌面 GPU 搭载 GA106-200-A1 核心,与现有 GeForce RTX 3060 使用的是同一代 GA106 核心,但为裁剪版本,CUDA 核心数量为 3328 个,比 RTX 3060 少约 7%。 显存部分则配备 6GB GDDR6,搭配 192 位位宽,带来约 336GB/s 的显存带宽,略低于 RTX 3060 的配置。 报道指出,该卡默认基础频率为 1410MHz,加速频率可达 1665MHz,不过这些频率信息并非官方参数,因此仍需谨慎看待。 按目前泄露的规格推算,这款桌面版 RTX 3050 Ti 在性能定位上更接近 RTX 3060,而非现售的 RTX 3050。 已上市的桌面版 RTX 3050 采用大幅裁剪的 GA106 核心,而笔记本端 RTX 3050 Ti 则基于更小的 GA107 核心,仅配备 4GB GDDR6 显存,因此理论上这块 6GB、GA106 核心的桌面工程样卡在算力与带宽上都明显强于移动版 RTX 3050 Ti。 不过,该卡 6GB 显存容量在当下游戏与内容创作场景中已略显吃紧,目前也没有证据表明 NVIDIA 曾规划过 12GB 显存版本的同系列桌面产品。 尽管 NVIDIA 从未在桌面市场正式发布 RTX 3050 Ti 型号,此次曝光至少证明了该型号在产品规划阶段确有桌面版本存在,只是最终停留在工程样卡阶段,没有面向零售市场推出。 对于入门级显卡产品线的策略取舍,NVIDIA 并未作出回应,业界推测,这类未量产型号背后可能与产品线定位重叠、成本控制或市场需求变化等因素有关。 查看评论

IT之家 · 2026-06-05 15:57:07+08:00 · tech

IT之家 6 月 5 日消息,消息人士 @白给的盖欧卡 今日在社交平台发布了 NVIDIA(英伟达)未曾推出过的桌面端 GeForce RTX 3050 Ti 显卡 的实物照片、软件信息识别结果、基准测试成绩。 ▲ 图源:@白给的盖欧卡 可以看到该显卡的 PCB 代号为 "PG190 SKU 40",GPU 核心代号为 "GA106-200-A1", 拥有 3328 个 CUDA 核心 (26SM),配套 48 个 ROP 和 104 个 TMU;显存部分为 192bit 位宽、1750MHz 等效频率的 6GB GDDR6 。 该显卡 GPU 核心基础频率为 1410MHz、加速频率 1665MHz,默认功率为 120W。其在 3DMark Time Spy 基准测试中得到了 7787 的显卡分数。 IT之家注: 作为参考,桌面端 GeForce RTX 3050 的平均分为 6235、最高分为 7368;桌面端 GeForce RTX 3060 8GB 则是平均分 7404,最高分 8668。 ▲ 图源:@白给的盖欧卡 ▲ 图源:@白给的盖欧卡 ▲ 图源:@白给的盖欧卡

v2ex · 2026-05-25 11:30:25+08:00 · tech

地点:上海优先;港新具体看情况。 薪酬:case by case 预算充足 💰(大概开到 200w 左右一年)(部分内资头部对冲基金也可以开到这个水平) 文化:Work-Life Balance 🏖️ 岗位要求 大规模分布式训练 & GPU 加速平台经验(最核心) 必须有设计和优化 high-throughput GPU-accelerated distributed training pipelines 的实战经验。 熟悉 PyTorch / DeepSpeed / JAX 等框架,重点考察 GPU 利用率提升、资源调度、异构计算( CPU+GPU )、训练效率优化 等。 构建 ML Research / Compute Platform 能力 • 能从 0 到 1 搭建或迭代内部 ML 研究平台,包括 experiment management 、model versioning 、artifact tracking 、data lineage 、reproducibility 等。 • 需要把 quant researchers 的研究 workflow 转化为可扩展、可观测的平台能力。 大规模数据管道 & Compute Efficiency • 擅长 feature engineering 、dataset generation 、大规模数据处理和性能优化。 • 具备 Linux-based HPC / 多云环境 下的 troubleshooting 、observability ( metrics 、tracing )和资源管理 能力。 年限要求 明确要求:2 年以上 大规模分布式系统设计和构建经验( ideally 支持 research 或 data-intensive workloads )。 邮箱投递: [email protected] 企业保密招聘,我所代表的公司将会在您发送简历之后清晰告知具体情况。

LinuxDo 最新话题 · 2026-05-13 11:25:48+08:00 · tech

四卡训练,已经显式指定了gpu编号 export CUDA_VISIBLE_DEVICES=4,5,6,7,目前就是卡在这里一直不动 [rank0]:[W513 02:56:19.001482657 ProcessGroupNCCL.cpp:4561] [PG ID 0 PG GUID 0 Rank 0] using GPU 0 to perform barrier as devices used by this process are currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. Specify device_ids in barrier() to force use of a particular device, or call init_process_group() with a device_id. 2 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-09 15:35:18+08:00 · tech

phoronix.com NVIDIA Releases CUDA-Oxide 0.1 For Experimental Rust-To-CUDA Compiler A new NVIDIA Labs project is greatly improving the capabilities of using the Rust programming language for developing CUDA kernels for NVIDIA GPUs. [!quote]+ CUDA-Oxide 0.1 于本周四发布,这是 Rust-to-CUDA 编译器的首发实验版本,用于使用 Rust 编程语言以 "安全(ish)"的方式编写 SIMT GPU 内核。CUDA-Oxide 采用标准 Rust 代码,并直接以英伟达 PTX 格式输出。 CUDA-Oxide 由英伟达工程师设计,采用单源编译、设备侧抽象和使用定制 rusc 编译器后端的 Rust 原生编译流水线。 虽然目前还处于实验阶段,但这个新的开源项目对于那些希望通过本地 Rust 代码处理 CUDA 的人来说是一个很大的进步。 github.com GitHub - NVlabs/cuda-oxide: cuda-oxide is an experimental Rust-to-CUDA... cuda-oxide is an experimental Rust-to-CUDA compiler that lets you write (SIMT) GPU kernels in safe(ish), idiomatic Rust. It compiles standard Rust code directly to PTX — no DSLs, no foreign language bindings, just Rust. 2 个帖子 - 2 位参与者 阅读完整话题

IT之家 · 2026-05-09 13:33:02+08:00 · tech

IT之家 5 月 9 日消息,英伟达实验室本周四推出实验性开源项目 CUDA-Oxide 0.1 编译器, 尝试用 Rust 语言直接开发 NVIDIA GPU 的 CUDA 内核。 CUDA-Oxide 是一个实验性的 Rust-to-CUDA 编译器,其目标是让开发者使用 Rust 编程语言,为英伟达显卡编写 SIMT(单指令多线程) GPU 内核。首个版本已在周四上线,并以开源项目形式公开。 CUDA-Oxide 的核心做法,是把标准 Rust 代码直接输出为 NVIDIA 的 PTX。PTX 是 CUDA 生态里的底层中间表示,常用于描述 GPU 执行指令。 CUDA-Oxide 在设计上持单源码编译,并提供设备端抽象,减少直接操作底层细节的负担;同时采用自定义的 rusc 编译器后端,构建更原生的 Rust 编译流程。 项目说明里提到,CUDA-Oxide 试图以“safe-ish”的方式编写 SIMT 内核,尽量保留 Rust 在类型系统和内存管理上的优势,从而减少传统 CUDA 开发里常见的一些错误。 CUDA-Oxide 标志 IT之家附上参考地址 CUDA-Oxide 0.1

linux.do · 2026-05-01 21:03:39+08:00 · tech

rt,最近在摸各种需要编译到 native 的语言,什么 Rust,CUDA,C++ 之类的 整个机器常年是这种状态: 很明显的就是编译的时候要等超级久 Rust 和 CUDA 还好,项目比较小,编译一般两三分钟就可以开始测了 C++这边简直了,用到的库有一大坨 template ,导致编译速度巨慢,开满优化的情况下一次编译也要 10 分钟左右,放 Action 上甚至要编译 30 分钟 再加上本身活又很重,需要同时开 2-3 个 vscode,3-6 个 opencode 窗口 鼠标滞后感都很明显 再加上本身电脑又不是很好,他在 Compile 的时候我都不敢刷 linuxdo,怕直接给我干 OOM 了直接白干 又加之最近硬件市场魔幻,6月高考完了也不知道怎么升级 哎 31 个帖子 - 17 位参与者 阅读完整话题

www.ithome.com · 2026-04-30 21:04:26+08:00 · tech

IT之家 4 月 30 日消息,Seagate(希捷)近日推出了酷玩 FireCuda X Vault 外置游戏硬盘。这一产品的 20TB 大容量版本现已上架电商平台,定价 5799 元。 FireCuda X Vault 获得 Microsoft(微软)Xbox on PC 官方认证, 支持 USB-C 一线连 (需求 15W 供电能力)。其外观造型醒目,具备可自定义的 RGB 灯光(支持 Windows 动态照明);享受 3 年质保和 1 次保内原厂数据恢复服务。 京东 希捷 FireCuda X Vault 外置硬盘 5799 元 直达链接

plink.anyfeeder.com · 2026-04-28 13:35:32+08:00 · tech

Canonical近日正式发布代号“Resolute Raccoon”的Ubuntu 26.04 LTS,将NVIDIA CUDA和AMD ROCm两大GPU计算框架原生集成到官方软件仓库。终结了Linux用户多年来GPU计算环境配置繁琐的行业痛点。 用户仅需通过apt install单条命令,即可完成完整可用的GPU计算堆栈部署,无需再周末通宵手动调试配置环境。 AMD首席软件官称该方案覆盖从数据中心服务器到锐龙处理器笔记本的全场景设备。 NVIDIA显卡用户可开箱即用正式版Wayland驱动与VRR功能,无需任何手动配置,游戏与本地AI推理体验大幅提升。 该版本基于Linux 7.0内核构建,新增对Intel Panther Lake(酷睿 Ultra 300)处理器及其集成NPU的定向支持,默认搭载GNOME 50桌面环境。 同时, Ubuntu 26.04 LTS正式移除GNOME的X11会话,Wayland成为唯一强制默认显示协议,仅保留XWayland兼容旧版X11应用。 安全层面,该版本用基于Rust开发的sudo-rs、uutils/coreutils替代原有C语言版本工具,TPM全盘加密从实验性功能升级为安装程序稳定选项。 据Phoronix实测,本次系统捆绑的ROCm版本为7.1.0,落后于当前最新的7.2.x系列,有最新功能需求的用户可通过AMD官方渠道安装。 Ubuntu 26.04 LTS常规支持周期持续至2031年4月,通过Ubuntu Pro可扩展支持至2036年,官方建议生产环境用户等待8月发布的26.04.1版本再升级。 查看评论

plink.anyfeeder.com · 2026-04-25 16:05:38+08:00 · tech

英伟达RTX PRO 4500 Blackwell服务器版(简称RTX 4500 BSE)于4月24日上架开售。这款基于Blackwell架构的专业显卡自3月公布后,现已通过英伟达官网标注现货供应,并直接链接至官方商城。 在2026年GTC大会上,英伟达就宣布搭载该显卡的RTX PRO服务器可通过思科、戴尔、HPE、联想和超微等主流服务器厂商订购。 此次全面铺货意味着这款专业显卡不再局限于OEM整机,而是向更广泛的企业用户开放单独采购。 需注意,该卡为纯服务器专业显卡,并非面向游戏市场。 规格方面,RTX 4500 BSE采用Blackwell架构的GB203核心,配备10496个CUDA核心、32GB GDDR7 ECC显存,接口为PCIe 5.0 x16。 整卡功耗仅165W,采用被动散热设计,厚度为单槽位。低功耗和单槽特性使其非常适合高密度服务器部署,能有效节省机房空间与电力成本。 价格方面,根据欧洲电商平台Geizhals数据,当前渠道售价区间为3676.88至4299.90欧元(约29452元至34442元人民币)。产品起售价为3670欧元(约29400元人民币),英伟达尚未公布官方建议零售价。 从系列定位看,RTX 4500 BSE属于Blackwell架构专业显卡家族的中端产品。对比来看,旗舰款RTX PRO 6000工作站版配备24064个CUDA核心与96GB显存,功耗600W。 RTX PRO 5000配备14080个CUDA核心与48GB显存,功耗300W;而RTX PRO 4000配备8960个CUDA核心与24GB显存,功耗140W。 应用场景上,该卡主要面向企业级虚拟化工作负载,搭配vGPU 20软件可实现高效的虚拟机部署与管理,适用于专业图形工作站虚拟化、AI模型开发与推理、数据中心高密度计算、企业级3D渲染与设计,以及虚拟桌面基础设施部署。 查看评论

www.ithome.com · 2026-04-24 12:39:26+08:00 · tech

IT之家 4 月 24 日消息,Canonical 昨日(4 月 23 日)发布代号为 Resolute Raccoon 的 Ubuntu 26.04 LTS 发行版, 这是首个移除 Xorg 桌面会话、仅支持 Wayland 的长期支持版本。 系统底层方面,Ubuntu 26.04 LTS 发行版搭载最新的 Linux 7.0 内核与 Mesa 26.0.x 开源 GPU 驱动,并提升 AMD 光追性能及 ext4 文件系统写入速度。系统首次原生支持 NVIDIA CUDA 软件仓库,并针对英特尔酷睿 Ultra Series 300 系列处理器及 NPU 深度优化。 桌面环境方面,Ubuntu 26.04 LTS 升至 GNOME 50,默认开启可变刷新率(VRR),并提升文件管理器 Nautilus 响应速度,界面方面采用更高对比度设计与统一圆角风格。 系统应用方面,Showtime 取代 Totem 成为默认视频播放器,Resources 接替 GNOME 系统监视器,应用中心新增 Deb 包管理功能。 安全性是本次更新的核心亮点。系统大规模引入 Rust 语言重写内核驱动及 sudo、ls 等基础工具。新版上线 TPM 支持的全盘加密功能,将磁盘加密与硬件芯片绑定,有效防御物理访问攻击。 硬件支持方面,本次发布首次完整支持进迭时空 RISC-V 设备,并提供适用于骁龙设备的 ARM64 镜像。值得关注的是, 官方将内存推荐标准从 4GB 上调至 6GB 。IT之家附上相关系统截图如下:

www.ithome.com · 2026-04-24 10:20:42+08:00 · tech

IT之家 4 月 24 日消息,Seagate(希捷)美国当地时间 23 日宣布推出三款全新升级的消费级和专业级外置存储解决方案,分别是希捷铭 One Touch 桌面外置硬盘、希捷酷玩 FireCuda X Vault 游戏硬盘、雷孜 LaCie 8big Pro5 多盘位 RAID 存储设备。 One Touch One Touch 基于 3.5 英寸机械硬盘,可选 8TB / 20TB / 24TB 盘体,支持 USB-C 一线连,兼容 Windows 和 Mac 系统,附赠 Seagate Rescue Data Recovery Services 数据救援服务, 面向日常备份和个人数据存储场景 。 One Touch 的 8TB 版本建议零售价为人民币 2499 元。 FireCuda X Vault FireCuda X Vault 专为游戏玩家和主播打造,提供 8TB 和 20TB 版本,同样支持 USB-C 一线连。其专为 PC 上的 Xbox 设计, 搭配可自定义的 RGB 灯光和 Windows 动态照明 。 其可享受 1 次免费原厂数据恢复服务,包含一个月的 Xbox Ultimate Game Pass PC 会员资格和两个月的 Adobe Creative Cloud 计划。 FireCuda X Vault 预计于 2026 年 5 月初在中国大陆地区上市。 LaCie 8big Pro5 LaCie 8big Pro5 适用场景为专业创意人士和制作团队。其采用 8 盘位设计,配备雷电 5 接口(可提供 140W PD 输出),支持硬件 RAID 0/1/5/6/10/50/60、JBOD 和多 RAID 设置,面向多路 4K / 8K 视频处理、大型 RAW 图像库、AI 辅助制作等工作流。 LaCie 8big Pro5 建议零售价为 32TB 款 66168 元、64TB 款 79168 元、128TB 款 99868 元、192TB 款 123168 元、256TB 款 158168 元。