背景:需要在完全离线的国产 Linux(老版本 glibc)服务器上完成 llama.cpp CUDA 版本编译。 限制条件:1. 无 root 权限 2. 无 yum/apt 3. 无在线下载。 坑1:系统 GCC 版本过低 解决方案:使用 conda-forge 构建 GCC11 环境,通过 conda-pack 打包后在离线服务器使用 conda create -n gcc11 gcc=11 gxx=11 conda-pack 打包后解压使用 注意点:需要显式指定编译器,否则 CMake 可能仍使用系统 gcc export CC=$CONDA_PREFIX/bin/x86_64-conda-linux-gnu-gcc export CXX=$CONDA_PREFIX/bin/x86_64-conda-linux-gnu-g++ 坑2:libcuda.so.1 找不到 本质:不是驱动损坏或 CUDA 未安装,而是 CUDA 链接阶段缺少 -lcuda 对应的开发库 解决方案:使用 CUDA Toolkit 中的 stub 库进行链接阶段补全 /usr/local/cuda/lib64/stubs/libcuda.so 配置方式: export LIBRARY_PATH=/usr/local/cuda/lib64/stubs:$LIBRARY_PATH 说明:该方式仅用于编译链接阶段,不参与运行时加载,运行时仍依赖系统 NVIDIA driver 坑3:GLIBC 版本不满足 错误处理建议:不要尝试升级系统 glibc、不要替换 /lib64/libc.so,这类操作风险极高,可能导致系统直接不可用 解决方案:使用 conda 提供的用户态动态链接器绕过系统 glibc $CONDA_ENV/lib/ld-linux-x86-64.so.2 --library-path $CONDA_ENV/lib ./llama-server 原理说明:不是替换系统 glibc,而是直接使用 conda 的 ELF interpreter 启动程序,使程序运行在 conda 用户态运行时环境中 整体方案如下: GCC11(Conda toolchain) CUDA stubs(解决 libcuda 链接问题) Conda glibc runtime(解决运行时兼容问题) 最终在完全离线国产服务器环境中成功编译并运行 llama.cpp CUDA 版本。 1 个帖子 - 1 位参与者 阅读完整话题
code x 配合 Ollama、llama.cpp 接入本地大模型,理论Token 自由,直接把电脑卡死了,需要什么基础设备才能流畅运行呢? mbp m5 16G 1tb 1 个帖子 - 1 位参与者 阅读完整话题
今天清理C盘发现Microsoft\vscode-cpptools路径下大量的缓存。 VS Code C/C++ 扩展给各个工程生成的索引缓存。竟然缓存了几十个G,之前一直没注意。各位佬友的是否也很大呢。 2 个帖子 - 2 位参与者 阅读完整话题
llama.cpp 搭建本地模型 使用llama.cpp 搭建本地模型。具体来说,就是在本地终端电脑跑上自己的模型。 能跑什么模型,多大的模型,要根据自己的电脑配置,配置越高,跑的越大;显卡+内存 为啥能跑? 把模型塞到内存中了,所以没显卡也能跑,但就是慢。 b的单位补充。 1B = 10亿参数 。 通常看到模型8b,啥意思呢,就是模型参数是80亿;deepseek v4 pro ,1.6万亿参数,也就是1.6T; v4-pro 是284B deepseek目前都是MoE 架构,就是比如dddddddd v4-pro 284b参数,每次chat不是全部都调用,而只是调用激活的参数,激活13B,就是130亿参数。 MOE是把所有的参数都放到内从中,因为显存太大了,一般8B *2 要16G 的显卡,那么284B要多大呢? 1.6T要多大呢?所以绝大多数都放在内存中不激活,激活的就是公共参数比如13B。然后根据公共参数,去调用需要的在内从的专家参数。 1.下载llama.cpp 这里下载对应电脑的版本 https://github.com/ggml-org/llama.cpp/releases 2 下载自己电脑所能够配置的模型 2.1 模型下载的地址 Hugging Face DeepSeek-V4 - a deepseek-ai Collection 魔搭社区 (ModelScope)- 国内的 ModelScope - 模型列表页 2.2 下载模型 一般现在xxx Q4_K_M.gguf, 比如 Qwen3.5-9B-Q4_K_M.gguf 因为这个模型是量化过的,9B的模型一般16精度要18G的显卡,但是量化过了,就只需要5到6G显卡,比这个高,需要的显卡要大,比这个低,模型就变傻了;结论这个就是最高性价比 如上的文件都不能少。但是在官网有很多文件,量化的很多,下载下来浪费时间和磁盘,所以选择适合自己的。 如何让模型和llma.cpp 在终端上跑起来呢? .\llama-cli.exe -m "C:\xxxx\Qwen\Jackrong\Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF\Qwen3.5-4B.Q4_K_S.gguf" -n 2048 -ngl 15 命令分解 参数 值 含义 .\llama-cli.exe - 当前目录下的 llama-cli 可执行文件(llama.cpp 的 CLI 工具) -m "C:\xxxx\Qwen\Jackrong\Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF\Qwen3.5-4B.Q4_K_S.gguf" 指定模型文件路径(一个经过 GGUF 量化、蒸馏处理的 Qwen3.5 模型) -n 2048 生成的最大 token 数量(最多生成 2048 个新 token) -ngl 15 GPU 层数 :将模型的前 15 层加载到 GPU 中运行,剩余层在 CPU 上运行 实际效果 总结: 其实,这个就是一个思路,如何在本地搭建自己的大模型。主要受限制的是硬件,如果硬件给力,24G显卡+500G内存,可以把deepseekv4-falsh 搭建在自己电脑上,想想多快乐,再也不用愁tokens了。 文章分析的内容,其实不难,一步步在ai的帮助下都可以自己实现,如有不懂,随时发问。如有不对,请多指教包含。 6 个帖子 - 4 位参与者 阅读完整话题
下载链接(中文): chm包: https://github.com/myfreeer/cppreference2mshelp/releases/download/2026.05/cppreference-zh-20260502.chm html包: https://github.com/myfreeer/cppreference2mshelp/releases/download/2026.05/html-book-20260502.7z 此链接在cppreference中文网站上也可见 在维护了一年以后,cppreference恢复了更新,内容上应该没有太大变化,但是大量的静态资源缺失,使用上一版中提取的资源补全。 前情提要: https://linux.do/t/topic/1004144 上一版锁定了不能编辑,也不能回复: [0404更新]C/C++ 参考文档(cppreference)离线中文版 chm/html 资源荟萃 上一版锁定了不能编辑 来源: https://zh.cppreference.com/w/首页 更新日期: 2025.4.04 下载: cppreference-zh-20250404.chm html-book-20250404.7z 其他文件( chm 工程文件 Qt 帮助手册 和 未处理归档 ) 所有版本 制作脚本 声明:与cppreference网站及运营方无利益相关,仅提供资源下载,下载后的资源完全离线可用 1 个帖子 - 1 位参与者 阅读完整话题
目前是28届川渝地区末2计算机硕本科比较垃(学院本),然后最初的就业方向是打算做cpp的,但是今年听一个朋友说的互联网的cpp太牢了。想问一下转Go的意见,个人是acm选手,虽然本科每打出什么好的成绩,但是还是一直在用cpp的,目前有两段cpp相关的实习经验,一段是搞工业自动化的,干了几个月我也不知道在干啥哈哈,偷了点产出就结束了。然后第二段是做国产芯片修补软件的,在这里学的了很多东西。但是感觉越学越不对,越学越偏离互联网,因为公司底层主要是做一些集成电路相关的内容的。像是互联网相关技术栈,例如消息队列,Mysql,Redis,k8s这一些都不太涉及,导致感觉路越走越偏了,请佬友给一些建议,未来还是想往互联网行业走的 1 个帖子 - 1 位参与者 阅读完整话题
前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。
前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。
前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。
前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。
前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。
从去年 gcc 15.1 初步支持 import std 开始, 我就在 C++的模块化上做了很多实践 前段时间, 突然产生了以 C++23 模块化为基础, 实现一个现代 C++模块化项目的构建工具 。并以其能用自己从源码构建出自己也就是所谓的 自举来做为初步目标 , 目前这个目标已经实现 欢迎对现代 C++和模块化感兴趣的朋友来用, mcpp 构建工具使用模块化特性 玩一玩或开发开发小项目 也欢迎大家来反馈和交流 开源仓库: https://github.com/mcpp-community/mcpp mcpp 一个 现代 C++ 模块化构建工具 — 纯 C++23 模块编写,已实现自举 核心特性 C++23 模块原生支持 — import std 自动处理,文件级增量构建,模块依赖自动分析,零手动配置 纯模块化自举 — mcpp 自身由 43+ 个 C++23 模块组成,用自己构建自己,模块系统经实战验证 开箱即用 — 一条命令安装,内置 GCC 16 / LLVM 20 工具链,自动下载到隔离沙盒,不污染系统 集成依赖管理 — SemVer 约束解析、锁文件、跨项目 BMI 缓存、自定义包索引 多包工作空间 — Workspace 统一锁文件与版本管理,适合大型项目 为什么选择 mcpp ? mcpp 专门为 C++23 模块化开发 打造。如果你想在项目中使用 import std 、模块接口单元( .cppm )、模块分区等现代 C++ 特性,mcpp 在 Linux 上能为你提供便捷且友好的开发体验: 默认模块化 — mcpp new 创建的项目模板直接使用 C++23 模块, import std 开箱即用 文件级增量构建 — 基于 P1689 dyndep 的三层优化(前端脏检查 + 逐文件扫描 + BMI restat ),只重编真正变化的模块 一键创建 & 构建 — mcpp new hello && cd hello && mcpp build ,工具链自动安装,无需手动配置编译器和构建系统 模块化生态 — mcpplibs 提供一系列可直接 import 的 C++ 模块化库,支持自定义包索引 注: 早期版本 — mcpp 仍在积极开发中,接口和行为可能在后续版本调整。 欢迎对现代 C++ 模块化构建工具感兴趣的开发者 参与贡献 。 问题 / 反馈 / 想法欢迎在 issues 留言。 快速开始 安装 方式一:使用 xlings 安装(推荐) xlings install mcpp -y 方式二:一键安装脚本 curl -fsSL https://github.com/mcpp-community/mcpp/releases/latest/download/install.sh | bash 安装到 ~/.mcpp/ ,自动加进 shell PATH 。删除 ~/.mcpp 即可干净卸载。 方式三:让 AI 助手帮你安装 将以下提示词复制给你的 AI 编码助手( Claude Code / Cursor / Copilot 等): 阅读 https://github.com/mcpp-community/mcpp 的 README , 帮我安装 mcpp 并创建一个 C++23 模块项目,构建并运行。 项目的 .agents/skills/mcpp-usage/SKILL.md 有详细的使用指南。 创建项目 & 构建运行 mcpp new hello cd hello mcpp build mcpp run 注:首次构建会初始化环境并获取工具链,可能需要一些时间。 项目结构 hello/ ├── mcpp.toml ← 工程描述 └── src/ └── main.cpp ← import std; 直接可用 # mcpp.toml [package] name = "hello" [targets.hello] kind = "bin" main = "src/main.cpp" 使用模块化库 在 mcpp.toml 中添加两行依赖,即可引用 mcpplibs 社区模块化库: [dependencies] cmdline = "0.0.2" 然后在代码中直接 import : import mcpplibs.cmdline; 更多依赖配置方式(版本约束、命名空间、Git 引用、本地路径等)参见 mcpp.toml 指南 — 依赖管理 。 平台支持 OS / arch GCC (glibc) GCC (musl) Clang / LLVM MSVC Linux x86_64 ✅ ✅ 默认 ✅ — Linux aarch64 🔄 🔄 🔄 — macOS — — 🔄 — Windows — — 🔄 🔄 ✅ 已支持 | 🔄 计划中 默认 :release 二进制走 musl 全静态,Linux x86_64 可直接运行,无 glibc 依赖。 文档 快速开始 — 5 分钟完成 install → new → build → run 示例项目 发布打包 工具链管理 从源码构建 mcpp.toml 指南 工作空间 任意命令的完整选项可通过 mcpp <cmd> --help 查阅。 AI 辅助学习 :你可以将以下提示词发给 AI 编码助手,让它帮你快速了解 mcpp: 阅读 https://github.com/mcpp-community/mcpp 仓库的 .agents/skills/mcpp-usage/SKILL.md 和 docs/ 目录下的文档, 告诉我如何用 mcpp 创建一个带依赖的 C++23 模块项目。 参与贡献 欢迎通过 Issue 和 PR 参与项目开发。项目接受开发者使用 AI Agent 参与开发与贡献。 基本流程 创建 Issue — Bug 修复、新功能、优化等,先在 issues 创建讨论 实现改动 — Fork 仓库,创建分支,实现并验证( mcpp build + E2E 测试) 提交 PR — 使用 gh pr create ,确保 CI 通过 CI 必须通过 — CI 不通过的 PR 不会被合入 提交信息规范 : feat: / fix: / test: / docs: / refactor: 前缀 AI Agent 贡献 :项目的 .agents/skills/mcpp-contributing/SKILL.md 提供了完整的 Agent 贡献流程和项目结构说明。将以下提示词发给 AI 助手即可: 阅读 https://github.com/mcpp-community/mcpp 仓库的 .agents/skills/mcpp-contributing/SKILL.md , 按照指南帮我给 mcpp 项目提交一个贡献。 社区 & 生态 社区论坛 — 交流群 (Q: 1067245099) mcpp-index — 默认包索引 mcpplibs — 模块化 C++ 库集合 致谢 项目依赖和灵感来源: xlings — 工具链 / 包管理底座 mcpplibs.cmdline — CLI 框架 ninja — 底层构建引擎 xmake — 跨平台构建工具 cargo — Rust 包管理器
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 rt,可以非常方便地管理多个llama.cpp启动配置和监测资源,还支持自定义参数来适应不同llama.cpp分支的功能,比如turboquant、Dflash等。 同时对比LM Studio等,只是个轻量级外壳,不会造成性能损失 欢迎各位佬友试用,有Star就更好了 github.com GitHub - RyensX/LlamaCppHub 通过在 GitHub 上创建帐户来为 RyensX/LlamaCppHub 开发做出贡献。 我这边也整合了一些不同功能的分支和一键构建代码,需要的也可以看下 github.com GitHub - RyensX/windows_llama.cpp: PowerShell automation to rebuild llama.cpp for a... PowerShell automation to rebuild llama.cpp for a Windows environment. 1 个帖子 - 1 位参与者 阅读完整话题
https://github.com/antirez/llama.cpp-deepseek-v4-flash
https://github.com/antirez/llama.cpp-deepseek-v4-flash
https://github.com/antirez/llama.cpp-deepseek-v4-flash
https://github.com/antirez/llama.cpp-deepseek-v4-flash
https://github.com/antirez/llama.cpp-deepseek-v4-flash
https://github.com/antirez/llama.cpp-deepseek-v4-flash
https://github.com/antirez/llama.cpp-deepseek-v4-flash