背景:需要在完全离线的国产 Linux(老版本 glibc)服务器上完成 llama.cpp CUDA 版本编译。 限制条件:1. 无 root 权限 2. 无 yum/apt 3. 无在线下载。 坑1:系统 GCC 版本过低 解决方案:使用 conda-forge 构建 GCC11 环境,通过 conda-pack 打包后在离线服务器使用 conda create -n gcc11 gcc=11 gxx=11 conda-pack 打包后解压使用 注意点:需要显式指定编译器,否则 CMake 可能仍使用系统 gcc export CC=$CONDA_PREFIX/bin/x86_64-conda-linux-gnu-gcc export CXX=$CONDA_PREFIX/bin/x86_64-conda-linux-gnu-g++ 坑2:libcuda.so.1 找不到 本质:不是驱动损坏或 CUDA 未安装,而是 CUDA 链接阶段缺少 -lcuda 对应的开发库 解决方案:使用 CUDA Toolkit 中的 stub 库进行链接阶段补全 /usr/local/cuda/lib64/stubs/libcuda.so 配置方式: export LIBRARY_PATH=/usr/local/cuda/lib64/stubs:$LIBRARY_PATH 说明:该方式仅用于编译链接阶段,不参与运行时加载,运行时仍依赖系统 NVIDIA driver 坑3:GLIBC 版本不满足 错误处理建议:不要尝试升级系统 glibc、不要替换 /lib64/libc.so,这类操作风险极高,可能导致系统直接不可用 解决方案:使用 conda 提供的用户态动态链接器绕过系统 glibc $CONDA_ENV/lib/ld-linux-x86-64.so.2 --library-path $CONDA_ENV/lib ./llama-server 原理说明:不是替换系统 glibc,而是直接使用 conda 的 ELF interpreter 启动程序,使程序运行在 conda 用户态运行时环境中 整体方案如下: GCC11(Conda toolchain) CUDA stubs(解决 libcuda 链接问题) Conda glibc runtime(解决运行时兼容问题) 最终在完全离线国产服务器环境中成功编译并运行 llama.cpp CUDA 版本。 1 个帖子 - 1 位参与者 阅读完整话题
用ollama在本地部署了hymt2翻译模型,URL http://localhost:11434/v1/chat/completions,APIKEY ollama填到沉浸式翻译可以使用,但是接入到陪读蛙,总是提示 陪读蛙版本是v1.33.12,有佬遇到过这个问题吗? 1 个帖子 - 1 位参与者 阅读完整话题
code x 配合 Ollama、llama.cpp 接入本地大模型,理论Token 自由,直接把电脑卡死了,需要什么基础设备才能流畅运行呢? mbp m5 16G 1tb 1 个帖子 - 1 位参与者 阅读完整话题
之前续费了cloud pro 年会员,结果发现5h可用额度大幅减少,发了两封邮件询问更透明的计费方式都石沉大海,遂点击了取消续订,也没抱能退款的想法,将就用吧。但前几天发现邮箱有个邮件询问为啥取消续订,就回复了一下,他们回复的很快,我今天上午发的,中午就和我讲退费了,后续转opencode玩一下吧。 1 个帖子 - 1 位参与者 阅读完整话题
如题,模型评价好像在外网还不错,但是国内风评一般,ollama可以免费调用 3 个帖子 - 3 位参与者 阅读完整话题
国内人才储备量大? deepseek 改变了时间线,有作业抄?
搞点涉密资料翻译,不能走api,想本地搞,理解这种小模型对性能要求应该不高 m4 macmini跑的动么 4 个帖子 - 3 位参与者 阅读完整话题
目前有一个128G显存的算力盒子,用的Ubuntu系统,部署了Ollama配套对应的webUI,用起来还行,但是看到有佬友说LM Studio不错,还了解到有llama.cpp,想咨询下各位佬友用哪个会比较友好,并且我打算将本地部署的模型接入到codex或者claude code中 顺带一问除了cpolar外还有哪些免费的内网穿透软件,现在没公网ip,没域名,所以比较倾向于cpolar,但是带宽又不支撑十几个人一起用 6 个帖子 - 3 位参与者 阅读完整话题
已实测可用 1 个帖子 - 1 位参与者 阅读完整话题
ollama 上可以使用minimax-m3,一百万token上下文,原生多模态,免费用户好像支持调用API ollama.com minimax-m3 MiniMax M3: Coding & Agentic Frontier. 1M context window. Native Multimodality. 2 个帖子 - 2 位参与者 阅读完整话题
最近因为额度减少和速度慢弃了Ollama Cloud,想在Opencode里用kimi的模型,composer 2.5和k2.6看佬友们说差不多,不知道怎么选 6 个帖子 - 3 位参与者 阅读完整话题
llama.cpp 搭建本地模型 使用llama.cpp 搭建本地模型。具体来说,就是在本地终端电脑跑上自己的模型。 能跑什么模型,多大的模型,要根据自己的电脑配置,配置越高,跑的越大;显卡+内存 为啥能跑? 把模型塞到内存中了,所以没显卡也能跑,但就是慢。 b的单位补充。 1B = 10亿参数 。 通常看到模型8b,啥意思呢,就是模型参数是80亿;deepseek v4 pro ,1.6万亿参数,也就是1.6T; v4-pro 是284B deepseek目前都是MoE 架构,就是比如dddddddd v4-pro 284b参数,每次chat不是全部都调用,而只是调用激活的参数,激活13B,就是130亿参数。 MOE是把所有的参数都放到内从中,因为显存太大了,一般8B *2 要16G 的显卡,那么284B要多大呢? 1.6T要多大呢?所以绝大多数都放在内存中不激活,激活的就是公共参数比如13B。然后根据公共参数,去调用需要的在内从的专家参数。 1.下载llama.cpp 这里下载对应电脑的版本 https://github.com/ggml-org/llama.cpp/releases 2 下载自己电脑所能够配置的模型 2.1 模型下载的地址 Hugging Face DeepSeek-V4 - a deepseek-ai Collection 魔搭社区 (ModelScope)- 国内的 ModelScope - 模型列表页 2.2 下载模型 一般现在xxx Q4_K_M.gguf, 比如 Qwen3.5-9B-Q4_K_M.gguf 因为这个模型是量化过的,9B的模型一般16精度要18G的显卡,但是量化过了,就只需要5到6G显卡,比这个高,需要的显卡要大,比这个低,模型就变傻了;结论这个就是最高性价比 如上的文件都不能少。但是在官网有很多文件,量化的很多,下载下来浪费时间和磁盘,所以选择适合自己的。 如何让模型和llma.cpp 在终端上跑起来呢? .\llama-cli.exe -m "C:\xxxx\Qwen\Jackrong\Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF\Qwen3.5-4B.Q4_K_S.gguf" -n 2048 -ngl 15 命令分解 参数 值 含义 .\llama-cli.exe - 当前目录下的 llama-cli 可执行文件(llama.cpp 的 CLI 工具) -m "C:\xxxx\Qwen\Jackrong\Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF\Qwen3.5-4B.Q4_K_S.gguf" 指定模型文件路径(一个经过 GGUF 量化、蒸馏处理的 Qwen3.5 模型) -n 2048 生成的最大 token 数量(最多生成 2048 个新 token) -ngl 15 GPU 层数 :将模型的前 15 层加载到 GPU 中运行,剩余层在 CPU 上运行 实际效果 总结: 其实,这个就是一个思路,如何在本地搭建自己的大模型。主要受限制的是硬件,如果硬件给力,24G显卡+500G内存,可以把deepseekv4-falsh 搭建在自己电脑上,想想多快乐,再也不用愁tokens了。 文章分析的内容,其实不难,一步步在ai的帮助下都可以自己实现,如有不懂,随时发问。如有不对,请多指教包含。 6 个帖子 - 4 位参与者 阅读完整话题
工具用的是 Coze + Dify + n8n+Ollama ,搭了三个 demo: 自动抓网页 + AI 总结 + 发邮件 FAQ 知识库 + 客服 Chatbot 定时生成推文 说几个踩坑: n8n 连 Ollama 不能用 localhost ,得写 127.0.0.1 ,卡了一个小时 QQ 邮箱 SMTP 在 n8n 里完全不通,换了几个姿势都不行 Coze 免费点数用得太快,只够跑两个 demo 感受:AI Agent 开发门槛比想象的低,但工具链对国内用户不太友好。Dify 体验最好,Coze 其次,n8n 本地跑坑最多。 有也在搞 AI Agent 的兄弟吗?交流一下。
事情是买了一个ollama订阅,支付的时候发现只能用银行卡,而且不支持国内银联,然后之后我去ollama推特问什么时候能添加国内支付方式,然后今天我看了一下添加ollama的按量支付页面居然有微信支付了,然后我想总算支持了,结果回到订阅支付页面还是没有微信,真是服了,白高兴一场 2 个帖子 - 2 位参与者 阅读完整话题
工具用的是 Coze + Dify + n8n+Ollama ,搭了三个 demo: 自动抓网页 + AI 总结 + 发邮件 FAQ 知识库 + 客服 Chatbot 定时生成推文 说几个踩坑: n8n 连 Ollama 不能用 localhost ,得写 127.0.0.1 ,卡了一个小时 QQ 邮箱 SMTP 在 n8n 里完全不通,换了几个姿势都不行 Coze 免费点数用得太快,只够跑两个 demo 感受:AI Agent 开发门槛比想象的低,但工具链对国内用户不太友好。Dify 体验最好,Coze 其次,n8n 本地跑坑最多。 有也在搞 AI Agent 的兄弟吗?交流一下。
求问,公益站里有很多模型,比如Grok xxB, LLAMA各种型号,都是怎么来的,有什么免费渠道吗,像搭一个自用 2 个帖子 - 2 位参与者 阅读完整话题
GPT 豆包 Gemini Llama DeepSeek 文心 Kimi Claude Qwen Grok GLM Gemma Composer 点击以查看投票。 你问我为什么排序这么抽象?是Gemini按使用人数列出来的顺序 无需在意 就当是为了不影响结果进行的随机排序吧 7 个帖子 - 6 位参与者 阅读完整话题
要求:有一台联网的电脑 步骤: 1.在联网的电脑安装ollama 2.在这台联网的电脑下载好模型文件,模型文件保存会至 ~.ollama目录 3.在离线的机器安装ollama 4.将联网电脑~.ollama目录所有文件,拷贝至离线电脑对应目录,cmd执行ollama list,就能看到模型 在离线的电脑,直接用ollama自带的对话框,就可以使用模型了 这是我的电脑在用的,电脑显存8G 2 个帖子 - 2 位参与者 阅读完整话题
两年工作经验,熟悉nodejs、react技术栈,熟悉langchain、llamaindex等ai编程框架,熟悉dify、ragflow等工作流平台;每天期望工作6小时,月薪5000即可带走 1 个帖子 - 1 位参与者 阅读完整话题
前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。