Llama - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-09 09:33:03+08:00 · tech

背景：需要在完全离线的国产 Linux（老版本 glibc）服务器上完成 llama.cpp CUDA 版本编译。限制条件：1. 无 root 权限 2. 无 yum/apt 3. 无在线下载。坑1：系统 GCC 版本过低解决方案：使用 conda-forge 构建 GCC11 环境，通过 conda-pack 打包后在离线服务器使用 conda create -n gcc11 gcc=11 gxx=11 conda-pack 打包后解压使用注意点：需要显式指定编译器，否则 CMake 可能仍使用系统 gcc export CC=$CONDA_PREFIX/bin/x86_64-conda-linux-gnu-gcc export CXX=$CONDA_PREFIX/bin/x86_64-conda-linux-gnu-g++ 坑2：libcuda.so.1 找不到本质：不是驱动损坏或 CUDA 未安装，而是 CUDA 链接阶段缺少 -lcuda 对应的开发库解决方案：使用 CUDA Toolkit 中的 stub 库进行链接阶段补全 /usr/local/cuda/lib64/stubs/libcuda.so 配置方式： export LIBRARY_PATH=/usr/local/cuda/lib64/stubs:$LIBRARY_PATH 说明：该方式仅用于编译链接阶段，不参与运行时加载，运行时仍依赖系统 NVIDIA driver 坑3：GLIBC 版本不满足错误处理建议：不要尝试升级系统 glibc、不要替换 /lib64/libc.so，这类操作风险极高，可能导致系统直接不可用解决方案：使用 conda 提供的用户态动态链接器绕过系统 glibc $CONDA_ENV/lib/ld-linux-x86-64.so.2 --library-path $CONDA_ENV/lib ./llama-server 原理说明：不是替换系统 glibc，而是直接使用 conda 的 ELF interpreter 启动程序，使程序运行在 conda 用户态运行时环境中整体方案如下： GCC11（Conda toolchain） CUDA stubs（解决 libcuda 链接问题） Conda glibc runtime（解决运行时兼容问题）最终在完全离线国产服务器环境中成功编译并运行 llama.cpp CUDA 版本。 1 个帖子 - 1 位参与者阅读完整话题

本地部署ollama翻译模型接入陪读蛙出错

LinuxDo 最新话题 · 2026-06-08 16:39:27+08:00 · tech

用ollama在本地部署了hymt2翻译模型，URL http://localhost:11434/v1/chat/completions，APIKEY ollama填到沉浸式翻译可以使用，但是接入到陪读蛙，总是提示陪读蛙版本是v1.33.12，有佬遇到过这个问题吗？ 1 个帖子 - 1 位参与者阅读完整话题

code x 配合 Ollama、llama.cpp 接入本地大模型

LinuxDo 最新话题 · 2026-06-08 16:32:39+08:00 · tech

code x 配合 Ollama、llama.cpp 接入本地大模型，理论Token 自由，直接把电脑卡死了，需要什么基础设备才能流畅运行呢？ mbp m5 16G 1tb 1 个帖子 - 1 位参与者阅读完整话题

ollama退款成功

LinuxDo 最新话题 · 2026-06-04 14:33:40+08:00 · tech

之前续费了cloud pro 年会员，结果发现5h可用额度大幅减少，发了两封邮件询问更透明的计费方式都石沉大海，遂点击了取消续订，也没抱能退款的想法，将就用吧。但前几天发现邮箱有个邮件询问为啥取消续订，就回复了一下，他们回复的很快，我今天上午发的，中午就和我讲退费了，后续转opencode玩一下吧。 1 个帖子 - 1 位参与者阅读完整话题

无人在意的角落minimax3上了ollama

LinuxDo 最新话题 · 2026-06-03 22:11:09+08:00 · tech

如题，模型评价好像在外网还不错，但是国内风评一般，ollama可以免费调用 3 个帖子 - 3 位参与者阅读完整话题

[问与答] meta 搞了很久搞出了 llama4, 为啥小米可以这么快搞定 mimo

v2ex · 2026-06-03 14:35:54+08:00 · tech

国内人才储备量大？ deepseek 改变了时间线，有作业抄？

本地部署一些小模型现在用什么ollama？

LinuxDo 最新话题 · 2026-06-02 14:51:32+08:00 · tech

搞点涉密资料翻译，不能走api，想本地搞，理解这种小模型对性能要求应该不高 m4 macmini跑的动么 4 个帖子 - 3 位参与者阅读完整话题

ubuntu本地部署模型平台有哪些推荐

LinuxDo 最新话题 · 2026-06-01 20:11:28+08:00 · tech

目前有一个128G显存的算力盒子，用的Ubuntu系统，部署了Ollama配套对应的webUI，用起来还行，但是看到有佬友说LM Studio不错，还了解到有llama.cpp，想咨询下各位佬友用哪个会比较友好，并且我打算将本地部署的模型接入到codex或者claude code中顺带一问除了cpolar外还有哪些免费的内网穿透软件，现在没公网ip，没域名，所以比较倾向于cpolar，但是带宽又不支撑十几个人一起用 6 个帖子 - 3 位参与者阅读完整话题

ollama云订阅已上线Minimax M3

LinuxDo 最新话题 · 2026-06-01 17:58:37+08:00 · tech

已实测可用 1 个帖子 - 1 位参与者阅读完整话题

ollama 上可以使用minimax-m3，一百万token上下文，原生多模态，免费用户好像支持调用API

LinuxDo 最新话题 · 2026-06-01 14:31:23+08:00 · tech

ollama 上可以使用minimax-m3，一百万token上下文，原生多模态，免费用户好像支持调用API ollama.com minimax-m3 MiniMax M3: Coding & Agentic Frontier. 1M context window. Native Multimodality. 2 个帖子 - 2 位参与者阅读完整话题

Cursor Pro和Kimi 199的套餐在opencode里使用哪个会比较好？

LinuxDo 最新话题 · 2026-06-01 01:53:44+08:00 · tech

最近因为额度减少和速度慢弃了Ollama Cloud，想在Opencode里用kimi的模型，composer 2.5和k2.6看佬友们说差不多，不知道怎么选 6 个帖子 - 3 位参与者阅读完整话题

llama.cpp 搭建本地模型

LinuxDo 最新话题 · 2026-05-31 20:01:00+08:00 · tech

llama.cpp 搭建本地模型使用llama.cpp 搭建本地模型。具体来说，就是在本地终端电脑跑上自己的模型。能跑什么模型，多大的模型，要根据自己的电脑配置，配置越高，跑的越大；显卡+内存为啥能跑？把模型塞到内存中了，所以没显卡也能跑，但就是慢。 b的单位补充。 1B = 10亿参数。通常看到模型8b,啥意思呢，就是模型参数是80亿；deepseek v4 pro ，1.6万亿参数，也就是1.6T； v4-pro 是284B deepseek目前都是MoE 架构，就是比如dddddddd v4-pro 284b参数，每次chat不是全部都调用，而只是调用激活的参数，激活13B，就是130亿参数。 MOE是把所有的参数都放到内从中，因为显存太大了，一般8B *2 要16G 的显卡，那么284B要多大呢？ 1.6T要多大呢？所以绝大多数都放在内存中不激活，激活的就是公共参数比如13B。然后根据公共参数，去调用需要的在内从的专家参数。 1.下载llama.cpp 这里下载对应电脑的版本 https://github.com/ggml-org/llama.cpp/releases 2 下载自己电脑所能够配置的模型 2.1 模型下载的地址 Hugging Face DeepSeek-V4 - a deepseek-ai Collection 魔搭社区 (ModelScope)- 国内的 ModelScope - 模型列表页 2.2 下载模型一般现在xxx Q4_K_M.gguf，比如 Qwen3.5-9B-Q4_K_M.gguf 因为这个模型是量化过的，9B的模型一般16精度要18G的显卡，但是量化过了，就只需要5到6G显卡，比这个高，需要的显卡要大，比这个低，模型就变傻了；结论这个就是最高性价比如上的文件都不能少。但是在官网有很多文件，量化的很多，下载下来浪费时间和磁盘，所以选择适合自己的。如何让模型和llma.cpp 在终端上跑起来呢？ .\llama-cli.exe -m "C:\xxxx\Qwen\Jackrong\Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF\Qwen3.5-4B.Q4_K_S.gguf" -n 2048 -ngl 15 命令分解参数值含义 .\llama-cli.exe - 当前目录下的 llama-cli 可执行文件（llama.cpp 的 CLI 工具） -m "C:\xxxx\Qwen\Jackrong\Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF\Qwen3.5-4B.Q4_K_S.gguf" 指定模型文件路径（一个经过 GGUF 量化、蒸馏处理的 Qwen3.5 模型） -n 2048 生成的最大 token 数量（最多生成 2048 个新 token） -ngl 15 GPU 层数：将模型的前 15 层加载到 GPU 中运行，剩余层在 CPU 上运行实际效果总结：其实，这个就是一个思路，如何在本地搭建自己的大模型。主要受限制的是硬件，如果硬件给力，24G显卡+500G内存，可以把deepseekv4-falsh 搭建在自己电脑上，想想多快乐，再也不用愁tokens了。文章分析的内容，其实不难，一步步在ai的帮助下都可以自己实现，如有不懂，随时发问。如有不对，请多指教包含。 6 个帖子 - 4 位参与者阅读完整话题

[分享发现] 不上班第 N 天， 3 天搭了 3 个 AI Agent，说说真实体验

v2ex · 2026-05-29 22:23:33+08:00 · tech

工具用的是 Coze + Dify + n8n+Ollama ，搭了三个 demo：自动抓网页 + AI 总结 + 发邮件 FAQ 知识库 + 客服 Chatbot 定时生成推文说几个踩坑： n8n 连 Ollama 不能用 localhost ，得写 127.0.0.1 ，卡了一个小时 QQ 邮箱 SMTP 在 n8n 里完全不通，换了几个姿势都不行 Coze 免费点数用得太快，只够跑两个 demo 感受：AI Agent 开发门槛比想象的低，但工具链对国内用户不太友好。Dify 体验最好，Coze 其次，n8n 本地跑坑最多。有也在搞 AI Agent 的兄弟吗？交流一下。

感觉ollama有点颠

LinuxDo 最新话题 · 2026-05-29 22:04:49+08:00 · tech

事情是买了一个ollama订阅，支付的时候发现只能用银行卡，而且不支持国内银联，然后之后我去ollama推特问什么时候能添加国内支付方式，然后今天我看了一下添加ollama的按量支付页面居然有微信支付了，然后我想总算支持了，结果回到订阅支付页面还是没有微信，真是服了，白高兴一场 2 个帖子 - 2 位参与者阅读完整话题

[问与答] 不上班第 N 天， 3 天搭了 3 个 AI Agent，说说真实体验

v2ex · 2026-05-29 21:23:33+08:00 · tech

工具用的是 Coze + Dify + n8n+Ollama ，搭了三个 demo：自动抓网页 + AI 总结 + 发邮件 FAQ 知识库 + 客服 Chatbot 定时生成推文说几个踩坑： n8n 连 Ollama 不能用 localhost ，得写 127.0.0.1 ，卡了一个小时 QQ 邮箱 SMTP 在 n8n 里完全不通，换了几个姿势都不行 Coze 免费点数用得太快，只够跑两个 demo 感受：AI Agent 开发门槛比想象的低，但工具链对国内用户不太友好。Dify 体验最好，Coze 其次，n8n 本地跑坑最多。有也在搞 AI Agent 的兄弟吗？交流一下。

求问公益站的meta、grok、Deepseek、minimax等模型都是哪里来的，也想搭一个自用

LinuxDo 最新话题 · 2026-05-24 11:59:03+08:00 · tech

求问，公益站里有很多模型，比如Grok xxB, LLAMA各种型号，都是怎么来的，有什么免费渠道吗，像搭一个自用 2 个帖子 - 2 位参与者阅读完整话题

投票你现在在用什么模型

LinuxDo 最新话题 · 2026-05-21 11:54:08+08:00 · tech

GPT 豆包 Gemini Llama DeepSeek 文心 Kimi Claude Qwen Grok GLM Gemma Composer 点击以查看投票。你问我为什么排序这么抽象？是Gemini按使用人数列出来的顺序无需在意就当是为了不影响结果进行的随机排序吧 7 个帖子 - 6 位参与者阅读完整话题

Ollama离线部署模型

LinuxDo 最新话题 · 2026-05-20 16:10:02+08:00 · tech

要求：有一台联网的电脑步骤： 1.在联网的电脑安装ollama 2.在这台联网的电脑下载好模型文件，模型文件保存会至 ~.ollama目录 3.在离线的机器安装ollama 4.将联网电脑~.ollama目录所有文件，拷贝至离线电脑对应目录，cmd执行ollama list，就能看到模型在离线的电脑，直接用ollama自带的对话框，就可以使用模型了这是我的电脑在用的，电脑显存8G 2 个帖子 - 2 位参与者阅读完整话题

找一个兼职远程工作，nodejs全栈，熟悉ai大模型

LinuxDo 最新话题 · 2026-05-19 18:39:39+08:00 · tech

两年工作经验，熟悉nodejs、react技术栈，熟悉langchain、llamaindex等ai编程框架，熟悉dify、ragflow等工作流平台；每天期望工作6小时，月薪5000即可带走 1 个帖子 - 1 位参与者阅读完整话题

关于 5070ti 模型推理的速度和本地部署思考

V2EX - 技术 · 2026-05-19 17:50:13+08:00 · tech

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）速度大概是 120t/s-150t/s ，首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化（稠密结构）速度大概是 8t/s-10t/s ，首 token 可能很慢，整体输出都慢得多。思考：现在的模型有两种结构：稠密（ Dense ）和 MoE （混合专家模型）。以上述两种模型举例稠密模型是所有层（ dev 这个有 40 层）都参与计算，消耗 24b 的完整算力，也就是单 token 2x24b=48gflops （不算量化），算力消耗大，推理成本高。 moe 是总共 26b 参数，每次推理只激活 4b 参数，只消耗激活参数 4b 的算力，单 token 算力消耗 2x4=8gflops ，算力消耗小很多，但有 26b 的参数（知识）。gemma 这个有 128 个专家，每次激活 8 个专家和 1 个共享专家（所有 token 必须首先经过共享专家），moe 模型是通过动态路由判断选择专家的。可以看出算力需求差异巨大。常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少，但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少，但显存需求没变。可以大概推测，顶级大模型以后可能只有 moe 结构了，参数小的可能有稠密架构，因为算力成本还尚可接受，参数量很大的稠密结构，恐怕算力成本高到厂商也难以商用吧。本地部署，我看来推理速度有 40-50token/s ，基本可以自用了，这是一个及格线。我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡，pro6000 96g 咸鱼 6w 多，pro6000d 84g （显存没 ecc ，整体比 6000 略差）咸鱼 4w ，pro5000 84g 这种。 2. 用同等价钱稍微低点，等 m5 pro 的 mac mini/studio 发布后购买。改显存，矿卡，二手的很久的专业卡等就不讨论了，不懂这部分。 mac 跑推理，olmx 官网我看了模型推理速度排行榜，还是差了点，不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。还有就是比如双 5070ti 跑模型推理，不知道速度怎么样，价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板，双显卡要 pcie 拆分 8x8 ，pcie5.0 肯定更好，我得换主板换内存，成本太高，没法测试，如果内存没这么贵，就换主板买内存搞个 5060ti 16g 来测试了，这个可能也是一种方案吧。

/tag/Llama