export ANTHROPIC_AUTH_TOKEN="sk-5842461ad993e9252ef9d39cf5b068fded788834a9135a2ba393e44033a26c6f" export ANTHROPIC_AUTH_TOKEN="sk-5842461ad993e9252ef9d39cf5b068fded788834a9135a2ba393e44033a26c6f" 配置方式 3 个帖子 - 2 位参与者 阅读完整话题
手上有一个移动魔百盒M301A,九联代工的版本。1+8G,芯片是s905l2b,心血来潮想刷个linux系统用用, u盘rufus写入ophub开源的armbian固件刷入成功, github固件地址 (点击了解更多详细信息) 刷完感觉就是个玩具不知道干嘛 盒子短接点 (点击了解更多详细信息) 求个建议 3 个帖子 - 3 位参与者 阅读完整话题
分享一个mimo key gc-fscfxnp64wa7l79jyy86hcrx0hbb2btyob1ymsgp7udtqfvp ROT13 佬友们助力一下三级 5 个帖子 - 3 位参与者 阅读完整话题
显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432
显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432
之前开帖子问的那款智凯100,太慢了,双卡64g跑32b的千问,只能16tokens每秒 我看有华为,摩尔线程这些,你们实际使用哪一款更合适服务器使用呢? 2 个帖子 - 2 位参与者 阅读完整话题
llm.makapi.indevs.in MakAPI - AI API Gateway sk-18afbc4f491eb13fec9444f2bb20abea37437a42fec1223201e946f3d3667e25 大家加油蹬,还有大概四百个team 3 个帖子 - 2 位参与者 阅读完整话题
刚来没啥送佬友的,送点微薄的网易云会员吧,一共98天,最高得7天。 1http:/$zUn2Ej2c322b1e$【復淛整段文案并咑閞「网易云音乐」,领免费会员】 黑胶邀请官 這***妳 送你网易云音乐6月黑胶会员卡,领取享20+会员权益。 领取福利 4 个帖子 - 2 位参与者 阅读完整话题
https://codex2api.x7a9k3.dpdns.org sk-4caedafeddd8413836f7d8dca1660d4d3b2bd48903669764 1 个帖子 - 1 位参与者 阅读完整话题
url: https://api.0301.fun/ sk-51b8182b842bf1bcbc635f7335671c93f4bfac5631f917e78c335ce0702cee25 1 个帖子 - 1 位参与者 阅读完整话题
eai.finance New API Unified AI API gateway and admin dashboard. sk-poAY2bm4Up89Z这里删除qdCmavF6rZSLQexdV6pZ72tkPbFPoXM9toM 很快会被删贴,自己保存转发吧。私呼羊毛会触碰到利益?如果帖子没了就是 1 个帖子 - 1 位参与者 阅读完整话题
ark-bc7e1d9f-0cf3-49dc-973a-f4171bb12b1b-1915f BaseURL: https://ark.cn-beijing.volces.com/api/coding/v3(兼容OpenAI 协议) 或 https://ark.cn-beijing.volces.com/api/coding(兼容 Anthropic 接口协议) 4 个帖子 - 3 位参与者 阅读完整话题
https://chaoye.xyz sk-400a3febc04cec6941c0a6cb8ae4bf2e0f5708f22b11988e0f30f123ff6838bf
https://chaoye.xyz sk-400a3febc04cec6941c0a6cb8ae4bf2e0f5708f22b11988e0f30f123ff6838bf
http://codehub.ajiakesi.cn/ key是 sk-Xisjfvxr7qQR9dbMPCyAkFepF6P2bFA1rn4wjj8pKQfhTJV6 3 个帖子 - 3 位参与者 阅读完整话题
IT之家 6 月 6 日消息,据外媒 Bingo Finance 今天报道,美国企业正在经历一场 AI 热潮后的阵痛。随着各大公司在 AI 领域的累计投入突破 1 万亿美元(现汇率约合 6.79 万亿元人民币),模型推理成本不断飙升,而预期的降本增效却迟迟未能兑现。导致越来越多公司开始寻求低成本替代方案。 美国企业支出管理平台 Ramp 最新调查报告显示,中国 AI 公司 DeepSeek 首次登上该平台软件趋势榜榜首,成为增长最快的软件供应商。这一变化反映出美国企业客户对不断攀升的 AI 模型成本感到不满。 近期披露的案例显示,某企业仅在一个月内就为 Claude 支付 5 亿美元(IT之家注:现汇率约合 33.96 亿元人民币)费用, 网约车巨头 Uber 更是在今年四个月内耗尽了全年的 Token 预算 。甚至亚马逊、微软等科技巨头,都在暂停或缩减内部 AI 工具订阅费用。 就在美国企业为 AI 账单头疼之际,DeepSeek 近期宣布将 API 价格永久下调 75%,而 MiniMax 更是将模型使用成本压至行业新低。性价比正迅速成为中国大模型进军全球 B2B 市场的主要武器。 Ramp 首席经济学家 Ara Kharazian 表示:“这可能是迄今为止最明确的信号,表明美国企业正在主动寻找 OpenAI、Anthropic 的低成本替代方案”。 他从平台交易数据分析称,一部分企业已开始直接使用价格更便宜的中国大模型。这些企业并非自行部署 DeepSeek 开源模型,而是直接向 DeepSeek 付费并使用其托管服务。 回顾 2025 年初,DeepSeek 的 R1 模型曾引发全球关注。其移动 App 不仅登顶中国区 App Store 免费榜榜首,还曾超越 ChatGPT 成为美国区下载量第一的应用。 不过,与主要反映个人用户热度的 App Store 排名不同, Ramp 数据更真实地反映了企业市场情况 。该企业统计数据显示,DeepSeek 于 2025 年在美国企业的采用率一度达到 0.3%,随后回落至 0.1%,并维持到 2026 年 4 月。 Ramp 认为,DeepSeek 再次获得企业客户关注的最直接原因之一, 就是美国 AI 生态系统内部不断加剧的成本压力 。该企业表示:“美国公司在 AI 支出方面正变得越来越谨慎,他们会更多尝试开源模型,或者转向比 OpenAI、Anthropic 更便宜的产品”。
求推荐一套 B2b2c 的商城系统 ,可以 SAAS 给商户开独立站。 基础信息是: 自有海外仓货盘,现在想做一套 S2b2c 或是 B2b2c 的商城系统,有货盘的可以入驻,相开店做独立站的也可以给他 SAAS 独立站, 有没有大佬看下有这样的系统,开源支持二开,有现成的也行可以有尝交流( Wechat:Vick_mall)
https://crazyrouter.com/ 27b0ca8628c3457baec5baaf89729f5c 588d80377be1476a85889c1befee1e24 25d5008c72b24fe5ab11dc93b26101ea 224a9993a6b34d41ae31acab9d2cb3a9 985de20df9cf4fe486ee9adccd489c37 e71c0f12655746e89cfd0f1376d13a47 4ef3c62159f94514911540082ed1346d 004b78efc79f486daf8d05326d35e38b 80b59f4d46594543871db5f560349322 cf6a7e8a1c194239b489bdf309789f6c c7e5a30733304663a693cb258165381a de726f0425ec4f1892471a5141cc91a6 c704df4e79a9445993a5b3753636d644 86f103fc86434ffd805de3f79348269a b48b894d7e2444e7966408ae5204064b cc0acc1168b3474eadfaf9d009db8024 e03a3c2c0ba0431b80e3e47f1ba31830 6eccf4b2ca1246b19115a73f3f047ed3 dd99e1d81eca4b9fa07b2059a2372d44 bc3443eb5d594007a3aaa857279cc96e 3f924cc0eef748aebfc9d1dd5201456c 12df0f4eda5c441b9a9b573bdad1471f 2a1ac88c0eb645ef8ac3a52873ca18c9 b0668e4bc751486599a3b7fe4ef77fbc e57c5f0796e74b4db02e54d2637031a8 23d7a10be5044882bd2e9729353205ac 04970ec75a9d480fa7d8fa9a0fef8d8e d7620482ab4a453a9f21b88a75405a74 b83f72bc0c344ad0b75a7ae36c6986c2 8b74eda7842b4054b960b3cff63d232c
Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。
Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。