下载地址: https://drive.google.com/drive/folders/1qDYvycW4Ki0gAppMGhvSixUCioIRXcmN 前俩天我公布了我写的通过本地 LLM 来实现接近 ChatGPT 功能的工具 Bonsai, 这是我这个系列工具的第二个。 这是一个新的观念,就是可以把所有的浏览器交互都通过本地大模型来实现
下载地址: https://drive.google.com/drive/folders/1qDYvycW4Ki0gAppMGhvSixUCioIRXcmN 前俩天我公布了我写的通过本地 LLM 来实现接近 ChatGPT 功能的工具 Bonsai, 这是我这个系列工具的第二个。 这是一个新的观念,就是可以把所有的浏览器交互都通过本地大模型来实现
我在德州西南医学中心从去年开始开的一门课就是如何利用 Agentic AI 来编写 Harness 为不同的专门领域来服务。 当前随着各大 AI 公司比如 OpenAI Google Anthropic 大幅提高 Token 价格,使用云端的大模型的花费越来越高。但是同时很多用户使用 ChatGPT 这样的工具只是把它当成 Google 一样来用,用来查询信息。完全没有必要花费巨额的 Token 量和花费来使用顶级的 GPT 5.5 或者 Opus 4.8 这样的模型。 鉴于此,我决定使用高效的本地模型结合 Harness 来设定工具和 Memory 来解决这个问题。 (取名 Bonsai 的原因,一部分是因为我和 Stanford 出身的 Prism 实验室有过一些交集 https://prismml.com/ ) 虽然 Anthropic 从来没有公布具体的 Claude Sonnet 的参数量,不过从网上的信息以及我的个人分析推断,这个模型是一个 MoE (Mix of Expert) 模型,它的有效参数 (Active Parameter) 应该在数十 B 左右,总参数在几百 B 左右。 MoE 模型的有效参数是真实的模型推理过程中使用的参数量,总参数量则是这个模型所储备的知识量 (Knowlege)。我的想法是如果是这样,那么使用一款带有 Thinking 能力的 Dense 模型,虽然只有数十 B 的参数量,但如果可以结合 Harness Engineering, 利用针对性的高效工具来弥补模型知识能力的不足,这样的工具如果写成了应该可以在本地替代大部分的 ChatGPT 对于大多数用户的需求。 做为这个想法的第一个专门项目,我决定先公布一个测试版本 Bonsai, 这个 Harness 采用了底层和本机的 Google Chrome 交流,通过编写的多个浏览器交流工具让本地 LLM 使用 Agentic 模式来访问网络, 默认使用的大模型是 Google Gemma 4B, 当然也可以换成 QWen 模型。 (使用 Gemma 模型的原因是在德州的政府部门包括学校中不能使用中国的开源模型) 下载地址: https://drive.google.com/drive/folders/1YUQ3tmcBSLEyBKLi5JdJgmod9mqXFTgl?usp=sharing 截图: https://i.imgur.com/9MacuXk.png 左边是输入对话框,右边是 Agent 在操作浏览器 这个 Harness 采用了很多专门针对浏览器交互的工具,包括可以 InjectJS 等 JS 注入工具,来方便 Agnet 来查找网页元素和点击按钮等等 这个当前的版本是在 Windows 上编译的,需要 Nvidia CUDA 的支持 我会随后更新还在测试中的 M 系列的 Mac 版本 当前使用 4B thinking 模型作为默认模型的目的是可以在本地上跑到快速的 token / s 方便使用 Agentic workflow. 我测试使用的 Win11+Nvidia 4090 可以跑到大概 140 tps. 在 M4 mac 上使用 Metal 后段大概在 50 tps 左右
我在德州西南医学中心从去年开始开的一门课就是如何利用 Agentic AI 来编写 Harness 为不同的专门领域来服务。 当前随着各大 AI 公司比如 OpenAI Google Anthropic 大幅提高 Token 价格,使用云端的大模型的花费越来越高。但是同时很多用户使用 ChatGPT 这样的工具只是把它当成 Google 一样来用,用来查询信息。完全没有必要花费巨额的 Token 量和花费来使用顶级的 GPT 5.5 或者 Opus 4.8 这样的模型。 鉴于此,我决定使用高效的本地模型结合 Harness 来设定工具和 Memory 来解决这个问题。 (取名 Bonsai 的原因,一部分是因为我和 Stanford 出身的 Prism 实验室有过一些交集 https://prismml.com/ ) 虽然 Anthropic 从来没有公布具体的 Claude Sonnet 的参数量,不过从网上的信息以及我的个人分析推断,这个模型是一个 MoE (Mix of Expert) 模型,它的有效参数 (Active Parameter) 应该在数十 B 左右,总参数在几百 B 左右。 MoE 模型的有效参数是真实的模型推理过程中使用的参数量,总参数量则是这个模型所储备的知识量 (Knowlege)。我的想法是如果是这样,那么使用一款带有 Thinking 能力的 Dense 模型,虽然只有数十 B 的参数量,但如果可以结合 Harness Engineering, 利用针对性的高效工具来弥补模型知识能力的不足,这样的工具如果写成了应该可以在本地替代大部分的 ChatGPT 对于大多数用户的需求。 做为这个想法的第一个专门项目,我决定先公布一个测试版本 Bonsai, 这个 Harness 采用了底层和本机的 Google Chrome 交流,通过编写的多个浏览器交流工具让本地 LLM 使用 Agentic 模式来访问网络, 默认使用的大模型是 Google Gemma 4B, 当然也可以换成 QWen 模型。 (使用 Gemma 模型的原因是在德州的政府部门包括学校中不能使用中国的开源模型) 下载地址: https://drive.google.com/drive/folders/1YUQ3tmcBSLEyBKLi5JdJgmod9mqXFTgl?usp=sharing 截图: https://i.imgur.com/9MacuXk.png 左边是输入对话框,右边是 Agent 在操作浏览器 这个 Harness 采用了很多专门针对浏览器交互的工具,包括可以 InjectJS 等 JS 注入工具,来方便 Agnet 来查找网页元素和点击按钮等等 这个当前的版本是在 Windows 上编译的,需要 Nvidia CUDA 的支持 我会随后更新还在测试中的 M 系列的 Mac 版本 当前使用 4B thinking 模型作为默认模型的目的是可以在本地上跑到快速的 token / s 方便使用 Agentic workflow. 我测试使用的 Win11+Nvidia 4090 可以跑到大概 140 tps. 在 M4 mac 上使用 Metal 后段大概在 50 tps 左右
我在德州西南医学中心从去年开始开的一门课就是如何利用 Agentic AI 来编写 Harness 为不同的专门领域来服务。 当前随着各大 AI 公司比如 OpenAI Google Anthropic 大幅提高 Token 价格,使用云端的大模型的花费越来越高。但是同时很多用户使用 ChatGPT 这样的工具只是把它当成 Google 一样来用,用来查询信息。完全没有必要花费巨额的 Token 量和花费来使用顶级的 GPT 5.5 或者 Opus 4.8 这样的模型。 鉴于此,我决定使用高效的本地模型结合 Harness 来设定工具和 Memory 来解决这个问题。 (取名 Bonsai 的原因,一部分是因为我和 Stanford 出身的 Prism 实验室有过一些交集 https://prismml.com/ ) 虽然 Anthropic 从来没有公布具体的 Claude Sonnet 的参数量,不过从网上的信息以及我的个人分析推断,这个模型是一个 MoE (Mix of Expert) 模型,它的有效参数 (Active Parameter) 应该在数十 B 左右,总参数在几百 B 左右。 MoE 模型的有效参数是真实的模型推理过程中使用的参数量,总参数量则是这个模型所储备的知识量 (Knowlege)。我的想法是如果是这样,那么使用一款带有 Thinking 能力的 Dense 模型,虽然只有数十 B 的参数量,但如果可以结合 Harness Engineering, 利用针对性的高效工具来弥补模型知识能力的不足,这样的工具如果写成了应该可以在本地替代大部分的 ChatGPT 对于大多数用户的需求。 做为这个想法的第一个专门项目,我决定先公布一个测试版本 Bonsai, 这个 Harness 采用了底层和本机的 Google Chrome 交流,通过编写的多个浏览器交流工具让本地 LLM 使用 Agentic 模式来访问网络, 默认使用的大模型是 Google Gemma 4B, 当然也可以换成 QWen 模型。 (使用 Gemma 模型的原因是在德州的政府部门包括学校中不能使用中国的开源模型) 下载地址: https://drive.google.com/drive/folders/1YUQ3tmcBSLEyBKLi5JdJgmod9mqXFTgl?usp=sharing 截图: https://i.imgur.com/9MacuXk.png 左边是输入对话框,右边是 Agent 在操作浏览器 这个 Harness 采用了很多专门针对浏览器交互的工具,包括可以 InjectJS 等 JS 注入工具,来方便 Agnet 来查找网页元素和点击按钮等等 这个当前的版本是在 Windows 上编译的,需要 Nvidia CUDA 的支持 我会随后更新还在测试中的 M 系列的 Mac 版本 当前使用 4B thinking 模型作为默认模型的目的是可以在本地上跑到快速的 token / s 方便使用 Agentic workflow. 我测试使用的 Win11+Nvidia 4090 可以跑到大概 140 tps. 在 M4 mac 上使用 Metal 后段大概在 50 tps 左右
我在德州西南医学中心从去年开始开的一门课就是如何利用 Agentic AI 来编写 Harness 为不同的专门领域来服务。 当前随着各大 AI 公司比如 OpenAI Google Anthropic 大幅提高 Token 价格,使用云端的大模型的花费越来越高。但是同时很多用户使用 ChatGPT 这样的工具只是把它当成 Google 一样来用,用来查询信息。完全没有必要花费巨额的 Token 量和花费来使用顶级的 GPT 5.5 或者 Opus 4.8 这样的模型。 鉴于此,我决定使用高效的本地模型结合 Harness 来设定工具和 Memory 来解决这个问题。 (取名 Bonsai 的原因,一部分是因为我和 Stanford 出身的 Prism 实验室有过一些交集 https://prismml.com/ ) 虽然 Anthropic 从来没有公布具体的 Claude Sonnet 的参数量,不过从网上的信息以及我的个人分析推断,这个模型是一个 MoE (Mix of Expert) 模型,它的有效参数 (Active Parameter) 应该在数十 B 左右,总参数在几百 B 左右。 MoE 模型的有效参数是真实的模型推理过程中使用的参数量,总参数量则是这个模型所储备的知识量 (Knowlege)。我的想法是如果是这样,那么使用一款带有 Thinking 能力的 Dense 模型,虽然只有数十 B 的参数量,但如果可以结合 Harness Engineering, 利用针对性的高效工具来弥补模型知识能力的不足,这样的工具如果写成了应该可以在本地替代大部分的 ChatGPT 对于大多数用户的需求。 做为这个想法的第一个专门项目,我决定先公布一个测试版本 Bonsai, 这个 Harness 采用了底层和本机的 Google Chrome 交流,通过编写的多个浏览器交流工具让本地 LLM 使用 Agentic 模式来访问网络, 默认使用的大模型是 Google Gemma 4B, 当然也可以换成 QWen 模型。 (使用 Gemma 模型的原因是在德州的政府部门包括学校中不能使用中国的开源模型) 下载地址: https://drive.google.com/drive/folders/1YUQ3tmcBSLEyBKLi5JdJgmod9mqXFTgl?usp=sharing 截图: https://i.imgur.com/9MacuXk.png 左边是输入对话框,右边是 Agent 在操作浏览器 这个 Harness 采用了很多专门针对浏览器交互的工具,包括可以 InjectJS 等 JS 注入工具,来方便 Agnet 来查找网页元素和点击按钮等等 这个当前的版本是在 Windows 上编译的,需要 Nvidia CUDA 的支持 我会随后更新还在测试中的 M 系列的 Mac 版本 当前使用 4B thinking 模型作为默认模型的目的是可以在本地上跑到快速的 token / s 方便使用 Agentic workflow. 我测试使用的 Win11+Nvidia 4090 可以跑到大概 140 tps. 在 M4 mac 上使用 Metal 后段大概在 50 tps 左右
我在德州西南医学中心从去年开始开的一门课就是如何利用 Agentic AI 来编写 Harness 为不同的专门领域来服务。 当前随着各大 AI 公司比如 OpenAI Google Anthropic 大幅提高 Token 价格,使用云端的大模型的花费越来越高。但是同时很多用户使用 ChatGPT 这样的工具只是把它当成 Google 一样来用,用来查询信息。完全没有必要花费巨额的 Token 量和花费来使用顶级的 GPT 5.5 或者 Opus 4.8 这样的模型。 鉴于此,我决定使用高效的本地模型结合 Harness 来设定工具和 Memory 来解决这个问题。 (取名 Bonsai 的原因,一部分是因为我和 Stanford 出身的 Prism 实验室有过一些交集 https://prismml.com/ ) 虽然 Anthropic 从来没有公布具体的 Claude Sonnet 的参数量,不过从网上的信息以及我的个人分析推断,这个模型是一个 MoE (Mix of Expert) 模型,它的有效参数 (Active Parameter) 应该在数十 B 左右,总参数在几百 B 左右。 MoE 模型的有效参数是真实的模型推理过程中使用的参数量,总参数量则是这个模型所储备的知识量 (Knowlege)。我的想法是如果是这样,那么使用一款带有 Thinking 能力的 Dense 模型,虽然只有数十 B 的参数量,但如果可以结合 Harness Engineering, 利用针对性的高效工具来弥补模型知识能力的不足,这样的工具如果写成了应该可以在本地替代大部分的 ChatGPT 对于大多数用户的需求。 做为这个想法的第一个专门项目,我决定先公布一个测试版本 Bonsai, 这个 Harness 采用了底层和本机的 Google Chrome 交流,通过编写的多个浏览器交流工具让本地 LLM 使用 Agentic 模式来访问网络, 默认使用的大模型是 Google Gemma 4B, 当然也可以换成 QWen 模型。 (使用 Gemma 模型的原因是在德州的政府部门包括学校中不能使用中国的开源模型) 下载地址: https://drive.google.com/drive/folders/1YUQ3tmcBSLEyBKLi5JdJgmod9mqXFTgl?usp=sharing 截图: https://i.imgur.com/9MacuXk.png 左边是输入对话框,右边是 Agent 在操作浏览器 这个 Harness 采用了很多专门针对浏览器交互的工具,包括可以 InjectJS 等 JS 注入工具,来方便 Agnet 来查找网页元素和点击按钮等等 这个当前的版本是在 Windows 上编译的,需要 Nvidia CUDA 的支持 我会随后更新还在测试中的 M 系列的 Mac 版本 当前使用 4B thinking 模型作为默认模型的目的是可以在本地上跑到快速的 token / s 方便使用 Agentic workflow. 我测试使用的 Win11+Nvidia 4090 可以跑到大概 140 tps. 在 M4 mac 上使用 Metal 后段大概在 50 tps 左右
IT之家 5 月 27 日消息,PrismML 昨日(5 月 26 日)发布公告,宣布推出 Bonsai Image 4B 系列图像生成模型, 在 iPhone 17 Pro Max 生成 512×512 图像约需 9.4 秒。 该系列模型分为 1-bit Bonsai Image 4B 与 Ternary Bonsai Image 4B 2 个版本,前者更强调极致压缩,后者在保持小体积的同时,进一步提升画面质量与提示词还原度。 该系列模型基于 FLUX.2 Klein 4B 构建,整体架构保持不变,主要调整集中在扩散 Transformer 的权重表示方式: 1-bit 版本采用二值权重,权重集合为 {−1,+1},配合 FP16 分组缩放后,单权重等效位宽为 1.125bit; Ternary 版本采用三值权重,权重集合为 {−1,0,+1},等效位宽为 1.71bit,因此拥有更高的表示灵活性。 在体积方面,1-bit 版本的二值层相对全精度 Transformer 权重缩小至 14 分之一,最终 Transformer 体积压到 0.93GB,较 7.75GB 的全精度 FLUX.2 Klein 4B 缩小至 8.3 分之一。 运行时内存占用也明显下降。生成 512×512 图像时,1-bit 与 Ternary 版本平均活跃内存分别为 1.5GB 与 1.96GB,全精度 FLUX.2 Klein 4B 则高达 11.74GB。 生成 1024×1024 图像时,这 2 个版本分别为 1.95GB 与 2.38GB,而原模型达到 14.39GB。 速度与效果方面,Bonsai Image 4B 在 iPhone 17 Pro Max 生成 512×512 图像约需 9.4 秒,在 Mac M4 Pro 上约 6 秒;在 Mac M4 Pro 平台,最高可比全精度 MFLUX 流水线快 5.6 倍。 质量评测覆盖 GenEval、HPSv3、DPG-Bench 3 项基准,其中 Ternary 版本在 1.21GB 体积下保留 FLUX.2 Klein 4B 约 95%准确性,1-bit 版本在不足 1GB 的前提下保留约 88%准确性。 IT之家附上参考地址 Introducing 1-bit and Ternary Bonsai Image 4B: Image Generation for Local Devices
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 项目地址 GitHub - LGYoungCoder/bonsai-agent: 一棵被刻意约束的树,才能活上几百年 — 小气但可进化的个人 agent 框架 。 · GitHub 之前朋友问我,他们公司做那种客服agent用小龙虾 实在是太臃肿了,能不能自己做一个。这个跟我的想法不谋而合,我敲代码用codex和cc,基本上小龙虾作为我辅助找资料或者干嘛的手段,太臃肿太消耗token了。 然后我抢了他的ccmax,在帮助他们做的同时,做了这个小智能体,叫bonsai.当然,是ai起的名字。不过现在真有一种在养孩子的感觉。 花了10m左右的cc4.7 做了这个玩意,东拼西凑 让他看到什么玩意好就放上去,比如之前什么很火的生化危机女主角那个记忆系统,还有什么绘画渠道。 我现在是glm codeplan(claude格式)+硅基的嵌入式模型+微信的claw绑定在使用。所以 其他的什么qqbot feishu 百分之90会有bug!!! 就连其他模型配置 我都怀疑有bug.但是只要我有时间,我就去测试和修。 就算是微信 也有bug,不过我看到就修复。还有,,目前甚至都没有走正规的软件流程,(我连dev分支都没创建)。这个bonsai我放在了我的云电脑上 ubuntu让他鼓捣,帮我完成一点助手什么的。 如果大家感兴趣 真的可以试一试呀。 如果有什么想法或者建议 ,俺一条一条的看。 1 个帖子 - 1 位参与者 阅读完整话题