结构化 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

AI 原生开发，大伙能分享一下经验吗？

V2EX - 技术 · 2026-05-31 20:17:11+08:00 · tech

``` - 帮助整理需求和边界 - 帮助生成结构化设计 - 帮助提升编码效率 - 帮助沉淀测试和发布文档 - 帮助减少跨角色协作的信息损耗大家都用的什么 SKILL 怎么协作的能分享一下吗 ```

AI 原生开发，大伙能分享一下经验吗？

V2EX - 技术 · 2026-05-31 19:17:11+08:00 · tech

``` - 帮助整理需求和边界 - 帮助生成结构化设计 - 帮助提升编码效率 - 帮助沉淀测试和发布文档 - 帮助减少跨角色协作的信息损耗大家都用的什么 SKILL 怎么协作的能分享一下吗 ```

AI 原生开发，大伙能分享一下经验吗？

V2EX - 技术 · 2026-05-31 13:02:21+08:00 · tech

``` - 帮助整理需求和边界 - 帮助生成结构化设计 - 帮助提升编码效率 - 帮助沉淀测试和发布文档 - 帮助减少跨角色协作的信息损耗大家都用的什么 SKILL 怎么协作的能分享一下吗 ```

周日大放送再补一个：结构化面试积极类社会现象题答题框架

LinuxDo 最新话题 · 2026-05-31 12:42:46+08:00 · tech

周日大放送再补一个面试备考小笔记。刚看了一份“结构化面试综合分析题”的资料，主要讲积极类社会现象怎么答。这个类型很多人容易答成两种样子：一种是全程夸，听起来很空；另一种是想显示辩证，结果一上来就说问题，反而把积极类题目的基调带偏了。我按自己的理解整理成一个比较好记的框架：一句话框架积极类社会现象题，可以按这个顺序走：亮明态度 → 分析意义 → 客观看短板 → 提出对策 → 结合自身/时代升华重点不是背固定句子，而是每一步知道自己在干嘛。 1. 开头先定基调积极类题，开头不要绕。可以先肯定这个现象的正面价值，再点一下它为什么值得讨论。比如题目说某地推出便民服务、基层治理创新、数字化服务平台、志愿服务活动，都可以先说：这个做法回应了群众需求，也体现了治理方式或服务理念的转变。开头的作用是把方向立住，让考官知道你没跑题。 2. 意义分析要分维度不要只说“很好、很有意义”。可以从几个维度拆：对群众：解决具体困难，增强获得感、幸福感、安全感；对社会/行业：打破旧模式，激发活力，推动规范化发展；对政府治理：转变工作作风，提升服务能力，拉近政民距离；对时代/国家：契合基层治理现代化、数字经济、乡村振兴、共同富裕等大背景。这里最重要的是“言之有物”。题目是什么领域，就往哪个领域靠，不要所有题都套同一套大词。 3. 客观看短板，但不要把基调打歪积极类题也可以谈不足，但要注意语气：不是否定这个做法，而是说它在推进过程中还需要进一步完善。常见短板可以这样想：落实不到位：好政策停在纸面上；覆盖不够广：部分地区、群体还没享受到；配套不完善：制度、人员、资金、技术跟不上；参与度不高：群众认知不足，主体协同不够；长效机制不足：试点有亮点，推广和持续优化还要跟上。这一段点到为止，别展开成负面题。 4. 对策要回答“谁来做、怎么做” 对策最怕空。可以按主体和动作拆：宣传引导：线上线下讲清楚政策意义、参与方式和办理流程；制度保障：明确责任分工、执行标准、考核要求，避免一阵风；落地执行：压实责任，建立台账，定期督查，发现问题及时整改；总结优化：收集群众反馈，把试点经验变成可复制、可推广的机制；多方协同：政府、企业、社区、群众一起参与，形成合力。答题时不用全说，挑 3 条最贴题的即可。 5. 结尾要回扣大局，也要落到自己结尾可以有两种收法。一种是大局升华：把这个做法放到基层治理现代化、服务型政府建设、共同富裕、中国式现代化等背景里。另一种是岗位落点：作为未来基层工作者，要保持问题意识、服务意识和落实意识，把好做法真正做细、做实、做到群众心里。一个练习版骨架遇到积极类社会现象题，可以先这样打草稿：我认为这一做法值得肯定，它回应了什么现实需求；它对群众、社会、治理或时代发展有什么意义；推进中可能还存在落实、覆盖、配套、参与、长效等短板；下一步要从宣传、制度、执行、反馈、协同几方面完善；最后回到基层工作或时代发展，说明要把好做法长期坚持下去。我觉得这种框架的好处是：不会只会喊口号，也不会因为想“辩证”而把积极题答成消极题。真正上考场时，还是要根据题干里的具体对象换词、换例子、换重点。 2 个帖子 - 2 位参与者阅读完整话题

AI 原生开发，大伙能分享一下经验吗？

V2EX - 技术 · 2026-05-31 12:02:21+08:00 · tech

``` - 帮助整理需求和边界 - 帮助生成结构化设计 - 帮助提升编码效率 - 帮助沉淀测试和发布文档 - 帮助减少跨角色协作的信息损耗大家都用的什么 SKILL 怎么协作的能分享一下吗 ```

AI 原生开发，大伙能分享一下经验吗？

V2EX - 技术 · 2026-05-31 11:14:52+08:00 · tech

``` - 帮助整理需求和边界 - 帮助生成结构化设计 - 帮助提升编码效率 - 帮助沉淀测试和发布文档 - 帮助减少跨角色协作的信息损耗大家都用的什么 SKILL 怎么协作的能分享一下吗 ```

AI 原生开发，大伙能分享一下经验吗？

V2EX - 技术 · 2026-05-31 09:46:52+08:00 · tech

``` - 帮助整理需求和边界 - 帮助生成结构化设计 - 帮助提升编码效率 - 帮助沉淀测试和发布文档 - 帮助减少跨角色协作的信息损耗大家都用的什么 SKILL 怎么协作的能分享一下吗 ```

AI 原生开发，大伙能分享一下经验吗？

V2EX - 技术 · 2026-05-31 09:30:23+08:00 · tech

``` - 帮助整理需求和边界 - 帮助生成结构化设计 - 帮助提升编码效率 - 帮助沉淀测试和发布文档 - 帮助减少跨角色协作的信息损耗大家都用的什么 SKILL 怎么协作的能分享一下吗 ```

AI 原生开发，大伙能分享一下经验吗？

V2EX - 技术 · 2026-05-31 08:51:22+08:00 · tech

``` - 帮助整理需求和边界 - 帮助生成结构化设计 - 帮助提升编码效率 - 帮助沉淀测试和发布文档 - 帮助减少跨角色协作的信息损耗大家都用的什么 SKILL 怎么协作的能分享一下吗 ```

[分享创造] AI Memory Hub 是一个企业级 AI 知识资产管理平台。它自动采集、整理、关联员工与 AI（ChatGPT、Claude、DeepSeek 等）的所有高质量对话，将其转化为可检索、可关联、可复用的结构化知识资产，实现

v2ex · 2026-05-31 00:01:30+08:00 · tech

AI Memory Hub 企业 AI 知识资产平台。自动采集、智能关联、随时复用。员工和 AI 的每一次对话，都是企业的知识资产。人走，知识留下。 [Github]( https://github.com/Vincent-chao-lang/AIHub ) https://aihub.dabuside.top/ 一、产品定位 AI Memory Hub 是一个企业级 AI 知识资产管理平台。它自动采集、整理、关联员工与 AI （ ChatGPT 、Claude 、DeepSeek 等）的所有高质量对话，将其转化为可检索、可关联、可复用的结构化知识资产，实现 **"人走，知识留下，价值继续"**。二、企业为什么需要它 2.1 一个新问题的出现 2023 年开始，你的员工每天都在和 AI 对话：研发 → ChatGPT 讨论架构方案运维 → Claude 解决部署故障产品 → DeepSeek 做竞品分析设计 → Gemini 找设计灵感运营 → Kimi 写内容策略这些对话里藏着： · 技术决策的推演过程 · 故障排查的完整思路链 · 对业务的深度思考 · 反复验证过的最佳实践 2.2 一个老问题的新形式传统离职交接：员工写一份交接文档（如果有的话） → 只记录了"结论"，丢失了"思考过程" → AI 对话中的试错、推演、对比全部消失 → 新人面对同样问题，从零开始和 AI 聊结果：张三用 AI 花 3 天解决了部署问题，离职了。李四入职遇到同样的故障，再花 3 天从零开始。知识在，但不可见。经验在，但无法复用。 2.3 量化损失假设一个 50 人的技术团队，每人每天和 AI 进行 5 次有价值的对话：日均知识产出： 50 × 5 = 250 条 AI 决策/推演记录月均知识产出： 250 × 22 = 5,500 条年均知识产出： 5,500 × 12 = 66,000 条如果 80% 随员工流动而不可检索，每年损失： → 约 52,800 条有价值的知识碎片 → 无数可复用的决策链、故障排查路径、方案对比每一片碎片背后，都是员工花时间与 AI 碰撞出的认知成果。三、解决方案 3.1 一句话说清楚员工用 AI 的同时，系统自动记录、理解、关联每一次对话，构建企业自有 AI 知识图谱。人来，知识自动汇聚；人走，知识结构化管理，随时被新人检索和复用。 3.2 核心能力 ┌──────────────────────────────────────────────────────┐ │ 自动采集（零门槛） │ │ 浏览器扩展静默运行，员工正常使用 AI ，对话自动入库。 │ │ 不需要手动粘贴，不需要额外操作，不改变工作习惯。 │ └──────────────────────────┬───────────────────────────┘ │ ┌──────────────────────────┴───────────────────────────┐ │ 智能理解（结构化） │ │ 每条对话 → 自动生成标题、标签、摘要 │ │ 跨平台语义搜索 → 用自然语言找到任何历史对话 │ │ 知识图谱 → 自动发现对话之间的深层关联 │ └──────────────────────────┬───────────────────────────┘ │ ┌──────────────────────────┴───────────────────────────┐ │ 知识复用（价值闭环） │ │ 新人遇到问题 → 搜索关键词 → 看到前辈的完整 AI 决策链 │ │ AI 回答时 → 注入历史上下文 → 基于团队知识积累来回答 │ │ 团队知识 → 按人/按项目/按主题 → 随时检索和复用 │ └──────────────────────────────────────────────────────┘ 四、关键场景场景 1：新人入职传统方式：新人花 2-4 周熟悉项目，遇到问题问同事或自己摸索和 AI 对话 → 其实前辈早就和 AI 深入讨论过同样的问题 AI Memory Hub：新人搜索"微服务部署" → 看到： · 张三 3 个月前与 ChatGPT 的完整架构讨论 · 李四 1 个月前与 Claude 的故障排查全过程 · 系统自动生成的关联对话：CI/CD 配置、容器化方案 → 新人在 AI 提问时，注入前辈的上下文 → AI 基于团队已有认知来回答，而非从零开始效果：新人上手速度 2x 提升，避免重复踩坑场景 2：员工离职传统方式：张三离职 → 写交接文档 → 文档里的结论，丢失了 90% 的思考过程 → 那场"和 AI 反复讨论了 3 个小时才搞定的故障排查"彻底消失 AI Memory Hub：张三的所有 AI 对话早已自动归档，按主题分类，图谱关联完整 → 李四搜索同一问题 → 直接看到张三当时的完整认知链 → 不只是结论，还有： · 张三问了什么 · AI 给了哪些方案 · 张三做了什么取舍 · 最终为什么选了方案 A 而不是 B 效果：知识保留率从 10% → 95%，真正的"人走知识留" 场景 3：跨部门经验复用传统方式：研发团队用 AI 解决了性能问题运维团队可能永远不知道这个方案 → 遇到类似问题各自重新摸索 AI Memory Hub：搜索"数据库性能" → 跨部门、跨平台、跨时间维度的所有相关对话汇聚一处 → 研发的架构思路 + 运维的实战经验 + 产品的业务视角 → 知识自动缝合，打破信息孤岛效果：团队越用越聪明，知识自适应组织场景 4：企业 AI 审计与合规传统方式：员工和 AI 聊了什么 → 无从知晓是不是把内部代码贴给了 ChatGPT → 无法审查大模型使用有没有合规风险 → 没法管理 AI Memory Hub：所有 AI 对话完整记录，按人、平台、时间可检索 → 管理员可以看到：谁、在什么平台、讨论了什么话题 → 敏感信息自动标记（可配置关键词告警） → 满足企业对 AI 使用的审计和合规需求效果：AI 使用透明化，安全与效率兼得五、5 分钟跑起来 git clone https://github.com/Vincent-chao-lang/AIHub.git cd AIHub ./start.sh # 加载浏览器扩展 Chrome → chrome://extensions → 开发者模式 → 加载已解压 → 选择 extension/ 目录 # 打开任意 AI 平台 → 正常聊天 → 点击 🧠 图标 → 检索记忆 # 或访问 http://localhost:5173 → Web 面板数据完全在本地。不注册、不联网、不上传。你拥有全部数据。六、部署模式模式适合配置个人本地个人使用零配置， ./ start.sh 局域网共享团队 5-50 人改 host 为 0.0.0.0 Docker 标准化部署 docker-compose up HTTPS + 反向代理远程团队 Nginx + Let's Encrypt 详细部署指南 → USAGE.md 七、存储与扩展默认 SQLite + ChromaDB + 本地 BGE 模型，零配置开箱即用。随着团队规模增长，可平滑升级： SQLite + ChromaDB → PostgreSQL + pgvector → Milvus 零配置改一行 .env 独立集群 < 10 万条 10-100 万条 > 100 万条 Embedding 模型同样支持一行配置切换：本地 BGE-small （ 512 维） → BGE-large / 其他本地模型 → OpenAI / 智谱 API 默认改模型名改 EMBEDDING_PROVIDER 切换 embedding 后运行 python backend/ rebuild_index.py 即可全量重建向量索引。详细升级路径 → docs/STORAGE.md 八、项目结构 AIHub/ ├── start.sh # 一键启动 ├── backend/ # FastAPI + SQLite + ChromaDB │ ├── api/routes.py # 10 个 API 端点 │ ├── db/ # 数据库 + 向量存储（ ChromaDB/pgvector ） │ ├── models/ # 数据模型 │ └── services/ # embedding · 摘要 · 搜索 · 上下文生成 ├── extension/ # Chrome 扩展 (Manifest V3) │ ├── content/ # 5 平台 DOM 监听 │ ├── sidepanel/ # 侧边栏 UI + 逻辑 │ └── options/ # 设置页 ├── frontend/ # React + Vite + TypeScript + D3.js │ └── src/pages/ # 时间线 · 项目 · 上下文 · 图谱 └── landing/ # 营销页面（中英双语）九、API 方法路径说明 POST /messages 上传消息（自动 embedding + 摘要） GET /timeline 时间线（按对话聚合，支持 ?user_id= 筛选） GET /conversations/{id} 对话详情 GET /conversations/{id}/related 相关对话推荐 POST /search 语义搜索（向量 + 关键词回退） POST /context 图谱驱动上下文生成（含 max_tokens 智能截断） GET /projects 项目聚合 GET /graph 知识图谱数据 GET /stats 统计（总数/平台分布/用户统计/向量索引数/embedding 信息）十、设计原则自动采集 — 知识管理成本从"人"转移到"系统"，员工无需额外操作本地优先 — 数据 100% 归你，也支持服务器部署企业级扩展 — SQLite → PostgreSQL ，ChromaDB → pgvector ，随规模平滑升级零摩擦接入 — 不改现有系统，不要求切换 AI 平台，不改变工作习惯图谱驱动 — 关联发现用本地算法，不依赖外部 LLM ，零成本零延迟团队即知识 — 同一套系统，一人用是外脑，团队用是知识库

[分享创造] AI Memory Hub 是一个企业级 AI 知识资产管理平台。它自动采集、整理、关联员工与 AI（ChatGPT、Claude、DeepSeek 等）的所有高质量对话，将其转化为可检索、可关联、可复用的结构化知识资产，实现

v2ex · 2026-05-31 00:01:30+08:00 · tech

AI Memory Hub 企业 AI 知识资产平台。自动采集、智能关联、随时复用。员工和 AI 的每一次对话，都是企业的知识资产。人走，知识留下。 [Github]( https://github.com/Vincent-chao-lang/AIHub ) https://aihub.dabuside.top/ 一、产品定位 AI Memory Hub 是一个企业级 AI 知识资产管理平台。它自动采集、整理、关联员工与 AI （ ChatGPT 、Claude 、DeepSeek 等）的所有高质量对话，将其转化为可检索、可关联、可复用的结构化知识资产，实现 **"人走，知识留下，价值继续"**。二、企业为什么需要它 2.1 一个新问题的出现 2023 年开始，你的员工每天都在和 AI 对话：研发 → ChatGPT 讨论架构方案运维 → Claude 解决部署故障产品 → DeepSeek 做竞品分析设计 → Gemini 找设计灵感运营 → Kimi 写内容策略这些对话里藏着： · 技术决策的推演过程 · 故障排查的完整思路链 · 对业务的深度思考 · 反复验证过的最佳实践 2.2 一个老问题的新形式传统离职交接：员工写一份交接文档（如果有的话） → 只记录了"结论"，丢失了"思考过程" → AI 对话中的试错、推演、对比全部消失 → 新人面对同样问题，从零开始和 AI 聊结果：张三用 AI 花 3 天解决了部署问题，离职了。李四入职遇到同样的故障，再花 3 天从零开始。知识在，但不可见。经验在，但无法复用。 2.3 量化损失假设一个 50 人的技术团队，每人每天和 AI 进行 5 次有价值的对话：日均知识产出： 50 × 5 = 250 条 AI 决策/推演记录月均知识产出： 250 × 22 = 5,500 条年均知识产出： 5,500 × 12 = 66,000 条如果 80% 随员工流动而不可检索，每年损失： → 约 52,800 条有价值的知识碎片 → 无数可复用的决策链、故障排查路径、方案对比每一片碎片背后，都是员工花时间与 AI 碰撞出的认知成果。三、解决方案 3.1 一句话说清楚员工用 AI 的同时，系统自动记录、理解、关联每一次对话，构建企业自有 AI 知识图谱。人来，知识自动汇聚；人走，知识结构化管理，随时被新人检索和复用。 3.2 核心能力 ┌──────────────────────────────────────────────────────┐ │ 自动采集（零门槛） │ │ 浏览器扩展静默运行，员工正常使用 AI ，对话自动入库。 │ │ 不需要手动粘贴，不需要额外操作，不改变工作习惯。 │ └──────────────────────────┬───────────────────────────┘ │ ┌──────────────────────────┴───────────────────────────┐ │ 智能理解（结构化） │ │ 每条对话 → 自动生成标题、标签、摘要 │ │ 跨平台语义搜索 → 用自然语言找到任何历史对话 │ │ 知识图谱 → 自动发现对话之间的深层关联 │ └──────────────────────────┬───────────────────────────┘ │ ┌──────────────────────────┴───────────────────────────┐ │ 知识复用（价值闭环） │ │ 新人遇到问题 → 搜索关键词 → 看到前辈的完整 AI 决策链 │ │ AI 回答时 → 注入历史上下文 → 基于团队知识积累来回答 │ │ 团队知识 → 按人/按项目/按主题 → 随时检索和复用 │ └──────────────────────────────────────────────────────┘ 四、关键场景场景 1：新人入职传统方式：新人花 2-4 周熟悉项目，遇到问题问同事或自己摸索和 AI 对话 → 其实前辈早就和 AI 深入讨论过同样的问题 AI Memory Hub：新人搜索"微服务部署" → 看到： · 张三 3 个月前与 ChatGPT 的完整架构讨论 · 李四 1 个月前与 Claude 的故障排查全过程 · 系统自动生成的关联对话：CI/CD 配置、容器化方案 → 新人在 AI 提问时，注入前辈的上下文 → AI 基于团队已有认知来回答，而非从零开始效果：新人上手速度 2x 提升，避免重复踩坑场景 2：员工离职传统方式：张三离职 → 写交接文档 → 文档里的结论，丢失了 90% 的思考过程 → 那场"和 AI 反复讨论了 3 个小时才搞定的故障排查"彻底消失 AI Memory Hub：张三的所有 AI 对话早已自动归档，按主题分类，图谱关联完整 → 李四搜索同一问题 → 直接看到张三当时的完整认知链 → 不只是结论，还有： · 张三问了什么 · AI 给了哪些方案 · 张三做了什么取舍 · 最终为什么选了方案 A 而不是 B 效果：知识保留率从 10% → 95%，真正的"人走知识留" 场景 3：跨部门经验复用传统方式：研发团队用 AI 解决了性能问题运维团队可能永远不知道这个方案 → 遇到类似问题各自重新摸索 AI Memory Hub：搜索"数据库性能" → 跨部门、跨平台、跨时间维度的所有相关对话汇聚一处 → 研发的架构思路 + 运维的实战经验 + 产品的业务视角 → 知识自动缝合，打破信息孤岛效果：团队越用越聪明，知识自适应组织场景 4：企业 AI 审计与合规传统方式：员工和 AI 聊了什么 → 无从知晓是不是把内部代码贴给了 ChatGPT → 无法审查大模型使用有没有合规风险 → 没法管理 AI Memory Hub：所有 AI 对话完整记录，按人、平台、时间可检索 → 管理员可以看到：谁、在什么平台、讨论了什么话题 → 敏感信息自动标记（可配置关键词告警） → 满足企业对 AI 使用的审计和合规需求效果：AI 使用透明化，安全与效率兼得五、5 分钟跑起来 git clone https://github.com/Vincent-chao-lang/AIHub.git cd AIHub ./start.sh # 加载浏览器扩展 Chrome → chrome://extensions → 开发者模式 → 加载已解压 → 选择 extension/ 目录 # 打开任意 AI 平台 → 正常聊天 → 点击 🧠 图标 → 检索记忆 # 或访问 http://localhost:5173 → Web 面板数据完全在本地。不注册、不联网、不上传。你拥有全部数据。六、部署模式模式适合配置个人本地个人使用零配置， ./ start.sh 局域网共享团队 5-50 人改 host 为 0.0.0.0 Docker 标准化部署 docker-compose up HTTPS + 反向代理远程团队 Nginx + Let's Encrypt 详细部署指南 → USAGE.md 七、存储与扩展默认 SQLite + ChromaDB + 本地 BGE 模型，零配置开箱即用。随着团队规模增长，可平滑升级： SQLite + ChromaDB → PostgreSQL + pgvector → Milvus 零配置改一行 .env 独立集群 < 10 万条 10-100 万条 > 100 万条 Embedding 模型同样支持一行配置切换：本地 BGE-small （ 512 维） → BGE-large / 其他本地模型 → OpenAI / 智谱 API 默认改模型名改 EMBEDDING_PROVIDER 切换 embedding 后运行 python backend/ rebuild_index.py 即可全量重建向量索引。详细升级路径 → docs/STORAGE.md 八、项目结构 AIHub/ ├── start.sh # 一键启动 ├── backend/ # FastAPI + SQLite + ChromaDB │ ├── api/routes.py # 10 个 API 端点 │ ├── db/ # 数据库 + 向量存储（ ChromaDB/pgvector ） │ ├── models/ # 数据模型 │ └── services/ # embedding · 摘要 · 搜索 · 上下文生成 ├── extension/ # Chrome 扩展 (Manifest V3) │ ├── content/ # 5 平台 DOM 监听 │ ├── sidepanel/ # 侧边栏 UI + 逻辑 │ └── options/ # 设置页 ├── frontend/ # React + Vite + TypeScript + D3.js │ └── src/pages/ # 时间线 · 项目 · 上下文 · 图谱 └── landing/ # 营销页面（中英双语）九、API 方法路径说明 POST /messages 上传消息（自动 embedding + 摘要） GET /timeline 时间线（按对话聚合，支持 ?user_id= 筛选） GET /conversations/{id} 对话详情 GET /conversations/{id}/related 相关对话推荐 POST /search 语义搜索（向量 + 关键词回退） POST /context 图谱驱动上下文生成（含 max_tokens 智能截断） GET /projects 项目聚合 GET /graph 知识图谱数据 GET /stats 统计（总数/平台分布/用户统计/向量索引数/embedding 信息）十、设计原则自动采集 — 知识管理成本从"人"转移到"系统"，员工无需额外操作本地优先 — 数据 100% 归你，也支持服务器部署企业级扩展 — SQLite → PostgreSQL ，ChromaDB → pgvector ，随规模平滑升级零摩擦接入 — 不改现有系统，不要求切换 AI 平台，不改变工作习惯图谱驱动 — 关联发现用本地算法，不依赖外部 LLM ，零成本零延迟团队即知识 — 同一套系统，一人用是外脑，团队用是知识库

[分享创造] AI Memory Hub 是一个企业级 AI 知识资产管理平台。它自动采集、整理、关联员工与 AI（ChatGPT、Claude、DeepSeek 等）的所有高质量对话，将其转化为可检索、可关联、可复用的结构化知识资产，实现

v2ex · 2026-05-30 23:26:18+08:00 · tech

AI Memory Hub 企业 AI 知识资产平台。自动采集、智能关联、随时复用。员工和 AI 的每一次对话，都是企业的知识资产。人走，知识留下。 [Github]( https://github.com/Vincent-chao-lang/AIHub ) https://aihub.dabuside.top/ 一、产品定位 AI Memory Hub 是一个企业级 AI 知识资产管理平台。它自动采集、整理、关联员工与 AI （ ChatGPT 、Claude 、DeepSeek 等）的所有高质量对话，将其转化为可检索、可关联、可复用的结构化知识资产，实现 **"人走，知识留下，价值继续"**。二、企业为什么需要它 2.1 一个新问题的出现 2023 年开始，你的员工每天都在和 AI 对话：研发 → ChatGPT 讨论架构方案运维 → Claude 解决部署故障产品 → DeepSeek 做竞品分析设计 → Gemini 找设计灵感运营 → Kimi 写内容策略这些对话里藏着： · 技术决策的推演过程 · 故障排查的完整思路链 · 对业务的深度思考 · 反复验证过的最佳实践 2.2 一个老问题的新形式传统离职交接：员工写一份交接文档（如果有的话） → 只记录了"结论"，丢失了"思考过程" → AI 对话中的试错、推演、对比全部消失 → 新人面对同样问题，从零开始和 AI 聊结果：张三用 AI 花 3 天解决了部署问题，离职了。李四入职遇到同样的故障，再花 3 天从零开始。知识在，但不可见。经验在，但无法复用。 2.3 量化损失假设一个 50 人的技术团队，每人每天和 AI 进行 5 次有价值的对话：日均知识产出： 50 × 5 = 250 条 AI 决策/推演记录月均知识产出： 250 × 22 = 5,500 条年均知识产出： 5,500 × 12 = 66,000 条如果 80% 随员工流动而不可检索，每年损失： → 约 52,800 条有价值的知识碎片 → 无数可复用的决策链、故障排查路径、方案对比每一片碎片背后，都是员工花时间与 AI 碰撞出的认知成果。三、解决方案 3.1 一句话说清楚员工用 AI 的同时，系统自动记录、理解、关联每一次对话，构建企业自有 AI 知识图谱。人来，知识自动汇聚；人走，知识结构化管理，随时被新人检索和复用。 3.2 核心能力 ┌──────────────────────────────────────────────────────┐ │ 自动采集（零门槛） │ │ 浏览器扩展静默运行，员工正常使用 AI ，对话自动入库。 │ │ 不需要手动粘贴，不需要额外操作，不改变工作习惯。 │ └──────────────────────────┬───────────────────────────┘ │ ┌──────────────────────────┴───────────────────────────┐ │ 智能理解（结构化） │ │ 每条对话 → 自动生成标题、标签、摘要 │ │ 跨平台语义搜索 → 用自然语言找到任何历史对话 │ │ 知识图谱 → 自动发现对话之间的深层关联 │ └──────────────────────────┬───────────────────────────┘ │ ┌──────────────────────────┴───────────────────────────┐ │ 知识复用（价值闭环） │ │ 新人遇到问题 → 搜索关键词 → 看到前辈的完整 AI 决策链 │ │ AI 回答时 → 注入历史上下文 → 基于团队知识积累来回答 │ │ 团队知识 → 按人/按项目/按主题 → 随时检索和复用 │ └──────────────────────────────────────────────────────┘ 四、关键场景场景 1：新人入职传统方式：新人花 2-4 周熟悉项目，遇到问题问同事或自己摸索和 AI 对话 → 其实前辈早就和 AI 深入讨论过同样的问题 AI Memory Hub：新人搜索"微服务部署" → 看到： · 张三 3 个月前与 ChatGPT 的完整架构讨论 · 李四 1 个月前与 Claude 的故障排查全过程 · 系统自动生成的关联对话：CI/CD 配置、容器化方案 → 新人在 AI 提问时，注入前辈的上下文 → AI 基于团队已有认知来回答，而非从零开始效果：新人上手速度 2x 提升，避免重复踩坑场景 2：员工离职传统方式：张三离职 → 写交接文档 → 文档里的结论，丢失了 90% 的思考过程 → 那场"和 AI 反复讨论了 3 个小时才搞定的故障排查"彻底消失 AI Memory Hub：张三的所有 AI 对话早已自动归档，按主题分类，图谱关联完整 → 李四搜索同一问题 → 直接看到张三当时的完整认知链 → 不只是结论，还有： · 张三问了什么 · AI 给了哪些方案 · 张三做了什么取舍 · 最终为什么选了方案 A 而不是 B 效果：知识保留率从 10% → 95%，真正的"人走知识留" 场景 3：跨部门经验复用传统方式：研发团队用 AI 解决了性能问题运维团队可能永远不知道这个方案 → 遇到类似问题各自重新摸索 AI Memory Hub：搜索"数据库性能" → 跨部门、跨平台、跨时间维度的所有相关对话汇聚一处 → 研发的架构思路 + 运维的实战经验 + 产品的业务视角 → 知识自动缝合，打破信息孤岛效果：团队越用越聪明，知识自适应组织场景 4：企业 AI 审计与合规传统方式：员工和 AI 聊了什么 → 无从知晓是不是把内部代码贴给了 ChatGPT → 无法审查大模型使用有没有合规风险 → 没法管理 AI Memory Hub：所有 AI 对话完整记录，按人、平台、时间可检索 → 管理员可以看到：谁、在什么平台、讨论了什么话题 → 敏感信息自动标记（可配置关键词告警） → 满足企业对 AI 使用的审计和合规需求效果：AI 使用透明化，安全与效率兼得五、5 分钟跑起来 git clone https://github.com/Vincent-chao-lang/AIHub.git cd AIHub ./start.sh # 加载浏览器扩展 Chrome → chrome://extensions → 开发者模式 → 加载已解压 → 选择 extension/ 目录 # 打开任意 AI 平台 → 正常聊天 → 点击 🧠 图标 → 检索记忆 # 或访问 http://localhost:5173 → Web 面板数据完全在本地。不注册、不联网、不上传。你拥有全部数据。六、部署模式模式适合配置个人本地个人使用零配置， ./ start.sh 局域网共享团队 5-50 人改 host 为 0.0.0.0 Docker 标准化部署 docker-compose up HTTPS + 反向代理远程团队 Nginx + Let's Encrypt 详细部署指南 → USAGE.md 七、存储与扩展默认 SQLite + ChromaDB + 本地 BGE 模型，零配置开箱即用。随着团队规模增长，可平滑升级： SQLite + ChromaDB → PostgreSQL + pgvector → Milvus 零配置改一行 .env 独立集群 < 10 万条 10-100 万条 > 100 万条 Embedding 模型同样支持一行配置切换：本地 BGE-small （ 512 维） → BGE-large / 其他本地模型 → OpenAI / 智谱 API 默认改模型名改 EMBEDDING_PROVIDER 切换 embedding 后运行 python backend/ rebuild_index.py 即可全量重建向量索引。详细升级路径 → docs/STORAGE.md 八、项目结构 AIHub/ ├── start.sh # 一键启动 ├── backend/ # FastAPI + SQLite + ChromaDB │ ├── api/routes.py # 10 个 API 端点 │ ├── db/ # 数据库 + 向量存储（ ChromaDB/pgvector ） │ ├── models/ # 数据模型 │ └── services/ # embedding · 摘要 · 搜索 · 上下文生成 ├── extension/ # Chrome 扩展 (Manifest V3) │ ├── content/ # 5 平台 DOM 监听 │ ├── sidepanel/ # 侧边栏 UI + 逻辑 │ └── options/ # 设置页 ├── frontend/ # React + Vite + TypeScript + D3.js │ └── src/pages/ # 时间线 · 项目 · 上下文 · 图谱 └── landing/ # 营销页面（中英双语）九、API 方法路径说明 POST /messages 上传消息（自动 embedding + 摘要） GET /timeline 时间线（按对话聚合，支持 ?user_id= 筛选） GET /conversations/{id} 对话详情 GET /conversations/{id}/related 相关对话推荐 POST /search 语义搜索（向量 + 关键词回退） POST /context 图谱驱动上下文生成（含 max_tokens 智能截断） GET /projects 项目聚合 GET /graph 知识图谱数据 GET /stats 统计（总数/平台分布/用户统计/向量索引数/embedding 信息）十、设计原则自动采集 — 知识管理成本从"人"转移到"系统"，员工无需额外操作本地优先 — 数据 100% 归你，也支持服务器部署企业级扩展 — SQLite → PostgreSQL ，ChromaDB → pgvector ，随规模平滑升级零摩擦接入 — 不改现有系统，不要求切换 AI 平台，不改变工作习惯图谱驱动 — 关联发现用本地算法，不依赖外部 LLM ，零成本零延迟团队即知识 — 同一套系统，一人用是外脑，团队用是知识库

[推广] BiliNote Pro — B 站/YouTube/抖音视频一键转结构化笔记,新版本上线沉浸式导出

v2ex · 2026-05-19 15:03:21+08:00 · tech

解决什么问题刷 B 站 / YouTube 学技术,1 小时的硬核内容 (e.g. JavaScript 源码解读、李沐讲论文、Andrej Karpathy 的 LLM 公开课),不想从头看一遍。丢链接进去 → 1-3 分钟 → 拿到一份结构化 markdown 笔记。主要功能多平台:B 站 / YouTube / 抖音 / 快手 / 小宇宙(podcast 也能笔记化) 笔记里自动插入视频截图 + 时间戳跳转链接多种风格模板:详细笔记 / 教程指南 / 学术论文 / 思维导图大纲批量任务:粘贴一堆链接 UP 主、收藏列表、视频合集,一次跑完合集:把同主题笔记归到一个合集 + 一键融合成总结导出 PDF / DOCX / PPTX / HTML 4 种格式视频理解(VIP):抽关键帧 → Vision AI 看画面,适合实操类视频 (软件 demo 、菜谱、健身动作这种纯靠音频抽不到信息的) 邀请系统上线 V 站福利带邀请码注册:200 积分(普通 100) 不用邀请码直接进首页注册也行,只是少 100 积分。注册地址： https://www.bilinote.app/ V2EX-WWTN75WG V2EX-ZGM834XJ V2EX-QPWMSGK2 V2EX-JGYC78PF V2EX-DR4CTKXJ V2EX-QQK6HD9F V2EX-SD9YKZTE V2EX-RF0WFP63 V2EX-32XRB3YH V2EX-YH713MBZ V2EX-21KAV6Q8 V2EX-GX17C49E V2EX-FFA6169Z V2EX-59YFPDTG V2EX-5XA1CDHM V2EX-RY5NY871 V2EX-G1X5VCNS V2EX-4YQ80DWH V2EX-0TY5AEP5 V2EX-FZ1HADJS

[分享创造] [开源] 分享一个简单的爬虫处理工具

v2ex · 2026-05-18 12:49:36+08:00 · tech

[开源] 一个 URL → 结构化 JSON：自动识别文章页 / 列表页，详情出 Markdown ，列表出 items 做 RAG 、AI 资讯聚合或内容监控时，常见痛点是：详情页要正文 Markdown ，列表页要标题、链接、摘要——往往要写两套爬虫纯 HTTP 抓不到 SPA ，Playwright 又要自己处理反爬、登录态返回一堆 HTML ，Token 耗费严重，下游还要再洗一遍开源了 crawl-serve （ npm 包名 html-to-markdown ）：丢一个 URL ，拿一份统一结构的 JSON ；服务会自动判断这是「单篇文章」还是「文章列表」，并走对应管线。 GitHub： https://github.com/NearImba/hammer3 它能做什么？页面类型自动识别后返回文章详情页 title + 正文 ** markdown **（ Readability 抽正文 + Turndown 转 MD ）文章列表页 title + ** items[] **（标题、摘要、链接、日期、标签） mode 支持 auto （默认）、 article 、 feed ，也可手动指定。返回结构固定，方便直接接 LangChain 、n8n 、自研流水线，不必再写 XPath/CSS 模板。工具特点 1. 一个接口覆盖两种页面形态不用为「博客详情」和「首页资讯流」维护两套解析逻辑； auto 会自动路由到 article / feed 管线。 2. 真浏览器渲染，且可接你自己的 Chrome 抓取走 Playwright ，通过 CDP 连接你手动启动的真实 Chrome ，可复用：已登录的 Cookie / Session 已通过的人机验证状态对需要登录才能看的站内页、或反爬较严的站点，比 headless 裸连更稳。同站还有并发节流（默认每 hostname 最多 2 个并发），降低触发风控的概率。 3. 输出是「能用的数据」，不是原始 HTML 文章：Mozilla Readability 抽正文 + GFM Markdown 列表：基于重复兄弟节点的启发式，从 DOM 结构里抽卡片，不绑死某个站点的 class 名适合谁用？ RAG / 知识库：批量把资讯站、博客详情页转成干净 Markdown 入库资讯聚合 / 监控：定时抓列表页 items[] ，再按需深入详情自动化工作流：n8n 、Dify 、自研 Agent 里加一个「网页 → 结构化 JSON 」节点不想绑商业爬虫 API ：自托管、可控、MIT 协议，数据不出自己的机器我在掘金、36 氪等站上测过 auto 模式，列表和详情都能正确分流 ** 不是万能反爬方案，而是专注「网页 → 结构化内容」这一件事 ** 大伙帮忙看看有没有搞头使用示例： # 命中 feed 流模式 curl -X POST http://localhost:3000/crawl \ -H 'content-type: application/json' \ -d '{"url":"https://36kr.com/","mode":"auto"}' # 返回 items curl -X POST http://localhost:3000/crawl \ -H 'content-type: application/json' \ -d '{"url":"https://36kr.com/","mode":"auto"}' {"title":"36 氪_让一部分人先看到未来","mode":"feed","items":[{"title":"为什么“看”是 AI 的切入口？","link":"https://36kr.com/p/3814264992407809","summary":"","date":"6 分钟前","tag":[]},{"title":"双人套餐 398 元，海底捞开“火锅电影院”了？","link":"https://36kr.com/p/3814223817891842","summary":"来自主题：关于消费的一切|红餐网 17 分钟前","date":"17 分钟前","tag":[]},{"title":"老佛爷百货中国首店，5 月 27 日从西单离场","link":"https://36kr.com/p/3814257221344776","summary":"来自主题：新居住时代|未来可栖 24 分钟前","date":"24 分钟前","tag":[]},{"title":"巨型背包火出圈，迪卡侬做对了什么？","link":"https://36kr.com/p/3814207928425984","summary":"来自主题：营销广告人又干什么了|Morketing26 分钟前","date":"26 分钟前","tag":[]},{"title":"苹果到底需要什么？ 2026 年 4 月 21 日，苹果官宣库克（ Tim Cook ）将卸任 CEO ，由约翰·特努斯（ John Ternus ）接手。与此同时，长期掌管苹果芯片业务的约翰尼·斯鲁吉（ Johny Srouji ）将出任首席硬件官。一时间，关于苹果公司未来发展的预测纷至沓来，但没有人能给出一个明确的答案，可能连约翰自己也不能。","link":"https://36kr.com/topics/3777702636639493","summary":"36 氪 2025 年度透视“透视图”栏目在年终特别策划了“36 氪年度总结”系列，用数据透视 2025 全年趋势，以图片呈现今年商业世界中不可错过的要点。持续更新中 >>","date":"","tag":[]},{"title":"头部商场的招商逻辑，变了？","link":"https://36kr.com/p/3814246318907137","summary":"来自主题：未来地产|Mall 先生 28 分钟前","date":"28 分钟前","tag":[]},{"title":"氪大事 | 赚的太多了，韩国准备给全体国民撒钱啦？","link":"https://36kr.com/v-video/3810414861115651","summary":"","date":"4 小时前","tag":[]},{"title":"曾濒临破产，被 CEO 赖掉 17 亿奖金，他们做出了 12 小时收入超 2 亿的爆款","link":"https://36kr.com/p/3813258514226690","summary":"来自主题：游戏圈大事件|游戏葡萄 28 分钟前","date":"28 分钟前","tag":[]},{"title":"TCL 站枪手 VS 海尔挺 PSG：欧冠决赛连续第二年“中国家电德比”","link":"https://36kr.com/p/3813423008603652","summary":"来自主题：体育健身新趋势|懒熊体育 31 分钟前","date":"31 分钟前","tag":[]},{"title":"MiniMax 10x Team 背后，产业 AI 撞上的不是技术瓶颈，而是真实世界的责任链条","link":"https://36kr.com/p/3814245621833474","summary":"来自主题：人工智能·AI|36 氪的朋友们 36 分钟前","date":"36 分钟前","tag":[]},{"title":"史上最贵世界杯，全球游客去不起了","link":"https://36kr.com/p/3814235757780487","summary":"","date":"36 分钟前","tag":[]},{"title":"2:41 科技圈大佬集体抛弃皮鞋，背后藏着什么逻辑？个人观点仅供参考","link":"https://36kr.com/v-video/3811262844624896","summary":"2:09 为什么在欢迎晚宴上，这些中国企业家和黄仁勋、库克坐一桌？","date":"2:09","tag":[]},{"title":"当一套制度能够让普通人敢于拥抱不确定性，奇迹就会成为大概率事件。","link":"https://36kr.com/p/3814130976268034","summary":"来自主题：商业人物追踪|复旦《管理视野》 55 分钟前","date":"55 分钟前","tag":[]},{"title":"美国游客疯狂涌入中国，中国游客悄悄远离美国","link":"https://36kr.com/p/3814219841854983","summary":"","date":"56 分钟前","tag":[]},{"title":"广州国企豪掷 30 亿下场收房。","link":"https://36kr.com/p/3814219526921736","summary":"","date":"1 小时前","tag":[]},{"title":"郑裕彤家族卖长浏高速回血，上海国资接盘做 REITs","link":"https://36kr.com/p/3814214828678663","summary":"","date":"1 小时前","tag":[]},{"title":"12 亿美元收购，礼来加码 NLRP3 系统炎症靶点，布局慢病新范式","link":"https://36kr.com/p/3812627824353029","summary":"","date":"1 小时前","tag":[]},{"title":"全球最大豪华酒店业主，快把手里酒店卖光了","link":"https://36kr.com/p/3814148131725317","summary":"来自主题：房地产下半场|酒管财经 1 小时前","date":"1 小时前","tag":[]},{"title":"20 年来，他用极端的方式，拍下 1000 个名流巨星的私密时刻","link":"https://36kr.com/p/3814039837531911","summary":"来自主题：新生活 LIFESTYLE|一条 1 小时前","date":"1 小时前","tag":[]},{"title":"北京二手房价连涨三月，一线二手房价连续两月普涨","link":"https://36kr.com/p/3814201195437826","summary":"房价数据出炉！北京二手房价连续 3 个月上涨","date":"1 小时前","tag":[]},{"title":"AI ，开始悄悄砸掉景区旅拍饭碗","link":"https://36kr.com/p/3814201997647369","summary":"","date":"1 小时前","tag":[]},{"title":"美制裁催生华为成汽车业强势推手，催生对手改变格局。","link":"https://36kr.com/p/3812657254752004","summary":"不造车的华为，正以 Tier0.5 影响全行业","date":"1 小时前","tag":[]},{"title":"小核酸药物商业化拐点至，上游卖水人业绩大涨隐现产能风险","link":"https://36kr.com/p/3812627203759873","summary":"销售额翻 7 倍、加速扩产能，这个赛道“卖水人”涨疯了","date":"1 小时前","tag":[]},{"title":"世界杯在即：国产彩电的出海故事还讲得通吗？","link":"https://36kr.com/p/3811759120637443","summary":"来自主题：关于消费的一切|锌刻度 1 小时前","date":"1 小时前","tag":[]},{"title":"拿捏育儿焦虑年入 30 亿，泰兰尼斯却栽在“送礼广告”？","link":"https://36kr.com/p/3814085466119685","summary":"来自主题：关于消费的一切|定焦 One1 小时前","date":"1 小时前","tag":[]},{"title":"杀疯了，云南小伙花 3000 块手搓 AI 短片，火遍全球","link":"https://36kr.com/p/3813482781662726","summary":"来自主题：人工智能·AI|科技狐 1 小时前","date":"1 小时前","tag":[]},{"title":"三年再造一个拼多多，Temu 迎来海外监管危机","link":"https://36kr.com/p/3813593136979972","summary":"来自主题：拼多多下沉记|司库商业 1 小时前","date":"1 小时前","tag":[]},{"title":"CoWoS 高增值率凸显台积电优势，重构台湾半导体产业格局","link":"https://36kr.com/p/3814125492461320","summary":"来自主题：芯片领域新鲜事|半导体行业观察 1 小时前","date":"1 小时前","tag":[]},{"title":"十年野蛮生长，终于迎来国标落地","link":"https://36kr.com/p/3811836569313287","summary":"来自主题：关于消费的一切|螺旋实验室 1 小时前","date":"1 小时前","tag":[]},{"title":"合法直销变味，金天国际涉嫌传销虚假宣传，监管趋严行业正本清源。","link":"https://36kr.com/p/3812765485932546","summary":"祖明军与金天国际：一张直销牌照的灰色狂欢","date":"1 小时前","tag":[]},{"title":"独立咖啡占 81%，成都“新式小店”模式凭什么全国第二？","link":"https://36kr.com/p/3812710084288008","summary":"","date":"1 小时前","tag":[]},{"title":"中产最新「电子镣铐」：动态血糖仪","link":"https://36kr.com/p/3812685997366792","summary":"来自主题：关于消费的一切|凤凰周刊 1 小时前","date":"1 小时前","tag":[]},{"title":"这届年轻人整顿完职场，又开始“整顿”博物馆了","link":"https://36kr.com/p/3814187921891079","summary":"来自主题：新居住时代|36 氪的朋友们 1 小时前","date":"1 小时前","tag":[]},{"title":"专柜买不到的爱马仕，我在广东鬼市“配货”才抢到","link":"https://36kr.com/p/3814073834954499","summary":"来自主题：关于消费的一切|显微故事 1 小时前","date":"1 小时前","tag":[]},{"title":"当第一批丁克住进医院，关键时刻谁来签字？","link":"https://36kr.com/p/3814080828759554","summary":"","date":"1 小时前","tag":[]},{"title":"半导体顶流，联手投了上海量子新锐","link":"https://36kr.com/p/3814073665068809","summary":"","date":"1 小时前","tag":[]},{"title":"3 月至今，上海的二手房屡创新高。","link":"https://36kr.com/p/3814185172950531","summary":"来自主题：未来地产|丁祖昱评楼市 1 小时前","date":"1 小时前","tag":[]},{"title":"第二增长曲线开卷：本土酒店集团开打“度假王牌”","link":"https://36kr.com/p/3814145866342660","summary":"","date":"1 小时前","tag":[]},{"title":"重卡新势力里唯一既有氢又有电，坚信 L4 智驾只有车云一体才有未来，对底层安全有着极致敬畏的一家企业。","link":"https://36kr.com/p/3814174288289540","summary":"载合卡车完成 10 亿元级战略融资，开创车云一体 AI 重卡全新赛道","date":"1 小时前","tag":[]}]} curl -X POST http://localhost:3000/crawl \ -H 'content-type: application/json' \ -d '{"url":"https://36kr.com/p/3808474045292288","mode":"auto"}' {"title":"对话 OpenClaw 核心团队：中国的大公司把业务直接跑在 OpenClaw 上，这并不常见-36 氪","mode":"article","items":[],"markdown":"# 对话 OpenClaw 核心团队：中国的大公司把业务直接跑在 OpenClaw 上，这并不常见\n\n[硅星人 Pro]( https://36kr.com/user/17325558)*·*2026 年 05 月 14 日 13:49\n\n 中国的速度比硅谷更快，比欧洲更疯\n\n5 月 11 日，在 MU Shanghai 组织的 ClawCon 活动上，OpenClaw 的社区核心成员自己飞过来，在阿里中心的会议室里，面对着从全国各地赶来的开发者、创业者和用户，和他们一线交流。\n\n 我们拿到了两个独家对话的机会，受访者是 OpenClaw 核心维护者 Josh ，以及 OpenClaw Foundation 核心成员 Vincent Koc 。\n\nJosh 是 OpenClaw 最早期的贡献者之一。2025 年 11 月，这个项目还没几个人知道的时候，他提交了第 39 和第 40 号 Pull Request——现在这个数字已经超过 8 万个。他不是 OpenClaw 的员工，不拿工资，本职在一家大厂。\n\n![]( https://img.36krcdn.com/hsossms/20260514/v2_234f64ac42ca4561911c5db6ee4754f5@5091053_oswg59868oswg750oswg500_img_000?x-oss-process=image/format,jpg/interlace,1)\n\n 正是他一手搭起了 Discord 社区，在 10 万人一夜涌入时稳住了局面，也是他第一个开始关注中国用户：把文档翻译成中文、接入飞书、在 Discord 里做了实时中英翻译 bot 。他自己的解释很简单：\"在正确的时间遇到了一个正确的想法。\"\n\nVincent 来自刚成立两周的 OpenClaw Foundation 。Foundation 接过了 OpenClaw 的技术治理和社区运营，Vincent 是这个新组织里直接面对开发者的主要负责人。\n\n![]( https://img.36krcdn.com/hsossms/20260514/v2_6c385b378ff0440a8ce675e56c3c5f92@5091053_oswg28500oswg750oswg500_img_000?x-oss-process=image/format,jpg/interlace,1)\n\n 我们和他们讨论了在这半年中，真正困扰用户的问题：**CLI 的交互方式会不会变？安全谁在负责？ Token 账单怎么才能不失控？以及，OpenClaw 在中国到底打算做什么？**\n\n 以下是完整访谈实录。\n\n**1 、OpenClaw 最初是给谁设计的？面对涌入的非技术用户，你们会做什么？除了 CLI 之外还会有别的交互方式吗？**\n\n**Josh**：说实话，这个项目从来不是为大众而生的。它最初只是我想解决自己问题的一次尝试——我想让某个有意思的软件能在自己的手机和电脑上跑，然后我把它分享到了网上，没想到就长成了今天这个样子。它不是为大众设计的，是为一个用户设计的，那个用户就是我自己。\n\n 看到这么多非技术背景的用户涌进来，我是真的觉得很神奇。能让这么多人第一次接触到人工智能，这本身就已经很了不起了。\n\n 我个人认为，AI 应该以你想要的任何方式工作——终端、手机消息、在家里用，哪里方便就在哪里。这才是最好的 AI 交互方式。\n\n 但也正因为如此，这件事非常有挑战。我们在支持一个几乎涵盖所有人的生态，没法只针对某一类特定用户去做优化。CLI 之外具体会走向哪里，我现在还没法给你一个明确的答案。\n\n**2 、对没有 Coding 背景的普通用户来说，安全是有盲区的。OpenClaw 在 safety 方面接下来打算做什么？**\n\n**Vincent**：这确实是一个值得认真对待的问题。我们这几个月在安全方面做了大量工作——确保 OpenClaw 在启动和运行时是安全的，包括沙盒化等具体手段。\n\n 与此同时，我们也在和一些科技公司、模型公司合作，他们提供的方案已经内置了正确的安全配置，普通用户不需要自己去操心这些。\n\n 因为代码是开源的，任何人都可以看到它怎么工作。我们从全球社区得到了大量贡献，大家一起帮我们把安全做得更好。开源本身，反而是一种安全保障。\n\n 这是开源模式真正的优势之一——漏洞很难藏着，因为所有人都在看。\n\n**追问：主要是你们在做，还是 OpenAI 的 Safety 部门在做？**\n\n**Vincent**：安全是整个社区和维护者共同在承担。\n\n**3 、OpenClaw 的账单对用户来说基本不可控。接下来会做工程层面的优化，让用户用更少 Token 完成更多事情吗？**\n\n**Josh**：我把这个问题看作一个暂时性问题。说实话，我自己的策略有点\"特权\"——我就是尽可能多花钱买 token ，来得到我想要的结果，然后赌 token 成本会下降。\n\n 我自己消耗的 token 数量是很夸张的：几十亿级别，而且大部分不是 OpenClaw ，是写代码。我点一下按钮，token 就消失了，额度降下去，然后我就得切到另一个账号，不停登录、退出、再登录，体验很糟糕。\n\n**如果 OpenAI 的人在看，请做一个原生的账号切换器，这样我就能付给你们更多钱了。**\n\n 关于长期趋势，我有物理学背景，所以我的判断是：随着中国等国家在可再生能源上大量投入，算力成本会持续走低，token 价格也会跟着下来。18 世纪钢铁越多能造的东西越多，今天是同一个道理。\n\n 我就是尽可能多花钱买 token ，来得到我想要的结果，然后赌 token 成本会下降。这是我的个人看法，对于现在正在花钱的人来说，这显然不是一个很好的答案\n\n**不过他也有一个对所有用户都实用的建议：你写提示词的方式，直接决定了你花多少 token 。**\n\n 我累的时候经常就这么写：'你能把这个东西修好吗？我只想让它能跑起来，别的我不管。'以我的经验，这样通常会得到很差的结果——又贵又没用。但如果我认真组织提示词、把上下文喂进去，结果好很多，消耗也更可控。没那么好玩，工作量也大很多，但值得。\n\n**Vincent**：从工程层面，我们这几个月很多工作都在专注于精度和准确性，这在某种程度上是以 token 消耗为代价的——某些场景下大量使用 token 是不可避免的。但我们也在持续推进，让 Agent 不要在同一个问题上反复耗费时间。\n\n 我们也看到模型公司（包括中国的）在大量改善模型效率，订阅计划等方式也在出现，来帮助用户控制总成本。这个领域会持续改善，我们对此有信心。\n\n**4 、应用公司做了大量工程化工作，但每次模型更新就被覆盖了。你们怎么看应用和模型之间的边界？ OpenClaw 自己怎么应对？**\n\nVincent：我们从一开始就把 OpenClaw 设计成一个支持几乎所有主流模型的底层核心系统。我们不针对某一个特定模型去做优化——我们和整个生态合作，让模型公司自己来决定他们的模型怎么在我们这里呈现最佳效果，他们可以直接向我们贡献代码。这是我们觉得最好的方式。\n\n 我们不会去绑定某一个模型。我们和生态系统合作，这是最好的方法。\n\n 但我也坦承，有一个具体的挑战我们还在研究：如果你有一个 Skill 在某个模型上效果很好，换了另一个模型就不行了——当你切换模型的时候，这些信息怎么能同样好用？这个问题没有简单的答案。\n\n 不过这个项目才存在几个月，还非常早期。但我们会持续看到这个领域的改善，我对此有信心。\n\n**5 、技术趋势从通用 Agent 走向主动式 Agent ，但经济账依然算不过来。你觉得下一代 Agent 会进化成什么样？如果用一个词定义？**\n\n**Vincent**：这是个有挑战性的问题。老实说，模型公司在做什么我没法控制。我能说的是，我们会尽力确保 OpenClaw 以最好的方式运行。但这本身就是挑战——我们有太多不同的模型选项，要让它对每个人都完美是不可能的。我可以对 OpenClaw 做一个改动，对某人来说效果很好，但对另一个人体验就很差。这在定义上就是个挑战。\n\n 下一代 Agent 是什么？**如果要用一个词来定义下一代 Agent——我的答案是：Self-evolving ，自我迭代。**\n\n 我觉得我们已经在用了。如果你把 OpenClaw 想成一个脚手架应用：你在看某个问题，发现问题，它可以创建代码，可以修改自身。对我来说，这就是自我迭代的定义。不是未来时，是现在时。\n\n**6 、如果中国的能源成本持续下降，假设 Token 无限接近于免费，中国的 Agent 生态会走出一条完全不同的路吗？**\n\n**Josh**：在美国，OpenClaw 给我的感觉非常偏消费者，大多数人用它做个人 bot ，管理自己的生活和事务；围绕 OpenClaw 做产品的公司，也是在把它卖给个人用户。而在中国，是很多大公司把业务直接跑在 OpenClaw 上。这是他在其他地方不太常见的。\n\n 中国非常快、非常快、非常快。如果缺了什么功能，中国用户当天就会 hack 进去把它做出来。这种发展速度真的令我大开眼界。在欧洲，这种事绝对不可能发生。\n\n 还有一个让我印象非常深刻的是深圳市政府在帮助市民部署 OpenClaw ，老人、年轻人在街区外排队，让拿着笔记本电脑的人帮他们安装。\n\n 中国对它感兴趣的人群非常多元，更像普通人，是一个很宽的社会横截面。硅谷是某一种旧金山式的人群：在创业公司或科技行业工作，这只是社会中很小的一部分。\n\n 我兄弟住在俄亥俄州托莱多，我不觉得你能在那儿找到很多 OpenClaw 用户。但在中国，我觉得你可能去很多不同的地方，都会遇到一些你没想到会用 OpenClaw 的人。\n\n**7 、你们在中国的下一步是什么？打算和开源社区合作、还是云公司、还是企业？有没有具体的计划？**\n\n**Josh**：我没法告诉你任何具体的东西——我不能说我们下一个要谈的是哪家公司。为什么？因为这不是我能决定的事，也不是我现在能做主的。我不是官方代表，我不来自基金会，我不是在替他们发言。\n\n 但有几件事我可以说。第一，我们注意到中国有一个很实际的问题：很多大公司拿了某一天的最新版本，就一直跑那个版本。一旦做了 hard fork ，之后的更新就非常困难。我们来这里，很重要的一个目的就是和他们交流，了解这些问题，改进我们的流程。\n\n 我们希望给大家提供长期 LTS 版本，也就是长期支持版本，这样它足够稳定，大家能长期基于它构建，而不是接口协议一直变化。\n\n 第二，我们注意到中国用户非常分散——有很多微信群，但没有一个统一的地方。我们希望找到一个中心化的位置，能在一个地方和整个社区交流，这样改进产品会容易很多。\n\n 第三，关于更大的组织层面：OpenClaw Foundation 大约两周前才刚成立，正在招人，在和公司、实验室建立连接，尝试把这些流程正式化。\n\n 我不太清楚那边具体发生了什么，Vincent 更清楚。但对话在继续，这对大家都有好处。我希望每个人都能有同等的高质量体验，能在这上面构建出有意思的产品。\n\n**8 、Discord 刚开的时候一下子涌进来 10 万人，完全是混乱的。你从那段经历里学到了什么？如果现在有人想做开源社区，你会给他什么建议？**\n\n**Josh**：我加入 OpenClaw 的时候，PR 编号是 39 和 40——那真的是非常早期。现在项目已经有大概 8 万个 PR 了。我不是 OpenClaw 的员工，也没有拿钱，我来这里只是因为觉得它很酷。\n\n1 月 1 日前后，Peter 邀请我加入，我成了维护者和 Discord 管理员。那简直是一片混乱——一个月内大概就有 10 万人涌进来了。\n\n 那完全不是有意为之的。我们没有说'来，我们要搞个大事情'——它就那么发生了，我们自己也完全懵了。前一千人进来的时候，我就已经觉得很疯狂了；然后一万，然后两万……你盯着那个数字，还是没法相信。\n\n 关于建议，核心判断是：网上 95%的人都是善意的，但总有人来捣乱。所以你必须行动——清晰地说出社区的初衷，透明、开放，把对的人在对的时间连接在一起，想清楚社区和项目真正的需求是什么。\n\n 整个项目没有社区就什么都不是。你可能有了不起的技术，但终究还是看人。\n\n 现在，我们已经在用 OpenClaw 来维护 OpenClaw 本身。\n\n 系统知道它自己怎么工作，知道大家在抱怨什么，知道哪里坏了。我们八个核心维护者之间有共享记忆机制，来保证它能更好的工作。\n\n 本文来自微信公众号[“硅星人 Pro”]( https://mp.weixin.qq.com/s/H2qrjgVxlm7N3YLEUtHyuQ)，作者：Yoky ，36 氪经授权发布。"

[分享创造] [开源] 分享一个简单的爬虫处理工具

v2ex · 2026-05-18 12:49:36+08:00 · tech

[开源] 一个 URL → 结构化 JSON：自动识别文章页 / 列表页，详情出 Markdown ，列表出 items 做 RAG 、AI 资讯聚合或内容监控时，常见痛点是：详情页要正文 Markdown ，列表页要标题、链接、摘要——往往要写两套爬虫纯 HTTP 抓不到 SPA ，Playwright 又要自己处理反爬、登录态返回一堆 HTML ，Token 耗费严重，下游还要再洗一遍开源了 crawl-serve （ npm 包名 html-to-markdown ）：丢一个 URL ，拿一份统一结构的 JSON ；服务会自动判断这是「单篇文章」还是「文章列表」，并走对应管线。 GitHub： https://github.com/NearImba/hammer3 它能做什么？页面类型自动识别后返回文章详情页 title + 正文 ** markdown **（ Readability 抽正文 + Turndown 转 MD ）文章列表页 title + ** items[] **（标题、摘要、链接、日期、标签） mode 支持 auto （默认）、 article 、 feed ，也可手动指定。返回结构固定，方便直接接 LangChain 、n8n 、自研流水线，不必再写 XPath/CSS 模板。工具特点 1. 一个接口覆盖两种页面形态不用为「博客详情」和「首页资讯流」维护两套解析逻辑； auto 会自动路由到 article / feed 管线。 2. 真浏览器渲染，且可接你自己的 Chrome 抓取走 Playwright ，通过 CDP 连接你手动启动的真实 Chrome ，可复用：已登录的 Cookie / Session 已通过的人机验证状态对需要登录才能看的站内页、或反爬较严的站点，比 headless 裸连更稳。同站还有并发节流（默认每 hostname 最多 2 个并发），降低触发风控的概率。 3. 输出是「能用的数据」，不是原始 HTML 文章：Mozilla Readability 抽正文 + GFM Markdown 列表：基于重复兄弟节点的启发式，从 DOM 结构里抽卡片，不绑死某个站点的 class 名适合谁用？ RAG / 知识库：批量把资讯站、博客详情页转成干净 Markdown 入库资讯聚合 / 监控：定时抓列表页 items[] ，再按需深入详情自动化工作流：n8n 、Dify 、自研 Agent 里加一个「网页 → 结构化 JSON 」节点不想绑商业爬虫 API ：自托管、可控、MIT 协议，数据不出自己的机器我在掘金、36 氪等站上测过 auto 模式，列表和详情都能正确分流 ** 不是万能反爬方案，而是专注「网页 → 结构化内容」这一件事 ** 大伙帮忙看看有没有搞头使用示例： # 命中 feed 流模式 curl -X POST http://localhost:3000/crawl \ -H 'content-type: application/json' \ -d '{"url":"https://36kr.com/","mode":"auto"}' # 返回 items curl -X POST http://localhost:3000/crawl \ -H 'content-type: application/json' \ -d '{"url":"https://36kr.com/","mode":"auto"}' {"title":"36 氪_让一部分人先看到未来","mode":"feed","items":[{"title":"为什么“看”是 AI 的切入口？","link":"https://36kr.com/p/3814264992407809","summary":"","date":"6 分钟前","tag":[]},{"title":"双人套餐 398 元，海底捞开“火锅电影院”了？","link":"https://36kr.com/p/3814223817891842","summary":"来自主题：关于消费的一切|红餐网 17 分钟前","date":"17 分钟前","tag":[]},{"title":"老佛爷百货中国首店，5 月 27 日从西单离场","link":"https://36kr.com/p/3814257221344776","summary":"来自主题：新居住时代|未来可栖 24 分钟前","date":"24 分钟前","tag":[]},{"title":"巨型背包火出圈，迪卡侬做对了什么？","link":"https://36kr.com/p/3814207928425984","summary":"来自主题：营销广告人又干什么了|Morketing26 分钟前","date":"26 分钟前","tag":[]},{"title":"苹果到底需要什么？ 2026 年 4 月 21 日，苹果官宣库克（ Tim Cook ）将卸任 CEO ，由约翰·特努斯（ John Ternus ）接手。与此同时，长期掌管苹果芯片业务的约翰尼·斯鲁吉（ Johny Srouji ）将出任首席硬件官。一时间，关于苹果公司未来发展的预测纷至沓来，但没有人能给出一个明确的答案，可能连约翰自己也不能。","link":"https://36kr.com/topics/3777702636639493","summary":"36 氪 2025 年度透视“透视图”栏目在年终特别策划了“36 氪年度总结”系列，用数据透视 2025 全年趋势，以图片呈现今年商业世界中不可错过的要点。持续更新中 >>","date":"","tag":[]},{"title":"头部商场的招商逻辑，变了？","link":"https://36kr.com/p/3814246318907137","summary":"来自主题：未来地产|Mall 先生 28 分钟前","date":"28 分钟前","tag":[]},{"title":"氪大事 | 赚的太多了，韩国准备给全体国民撒钱啦？","link":"https://36kr.com/v-video/3810414861115651","summary":"","date":"4 小时前","tag":[]},{"title":"曾濒临破产，被 CEO 赖掉 17 亿奖金，他们做出了 12 小时收入超 2 亿的爆款","link":"https://36kr.com/p/3813258514226690","summary":"来自主题：游戏圈大事件|游戏葡萄 28 分钟前","date":"28 分钟前","tag":[]},{"title":"TCL 站枪手 VS 海尔挺 PSG：欧冠决赛连续第二年“中国家电德比”","link":"https://36kr.com/p/3813423008603652","summary":"来自主题：体育健身新趋势|懒熊体育 31 分钟前","date":"31 分钟前","tag":[]},{"title":"MiniMax 10x Team 背后，产业 AI 撞上的不是技术瓶颈，而是真实世界的责任链条","link":"https://36kr.com/p/3814245621833474","summary":"来自主题：人工智能·AI|36 氪的朋友们 36 分钟前","date":"36 分钟前","tag":[]},{"title":"史上最贵世界杯，全球游客去不起了","link":"https://36kr.com/p/3814235757780487","summary":"","date":"36 分钟前","tag":[]},{"title":"2:41 科技圈大佬集体抛弃皮鞋，背后藏着什么逻辑？个人观点仅供参考","link":"https://36kr.com/v-video/3811262844624896","summary":"2:09 为什么在欢迎晚宴上，这些中国企业家和黄仁勋、库克坐一桌？","date":"2:09","tag":[]},{"title":"当一套制度能够让普通人敢于拥抱不确定性，奇迹就会成为大概率事件。","link":"https://36kr.com/p/3814130976268034","summary":"来自主题：商业人物追踪|复旦《管理视野》 55 分钟前","date":"55 分钟前","tag":[]},{"title":"美国游客疯狂涌入中国，中国游客悄悄远离美国","link":"https://36kr.com/p/3814219841854983","summary":"","date":"56 分钟前","tag":[]},{"title":"广州国企豪掷 30 亿下场收房。","link":"https://36kr.com/p/3814219526921736","summary":"","date":"1 小时前","tag":[]},{"title":"郑裕彤家族卖长浏高速回血，上海国资接盘做 REITs","link":"https://36kr.com/p/3814214828678663","summary":"","date":"1 小时前","tag":[]},{"title":"12 亿美元收购，礼来加码 NLRP3 系统炎症靶点，布局慢病新范式","link":"https://36kr.com/p/3812627824353029","summary":"","date":"1 小时前","tag":[]},{"title":"全球最大豪华酒店业主，快把手里酒店卖光了","link":"https://36kr.com/p/3814148131725317","summary":"来自主题：房地产下半场|酒管财经 1 小时前","date":"1 小时前","tag":[]},{"title":"20 年来，他用极端的方式，拍下 1000 个名流巨星的私密时刻","link":"https://36kr.com/p/3814039837531911","summary":"来自主题：新生活 LIFESTYLE|一条 1 小时前","date":"1 小时前","tag":[]},{"title":"北京二手房价连涨三月，一线二手房价连续两月普涨","link":"https://36kr.com/p/3814201195437826","summary":"房价数据出炉！北京二手房价连续 3 个月上涨","date":"1 小时前","tag":[]},{"title":"AI ，开始悄悄砸掉景区旅拍饭碗","link":"https://36kr.com/p/3814201997647369","summary":"","date":"1 小时前","tag":[]},{"title":"美制裁催生华为成汽车业强势推手，催生对手改变格局。","link":"https://36kr.com/p/3812657254752004","summary":"不造车的华为，正以 Tier0.5 影响全行业","date":"1 小时前","tag":[]},{"title":"小核酸药物商业化拐点至，上游卖水人业绩大涨隐现产能风险","link":"https://36kr.com/p/3812627203759873","summary":"销售额翻 7 倍、加速扩产能，这个赛道“卖水人”涨疯了","date":"1 小时前","tag":[]},{"title":"世界杯在即：国产彩电的出海故事还讲得通吗？","link":"https://36kr.com/p/3811759120637443","summary":"来自主题：关于消费的一切|锌刻度 1 小时前","date":"1 小时前","tag":[]},{"title":"拿捏育儿焦虑年入 30 亿，泰兰尼斯却栽在“送礼广告”？","link":"https://36kr.com/p/3814085466119685","summary":"来自主题：关于消费的一切|定焦 One1 小时前","date":"1 小时前","tag":[]},{"title":"杀疯了，云南小伙花 3000 块手搓 AI 短片，火遍全球","link":"https://36kr.com/p/3813482781662726","summary":"来自主题：人工智能·AI|科技狐 1 小时前","date":"1 小时前","tag":[]},{"title":"三年再造一个拼多多，Temu 迎来海外监管危机","link":"https://36kr.com/p/3813593136979972","summary":"来自主题：拼多多下沉记|司库商业 1 小时前","date":"1 小时前","tag":[]},{"title":"CoWoS 高增值率凸显台积电优势，重构台湾半导体产业格局","link":"https://36kr.com/p/3814125492461320","summary":"来自主题：芯片领域新鲜事|半导体行业观察 1 小时前","date":"1 小时前","tag":[]},{"title":"十年野蛮生长，终于迎来国标落地","link":"https://36kr.com/p/3811836569313287","summary":"来自主题：关于消费的一切|螺旋实验室 1 小时前","date":"1 小时前","tag":[]},{"title":"合法直销变味，金天国际涉嫌传销虚假宣传，监管趋严行业正本清源。","link":"https://36kr.com/p/3812765485932546","summary":"祖明军与金天国际：一张直销牌照的灰色狂欢","date":"1 小时前","tag":[]},{"title":"独立咖啡占 81%，成都“新式小店”模式凭什么全国第二？","link":"https://36kr.com/p/3812710084288008","summary":"","date":"1 小时前","tag":[]},{"title":"中产最新「电子镣铐」：动态血糖仪","link":"https://36kr.com/p/3812685997366792","summary":"来自主题：关于消费的一切|凤凰周刊 1 小时前","date":"1 小时前","tag":[]},{"title":"这届年轻人整顿完职场，又开始“整顿”博物馆了","link":"https://36kr.com/p/3814187921891079","summary":"来自主题：新居住时代|36 氪的朋友们 1 小时前","date":"1 小时前","tag":[]},{"title":"专柜买不到的爱马仕，我在广东鬼市“配货”才抢到","link":"https://36kr.com/p/3814073834954499","summary":"来自主题：关于消费的一切|显微故事 1 小时前","date":"1 小时前","tag":[]},{"title":"当第一批丁克住进医院，关键时刻谁来签字？","link":"https://36kr.com/p/3814080828759554","summary":"","date":"1 小时前","tag":[]},{"title":"半导体顶流，联手投了上海量子新锐","link":"https://36kr.com/p/3814073665068809","summary":"","date":"1 小时前","tag":[]},{"title":"3 月至今，上海的二手房屡创新高。","link":"https://36kr.com/p/3814185172950531","summary":"来自主题：未来地产|丁祖昱评楼市 1 小时前","date":"1 小时前","tag":[]},{"title":"第二增长曲线开卷：本土酒店集团开打“度假王牌”","link":"https://36kr.com/p/3814145866342660","summary":"","date":"1 小时前","tag":[]},{"title":"重卡新势力里唯一既有氢又有电，坚信 L4 智驾只有车云一体才有未来，对底层安全有着极致敬畏的一家企业。","link":"https://36kr.com/p/3814174288289540","summary":"载合卡车完成 10 亿元级战略融资，开创车云一体 AI 重卡全新赛道","date":"1 小时前","tag":[]}]} curl -X POST http://localhost:3000/crawl \ -H 'content-type: application/json' \ -d '{"url":"https://36kr.com/p/3808474045292288","mode":"auto"}' {"title":"对话 OpenClaw 核心团队：中国的大公司把业务直接跑在 OpenClaw 上，这并不常见-36 氪","mode":"article","items":[],"markdown":"# 对话 OpenClaw 核心团队：中国的大公司把业务直接跑在 OpenClaw 上，这并不常见\n\n[硅星人 Pro]( https://36kr.com/user/17325558)*·*2026 年 05 月 14 日 13:49\n\n 中国的速度比硅谷更快，比欧洲更疯\n\n5 月 11 日，在 MU Shanghai 组织的 ClawCon 活动上，OpenClaw 的社区核心成员自己飞过来，在阿里中心的会议室里，面对着从全国各地赶来的开发者、创业者和用户，和他们一线交流。\n\n 我们拿到了两个独家对话的机会，受访者是 OpenClaw 核心维护者 Josh ，以及 OpenClaw Foundation 核心成员 Vincent Koc 。\n\nJosh 是 OpenClaw 最早期的贡献者之一。2025 年 11 月，这个项目还没几个人知道的时候，他提交了第 39 和第 40 号 Pull Request——现在这个数字已经超过 8 万个。他不是 OpenClaw 的员工，不拿工资，本职在一家大厂。\n\n![]( https://img.36krcdn.com/hsossms/20260514/v2_234f64ac42ca4561911c5db6ee4754f5@5091053_oswg59868oswg750oswg500_img_000?x-oss-process=image/format,jpg/interlace,1)\n\n 正是他一手搭起了 Discord 社区，在 10 万人一夜涌入时稳住了局面，也是他第一个开始关注中国用户：把文档翻译成中文、接入飞书、在 Discord 里做了实时中英翻译 bot 。他自己的解释很简单：\"在正确的时间遇到了一个正确的想法。\"\n\nVincent 来自刚成立两周的 OpenClaw Foundation 。Foundation 接过了 OpenClaw 的技术治理和社区运营，Vincent 是这个新组织里直接面对开发者的主要负责人。\n\n![]( https://img.36krcdn.com/hsossms/20260514/v2_6c385b378ff0440a8ce675e56c3c5f92@5091053_oswg28500oswg750oswg500_img_000?x-oss-process=image/format,jpg/interlace,1)\n\n 我们和他们讨论了在这半年中，真正困扰用户的问题：**CLI 的交互方式会不会变？安全谁在负责？ Token 账单怎么才能不失控？以及，OpenClaw 在中国到底打算做什么？**\n\n 以下是完整访谈实录。\n\n**1 、OpenClaw 最初是给谁设计的？面对涌入的非技术用户，你们会做什么？除了 CLI 之外还会有别的交互方式吗？**\n\n**Josh**：说实话，这个项目从来不是为大众而生的。它最初只是我想解决自己问题的一次尝试——我想让某个有意思的软件能在自己的手机和电脑上跑，然后我把它分享到了网上，没想到就长成了今天这个样子。它不是为大众设计的，是为一个用户设计的，那个用户就是我自己。\n\n 看到这么多非技术背景的用户涌进来，我是真的觉得很神奇。能让这么多人第一次接触到人工智能，这本身就已经很了不起了。\n\n 我个人认为，AI 应该以你想要的任何方式工作——终端、手机消息、在家里用，哪里方便就在哪里。这才是最好的 AI 交互方式。\n\n 但也正因为如此，这件事非常有挑战。我们在支持一个几乎涵盖所有人的生态，没法只针对某一类特定用户去做优化。CLI 之外具体会走向哪里，我现在还没法给你一个明确的答案。\n\n**2 、对没有 Coding 背景的普通用户来说，安全是有盲区的。OpenClaw 在 safety 方面接下来打算做什么？**\n\n**Vincent**：这确实是一个值得认真对待的问题。我们这几个月在安全方面做了大量工作——确保 OpenClaw 在启动和运行时是安全的，包括沙盒化等具体手段。\n\n 与此同时，我们也在和一些科技公司、模型公司合作，他们提供的方案已经内置了正确的安全配置，普通用户不需要自己去操心这些。\n\n 因为代码是开源的，任何人都可以看到它怎么工作。我们从全球社区得到了大量贡献，大家一起帮我们把安全做得更好。开源本身，反而是一种安全保障。\n\n 这是开源模式真正的优势之一——漏洞很难藏着，因为所有人都在看。\n\n**追问：主要是你们在做，还是 OpenAI 的 Safety 部门在做？**\n\n**Vincent**：安全是整个社区和维护者共同在承担。\n\n**3 、OpenClaw 的账单对用户来说基本不可控。接下来会做工程层面的优化，让用户用更少 Token 完成更多事情吗？**\n\n**Josh**：我把这个问题看作一个暂时性问题。说实话，我自己的策略有点\"特权\"——我就是尽可能多花钱买 token ，来得到我想要的结果，然后赌 token 成本会下降。\n\n 我自己消耗的 token 数量是很夸张的：几十亿级别，而且大部分不是 OpenClaw ，是写代码。我点一下按钮，token 就消失了，额度降下去，然后我就得切到另一个账号，不停登录、退出、再登录，体验很糟糕。\n\n**如果 OpenAI 的人在看，请做一个原生的账号切换器，这样我就能付给你们更多钱了。**\n\n 关于长期趋势，我有物理学背景，所以我的判断是：随着中国等国家在可再生能源上大量投入，算力成本会持续走低，token 价格也会跟着下来。18 世纪钢铁越多能造的东西越多，今天是同一个道理。\n\n 我就是尽可能多花钱买 token ，来得到我想要的结果，然后赌 token 成本会下降。这是我的个人看法，对于现在正在花钱的人来说，这显然不是一个很好的答案\n\n**不过他也有一个对所有用户都实用的建议：你写提示词的方式，直接决定了你花多少 token 。**\n\n 我累的时候经常就这么写：'你能把这个东西修好吗？我只想让它能跑起来，别的我不管。'以我的经验，这样通常会得到很差的结果——又贵又没用。但如果我认真组织提示词、把上下文喂进去，结果好很多，消耗也更可控。没那么好玩，工作量也大很多，但值得。\n\n**Vincent**：从工程层面，我们这几个月很多工作都在专注于精度和准确性，这在某种程度上是以 token 消耗为代价的——某些场景下大量使用 token 是不可避免的。但我们也在持续推进，让 Agent 不要在同一个问题上反复耗费时间。\n\n 我们也看到模型公司（包括中国的）在大量改善模型效率，订阅计划等方式也在出现，来帮助用户控制总成本。这个领域会持续改善，我们对此有信心。\n\n**4 、应用公司做了大量工程化工作，但每次模型更新就被覆盖了。你们怎么看应用和模型之间的边界？ OpenClaw 自己怎么应对？**\n\nVincent：我们从一开始就把 OpenClaw 设计成一个支持几乎所有主流模型的底层核心系统。我们不针对某一个特定模型去做优化——我们和整个生态合作，让模型公司自己来决定他们的模型怎么在我们这里呈现最佳效果，他们可以直接向我们贡献代码。这是我们觉得最好的方式。\n\n 我们不会去绑定某一个模型。我们和生态系统合作，这是最好的方法。\n\n 但我也坦承，有一个具体的挑战我们还在研究：如果你有一个 Skill 在某个模型上效果很好，换了另一个模型就不行了——当你切换模型的时候，这些信息怎么能同样好用？这个问题没有简单的答案。\n\n 不过这个项目才存在几个月，还非常早期。但我们会持续看到这个领域的改善，我对此有信心。\n\n**5 、技术趋势从通用 Agent 走向主动式 Agent ，但经济账依然算不过来。你觉得下一代 Agent 会进化成什么样？如果用一个词定义？**\n\n**Vincent**：这是个有挑战性的问题。老实说，模型公司在做什么我没法控制。我能说的是，我们会尽力确保 OpenClaw 以最好的方式运行。但这本身就是挑战——我们有太多不同的模型选项，要让它对每个人都完美是不可能的。我可以对 OpenClaw 做一个改动，对某人来说效果很好，但对另一个人体验就很差。这在定义上就是个挑战。\n\n 下一代 Agent 是什么？**如果要用一个词来定义下一代 Agent——我的答案是：Self-evolving ，自我迭代。**\n\n 我觉得我们已经在用了。如果你把 OpenClaw 想成一个脚手架应用：你在看某个问题，发现问题，它可以创建代码，可以修改自身。对我来说，这就是自我迭代的定义。不是未来时，是现在时。\n\n**6 、如果中国的能源成本持续下降，假设 Token 无限接近于免费，中国的 Agent 生态会走出一条完全不同的路吗？**\n\n**Josh**：在美国，OpenClaw 给我的感觉非常偏消费者，大多数人用它做个人 bot ，管理自己的生活和事务；围绕 OpenClaw 做产品的公司，也是在把它卖给个人用户。而在中国，是很多大公司把业务直接跑在 OpenClaw 上。这是他在其他地方不太常见的。\n\n 中国非常快、非常快、非常快。如果缺了什么功能，中国用户当天就会 hack 进去把它做出来。这种发展速度真的令我大开眼界。在欧洲，这种事绝对不可能发生。\n\n 还有一个让我印象非常深刻的是深圳市政府在帮助市民部署 OpenClaw ，老人、年轻人在街区外排队，让拿着笔记本电脑的人帮他们安装。\n\n 中国对它感兴趣的人群非常多元，更像普通人，是一个很宽的社会横截面。硅谷是某一种旧金山式的人群：在创业公司或科技行业工作，这只是社会中很小的一部分。\n\n 我兄弟住在俄亥俄州托莱多，我不觉得你能在那儿找到很多 OpenClaw 用户。但在中国，我觉得你可能去很多不同的地方，都会遇到一些你没想到会用 OpenClaw 的人。\n\n**7 、你们在中国的下一步是什么？打算和开源社区合作、还是云公司、还是企业？有没有具体的计划？**\n\n**Josh**：我没法告诉你任何具体的东西——我不能说我们下一个要谈的是哪家公司。为什么？因为这不是我能决定的事，也不是我现在能做主的。我不是官方代表，我不来自基金会，我不是在替他们发言。\n\n 但有几件事我可以说。第一，我们注意到中国有一个很实际的问题：很多大公司拿了某一天的最新版本，就一直跑那个版本。一旦做了 hard fork ，之后的更新就非常困难。我们来这里，很重要的一个目的就是和他们交流，了解这些问题，改进我们的流程。\n\n 我们希望给大家提供长期 LTS 版本，也就是长期支持版本，这样它足够稳定，大家能长期基于它构建，而不是接口协议一直变化。\n\n 第二，我们注意到中国用户非常分散——有很多微信群，但没有一个统一的地方。我们希望找到一个中心化的位置，能在一个地方和整个社区交流，这样改进产品会容易很多。\n\n 第三，关于更大的组织层面：OpenClaw Foundation 大约两周前才刚成立，正在招人，在和公司、实验室建立连接，尝试把这些流程正式化。\n\n 我不太清楚那边具体发生了什么，Vincent 更清楚。但对话在继续，这对大家都有好处。我希望每个人都能有同等的高质量体验，能在这上面构建出有意思的产品。\n\n**8 、Discord 刚开的时候一下子涌进来 10 万人，完全是混乱的。你从那段经历里学到了什么？如果现在有人想做开源社区，你会给他什么建议？**\n\n**Josh**：我加入 OpenClaw 的时候，PR 编号是 39 和 40——那真的是非常早期。现在项目已经有大概 8 万个 PR 了。我不是 OpenClaw 的员工，也没有拿钱，我来这里只是因为觉得它很酷。\n\n1 月 1 日前后，Peter 邀请我加入，我成了维护者和 Discord 管理员。那简直是一片混乱——一个月内大概就有 10 万人涌进来了。\n\n 那完全不是有意为之的。我们没有说'来，我们要搞个大事情'——它就那么发生了，我们自己也完全懵了。前一千人进来的时候，我就已经觉得很疯狂了；然后一万，然后两万……你盯着那个数字，还是没法相信。\n\n 关于建议，核心判断是：网上 95%的人都是善意的，但总有人来捣乱。所以你必须行动——清晰地说出社区的初衷，透明、开放，把对的人在对的时间连接在一起，想清楚社区和项目真正的需求是什么。\n\n 整个项目没有社区就什么都不是。你可能有了不起的技术，但终究还是看人。\n\n 现在，我们已经在用 OpenClaw 来维护 OpenClaw 本身。\n\n 系统知道它自己怎么工作，知道大家在抱怨什么，知道哪里坏了。我们八个核心维护者之间有共享记忆机制，来保证它能更好的工作。\n\n 本文来自微信公众号[“硅星人 Pro”]( https://mp.weixin.qq.com/s/H2qrjgVxlm7N3YLEUtHyuQ)，作者：Yoky ，36 氪经授权发布。"

[分享创造] [开源] 分享一个简单的爬虫处理工具

v2ex · 2026-05-18 12:42:57+08:00 · tech

[开源] 一个 URL → 结构化 JSON：自动识别文章页 / 列表页，详情出 Markdown ，列表出 items 做 RAG 、AI 资讯聚合或内容监控时，常见痛点是：详情页要正文 Markdown ，列表页要标题、链接、摘要——往往要写两套爬虫纯 HTTP 抓不到 SPA ，Playwright 又要自己处理反爬、登录态返回一堆 HTML ，Token 耗费严重，下游还要再洗一遍开源了 crawl-serve （ npm 包名 html-to-markdown ）：丢一个 URL ，拿一份统一结构的 JSON ；服务会自动判断这是「单篇文章」还是「文章列表」，并走对应管线。 GitHub： https://github.com/NearImba/hammer3 它能做什么？页面类型自动识别后返回文章详情页 title + 正文 ** markdown **（ Readability 抽正文 + Turndown 转 MD ）文章列表页 title + ** items[] **（标题、摘要、链接、日期、标签） mode 支持 auto （默认）、 article 、 feed ，也可手动指定。返回结构固定，方便直接接 LangChain 、n8n 、自研流水线，不必再写 XPath/CSS 模板。工具特点 1. 一个接口覆盖两种页面形态不用为「博客详情」和「首页资讯流」维护两套解析逻辑； auto 会自动路由到 article / feed 管线。 2. 真浏览器渲染，且可接你自己的 Chrome 抓取走 Playwright ，通过 CDP 连接你手动启动的真实 Chrome ，可复用：已登录的 Cookie / Session 已通过的人机验证状态对需要登录才能看的站内页、或反爬较严的站点，比 headless 裸连更稳。同站还有并发节流（默认每 hostname 最多 2 个并发），降低触发风控的概率。 3. 输出是「能用的数据」，不是原始 HTML 文章：Mozilla Readability 抽正文 + GFM Markdown 列表：基于重复兄弟节点的启发式，从 DOM 结构里抽卡片，不绑死某个站点的 class 名适合谁用？ RAG / 知识库：批量把资讯站、博客详情页转成干净 Markdown 入库资讯聚合 / 监控：定时抓列表页 items[] ，再按需深入详情自动化工作流：n8n 、Dify 、自研 Agent 里加一个「网页 → 结构化 JSON 」节点不想绑商业爬虫 API ：自托管、可控、MIT 协议，数据不出自己的机器我在掘金、36 氪等站上测过 auto 模式，列表和详情都能正确分流 ** 不是万能反爬方案，而是专注「网页 → 结构化内容」这一件事 ** 大伙帮忙看看有没有搞头使用示例： # 命中 feed 流模式 curl -X POST http://localhost:3000/crawl \ -H 'content-type: application/json' \ -d '{"url":"https://36kr.com/","mode":"auto"}' # 返回 items curl -X POST http://localhost:3000/crawl \ -H 'content-type: application/json' \ -d '{"url":"https://36kr.com/","mode":"auto"}' {"title":"36 氪_让一部分人先看到未来","mode":"feed","items":[{"title":"为什么“看”是 AI 的切入口？","link":"https://36kr.com/p/3814264992407809","summary":"","date":"6 分钟前","tag":[]},{"title":"双人套餐 398 元，海底捞开“火锅电影院”了？","link":"https://36kr.com/p/3814223817891842","summary":"来自主题：关于消费的一切|红餐网 17 分钟前","date":"17 分钟前","tag":[]},{"title":"老佛爷百货中国首店，5 月 27 日从西单离场","link":"https://36kr.com/p/3814257221344776","summary":"来自主题：新居住时代|未来可栖 24 分钟前","date":"24 分钟前","tag":[]},{"title":"巨型背包火出圈，迪卡侬做对了什么？","link":"https://36kr.com/p/3814207928425984","summary":"来自主题：营销广告人又干什么了|Morketing26 分钟前","date":"26 分钟前","tag":[]},{"title":"苹果到底需要什么？ 2026 年 4 月 21 日，苹果官宣库克（ Tim Cook ）将卸任 CEO ，由约翰·特努斯（ John Ternus ）接手。与此同时，长期掌管苹果芯片业务的约翰尼·斯鲁吉（ Johny Srouji ）将出任首席硬件官。一时间，关于苹果公司未来发展的预测纷至沓来，但没有人能给出一个明确的答案，可能连约翰自己也不能。","link":"https://36kr.com/topics/3777702636639493","summary":"36 氪 2025 年度透视“透视图”栏目在年终特别策划了“36 氪年度总结”系列，用数据透视 2025 全年趋势，以图片呈现今年商业世界中不可错过的要点。持续更新中 >>","date":"","tag":[]},{"title":"头部商场的招商逻辑，变了？","link":"https://36kr.com/p/3814246318907137","summary":"来自主题：未来地产|Mall 先生 28 分钟前","date":"28 分钟前","tag":[]},{"title":"氪大事 | 赚的太多了，韩国准备给全体国民撒钱啦？","link":"https://36kr.com/v-video/3810414861115651","summary":"","date":"4 小时前","tag":[]},{"title":"曾濒临破产，被 CEO 赖掉 17 亿奖金，他们做出了 12 小时收入超 2 亿的爆款","link":"https://36kr.com/p/3813258514226690","summary":"来自主题：游戏圈大事件|游戏葡萄 28 分钟前","date":"28 分钟前","tag":[]},{"title":"TCL 站枪手 VS 海尔挺 PSG：欧冠决赛连续第二年“中国家电德比”","link":"https://36kr.com/p/3813423008603652","summary":"来自主题：体育健身新趋势|懒熊体育 31 分钟前","date":"31 分钟前","tag":[]},{"title":"MiniMax 10x Team 背后，产业 AI 撞上的不是技术瓶颈，而是真实世界的责任链条","link":"https://36kr.com/p/3814245621833474","summary":"来自主题：人工智能·AI|36 氪的朋友们 36 分钟前","date":"36 分钟前","tag":[]},{"title":"史上最贵世界杯，全球游客去不起了","link":"https://36kr.com/p/3814235757780487","summary":"","date":"36 分钟前","tag":[]},{"title":"2:41 科技圈大佬集体抛弃皮鞋，背后藏着什么逻辑？个人观点仅供参考","link":"https://36kr.com/v-video/3811262844624896","summary":"2:09 为什么在欢迎晚宴上，这些中国企业家和黄仁勋、库克坐一桌？","date":"2:09","tag":[]},{"title":"当一套制度能够让普通人敢于拥抱不确定性，奇迹就会成为大概率事件。","link":"https://36kr.com/p/3814130976268034","summary":"来自主题：商业人物追踪|复旦《管理视野》 55 分钟前","date":"55 分钟前","tag":[]},{"title":"美国游客疯狂涌入中国，中国游客悄悄远离美国","link":"https://36kr.com/p/3814219841854983","summary":"","date":"56 分钟前","tag":[]},{"title":"广州国企豪掷 30 亿下场收房。","link":"https://36kr.com/p/3814219526921736","summary":"","date":"1 小时前","tag":[]},{"title":"郑裕彤家族卖长浏高速回血，上海国资接盘做 REITs","link":"https://36kr.com/p/3814214828678663","summary":"","date":"1 小时前","tag":[]},{"title":"12 亿美元收购，礼来加码 NLRP3 系统炎症靶点，布局慢病新范式","link":"https://36kr.com/p/3812627824353029","summary":"","date":"1 小时前","tag":[]},{"title":"全球最大豪华酒店业主，快把手里酒店卖光了","link":"https://36kr.com/p/3814148131725317","summary":"来自主题：房地产下半场|酒管财经 1 小时前","date":"1 小时前","tag":[]},{"title":"20 年来，他用极端的方式，拍下 1000 个名流巨星的私密时刻","link":"https://36kr.com/p/3814039837531911","summary":"来自主题：新生活 LIFESTYLE|一条 1 小时前","date":"1 小时前","tag":[]},{"title":"北京二手房价连涨三月，一线二手房价连续两月普涨","link":"https://36kr.com/p/3814201195437826","summary":"房价数据出炉！北京二手房价连续 3 个月上涨","date":"1 小时前","tag":[]},{"title":"AI ，开始悄悄砸掉景区旅拍饭碗","link":"https://36kr.com/p/3814201997647369","summary":"","date":"1 小时前","tag":[]},{"title":"美制裁催生华为成汽车业强势推手，催生对手改变格局。","link":"https://36kr.com/p/3812657254752004","summary":"不造车的华为，正以 Tier0.5 影响全行业","date":"1 小时前","tag":[]},{"title":"小核酸药物商业化拐点至，上游卖水人业绩大涨隐现产能风险","link":"https://36kr.com/p/3812627203759873","summary":"销售额翻 7 倍、加速扩产能，这个赛道“卖水人”涨疯了","date":"1 小时前","tag":[]},{"title":"世界杯在即：国产彩电的出海故事还讲得通吗？","link":"https://36kr.com/p/3811759120637443","summary":"来自主题：关于消费的一切|锌刻度 1 小时前","date":"1 小时前","tag":[]},{"title":"拿捏育儿焦虑年入 30 亿，泰兰尼斯却栽在“送礼广告”？","link":"https://36kr.com/p/3814085466119685","summary":"来自主题：关于消费的一切|定焦 One1 小时前","date":"1 小时前","tag":[]},{"title":"杀疯了，云南小伙花 3000 块手搓 AI 短片，火遍全球","link":"https://36kr.com/p/3813482781662726","summary":"来自主题：人工智能·AI|科技狐 1 小时前","date":"1 小时前","tag":[]},{"title":"三年再造一个拼多多，Temu 迎来海外监管危机","link":"https://36kr.com/p/3813593136979972","summary":"来自主题：拼多多下沉记|司库商业 1 小时前","date":"1 小时前","tag":[]},{"title":"CoWoS 高增值率凸显台积电优势，重构台湾半导体产业格局","link":"https://36kr.com/p/3814125492461320","summary":"来自主题：芯片领域新鲜事|半导体行业观察 1 小时前","date":"1 小时前","tag":[]},{"title":"十年野蛮生长，终于迎来国标落地","link":"https://36kr.com/p/3811836569313287","summary":"来自主题：关于消费的一切|螺旋实验室 1 小时前","date":"1 小时前","tag":[]},{"title":"合法直销变味，金天国际涉嫌传销虚假宣传，监管趋严行业正本清源。","link":"https://36kr.com/p/3812765485932546","summary":"祖明军与金天国际：一张直销牌照的灰色狂欢","date":"1 小时前","tag":[]},{"title":"独立咖啡占 81%，成都“新式小店”模式凭什么全国第二？","link":"https://36kr.com/p/3812710084288008","summary":"","date":"1 小时前","tag":[]},{"title":"中产最新「电子镣铐」：动态血糖仪","link":"https://36kr.com/p/3812685997366792","summary":"来自主题：关于消费的一切|凤凰周刊 1 小时前","date":"1 小时前","tag":[]},{"title":"这届年轻人整顿完职场，又开始“整顿”博物馆了","link":"https://36kr.com/p/3814187921891079","summary":"来自主题：新居住时代|36 氪的朋友们 1 小时前","date":"1 小时前","tag":[]},{"title":"专柜买不到的爱马仕，我在广东鬼市“配货”才抢到","link":"https://36kr.com/p/3814073834954499","summary":"来自主题：关于消费的一切|显微故事 1 小时前","date":"1 小时前","tag":[]},{"title":"当第一批丁克住进医院，关键时刻谁来签字？","link":"https://36kr.com/p/3814080828759554","summary":"","date":"1 小时前","tag":[]},{"title":"半导体顶流，联手投了上海量子新锐","link":"https://36kr.com/p/3814073665068809","summary":"","date":"1 小时前","tag":[]},{"title":"3 月至今，上海的二手房屡创新高。","link":"https://36kr.com/p/3814185172950531","summary":"来自主题：未来地产|丁祖昱评楼市 1 小时前","date":"1 小时前","tag":[]},{"title":"第二增长曲线开卷：本土酒店集团开打“度假王牌”","link":"https://36kr.com/p/3814145866342660","summary":"","date":"1 小时前","tag":[]},{"title":"重卡新势力里唯一既有氢又有电，坚信 L4 智驾只有车云一体才有未来，对底层安全有着极致敬畏的一家企业。","link":"https://36kr.com/p/3814174288289540","summary":"载合卡车完成 10 亿元级战略融资，开创车云一体 AI 重卡全新赛道","date":"1 小时前","tag":[]}]} curl -X POST http://localhost:3000/crawl \ -H 'content-type: application/json' \ -d '{"url":"https://36kr.com/p/3808474045292288","mode":"auto"}' {"title":"对话 OpenClaw 核心团队：中国的大公司把业务直接跑在 OpenClaw 上，这并不常见-36 氪","mode":"article","items":[],"markdown":"# 对话 OpenClaw 核心团队：中国的大公司把业务直接跑在 OpenClaw 上，这并不常见\n\n[硅星人 Pro]( https://36kr.com/user/17325558)*·*2026 年 05 月 14 日 13:49\n\n 中国的速度比硅谷更快，比欧洲更疯\n\n5 月 11 日，在 MU Shanghai 组织的 ClawCon 活动上，OpenClaw 的社区核心成员自己飞过来，在阿里中心的会议室里，面对着从全国各地赶来的开发者、创业者和用户，和他们一线交流。\n\n 我们拿到了两个独家对话的机会，受访者是 OpenClaw 核心维护者 Josh ，以及 OpenClaw Foundation 核心成员 Vincent Koc 。\n\nJosh 是 OpenClaw 最早期的贡献者之一。2025 年 11 月，这个项目还没几个人知道的时候，他提交了第 39 和第 40 号 Pull Request——现在这个数字已经超过 8 万个。他不是 OpenClaw 的员工，不拿工资，本职在一家大厂。\n\n![]( https://img.36krcdn.com/hsossms/20260514/v2_234f64ac42ca4561911c5db6ee4754f5@5091053_oswg59868oswg750oswg500_img_000?x-oss-process=image/format,jpg/interlace,1)\n\n 正是他一手搭起了 Discord 社区，在 10 万人一夜涌入时稳住了局面，也是他第一个开始关注中国用户：把文档翻译成中文、接入飞书、在 Discord 里做了实时中英翻译 bot 。他自己的解释很简单：\"在正确的时间遇到了一个正确的想法。\"\n\nVincent 来自刚成立两周的 OpenClaw Foundation 。Foundation 接过了 OpenClaw 的技术治理和社区运营，Vincent 是这个新组织里直接面对开发者的主要负责人。\n\n![]( https://img.36krcdn.com/hsossms/20260514/v2_6c385b378ff0440a8ce675e56c3c5f92@5091053_oswg28500oswg750oswg500_img_000?x-oss-process=image/format,jpg/interlace,1)\n\n 我们和他们讨论了在这半年中，真正困扰用户的问题：**CLI 的交互方式会不会变？安全谁在负责？ Token 账单怎么才能不失控？以及，OpenClaw 在中国到底打算做什么？**\n\n 以下是完整访谈实录。\n\n**1 、OpenClaw 最初是给谁设计的？面对涌入的非技术用户，你们会做什么？除了 CLI 之外还会有别的交互方式吗？**\n\n**Josh**：说实话，这个项目从来不是为大众而生的。它最初只是我想解决自己问题的一次尝试——我想让某个有意思的软件能在自己的手机和电脑上跑，然后我把它分享到了网上，没想到就长成了今天这个样子。它不是为大众设计的，是为一个用户设计的，那个用户就是我自己。\n\n 看到这么多非技术背景的用户涌进来，我是真的觉得很神奇。能让这么多人第一次接触到人工智能，这本身就已经很了不起了。\n\n 我个人认为，AI 应该以你想要的任何方式工作——终端、手机消息、在家里用，哪里方便就在哪里。这才是最好的 AI 交互方式。\n\n 但也正因为如此，这件事非常有挑战。我们在支持一个几乎涵盖所有人的生态，没法只针对某一类特定用户去做优化。CLI 之外具体会走向哪里，我现在还没法给你一个明确的答案。\n\n**2 、对没有 Coding 背景的普通用户来说，安全是有盲区的。OpenClaw 在 safety 方面接下来打算做什么？**\n\n**Vincent**：这确实是一个值得认真对待的问题。我们这几个月在安全方面做了大量工作——确保 OpenClaw 在启动和运行时是安全的，包括沙盒化等具体手段。\n\n 与此同时，我们也在和一些科技公司、模型公司合作，他们提供的方案已经内置了正确的安全配置，普通用户不需要自己去操心这些。\n\n 因为代码是开源的，任何人都可以看到它怎么工作。我们从全球社区得到了大量贡献，大家一起帮我们把安全做得更好。开源本身，反而是一种安全保障。\n\n 这是开源模式真正的优势之一——漏洞很难藏着，因为所有人都在看。\n\n**追问：主要是你们在做，还是 OpenAI 的 Safety 部门在做？**\n\n**Vincent**：安全是整个社区和维护者共同在承担。\n\n**3 、OpenClaw 的账单对用户来说基本不可控。接下来会做工程层面的优化，让用户用更少 Token 完成更多事情吗？**\n\n**Josh**：我把这个问题看作一个暂时性问题。说实话，我自己的策略有点\"特权\"——我就是尽可能多花钱买 token ，来得到我想要的结果，然后赌 token 成本会下降。\n\n 我自己消耗的 token 数量是很夸张的：几十亿级别，而且大部分不是 OpenClaw ，是写代码。我点一下按钮，token 就消失了，额度降下去，然后我就得切到另一个账号，不停登录、退出、再登录，体验很糟糕。\n\n**如果 OpenAI 的人在看，请做一个原生的账号切换器，这样我就能付给你们更多钱了。**\n\n 关于长期趋势，我有物理学背景，所以我的判断是：随着中国等国家在可再生能源上大量投入，算力成本会持续走低，token 价格也会跟着下来。18 世纪钢铁越多能造的东西越多，今天是同一个道理。\n\n 我就是尽可能多花钱买 token ，来得到我想要的结果，然后赌 token 成本会下降。这是我的个人看法，对于现在正在花钱的人来说，这显然不是一个很好的答案\n\n**不过他也有一个对所有用户都实用的建议：你写提示词的方式，直接决定了你花多少 token 。**\n\n 我累的时候经常就这么写：'你能把这个东西修好吗？我只想让它能跑起来，别的我不管。'以我的经验，这样通常会得到很差的结果——又贵又没用。但如果我认真组织提示词、把上下文喂进去，结果好很多，消耗也更可控。没那么好玩，工作量也大很多，但值得。\n\n**Vincent**：从工程层面，我们这几个月很多工作都在专注于精度和准确性，这在某种程度上是以 token 消耗为代价的——某些场景下大量使用 token 是不可避免的。但我们也在持续推进，让 Agent 不要在同一个问题上反复耗费时间。\n\n 我们也看到模型公司（包括中国的）在大量改善模型效率，订阅计划等方式也在出现，来帮助用户控制总成本。这个领域会持续改善，我们对此有信心。\n\n**4 、应用公司做了大量工程化工作，但每次模型更新就被覆盖了。你们怎么看应用和模型之间的边界？ OpenClaw 自己怎么应对？**\n\nVincent：我们从一开始就把 OpenClaw 设计成一个支持几乎所有主流模型的底层核心系统。我们不针对某一个特定模型去做优化——我们和整个生态合作，让模型公司自己来决定他们的模型怎么在我们这里呈现最佳效果，他们可以直接向我们贡献代码。这是我们觉得最好的方式。\n\n 我们不会去绑定某一个模型。我们和生态系统合作，这是最好的方法。\n\n 但我也坦承，有一个具体的挑战我们还在研究：如果你有一个 Skill 在某个模型上效果很好，换了另一个模型就不行了——当你切换模型的时候，这些信息怎么能同样好用？这个问题没有简单的答案。\n\n 不过这个项目才存在几个月，还非常早期。但我们会持续看到这个领域的改善，我对此有信心。\n\n**5 、技术趋势从通用 Agent 走向主动式 Agent ，但经济账依然算不过来。你觉得下一代 Agent 会进化成什么样？如果用一个词定义？**\n\n**Vincent**：这是个有挑战性的问题。老实说，模型公司在做什么我没法控制。我能说的是，我们会尽力确保 OpenClaw 以最好的方式运行。但这本身就是挑战——我们有太多不同的模型选项，要让它对每个人都完美是不可能的。我可以对 OpenClaw 做一个改动，对某人来说效果很好，但对另一个人体验就很差。这在定义上就是个挑战。\n\n 下一代 Agent 是什么？**如果要用一个词来定义下一代 Agent——我的答案是：Self-evolving ，自我迭代。**\n\n 我觉得我们已经在用了。如果你把 OpenClaw 想成一个脚手架应用：你在看某个问题，发现问题，它可以创建代码，可以修改自身。对我来说，这就是自我迭代的定义。不是未来时，是现在时。\n\n**6 、如果中国的能源成本持续下降，假设 Token 无限接近于免费，中国的 Agent 生态会走出一条完全不同的路吗？**\n\n**Josh**：在美国，OpenClaw 给我的感觉非常偏消费者，大多数人用它做个人 bot ，管理自己的生活和事务；围绕 OpenClaw 做产品的公司，也是在把它卖给个人用户。而在中国，是很多大公司把业务直接跑在 OpenClaw 上。这是他在其他地方不太常见的。\n\n 中国非常快、非常快、非常快。如果缺了什么功能，中国用户当天就会 hack 进去把它做出来。这种发展速度真的令我大开眼界。在欧洲，这种事绝对不可能发生。\n\n 还有一个让我印象非常深刻的是深圳市政府在帮助市民部署 OpenClaw ，老人、年轻人在街区外排队，让拿着笔记本电脑的人帮他们安装。\n\n 中国对它感兴趣的人群非常多元，更像普通人，是一个很宽的社会横截面。硅谷是某一种旧金山式的人群：在创业公司或科技行业工作，这只是社会中很小的一部分。\n\n 我兄弟住在俄亥俄州托莱多，我不觉得你能在那儿找到很多 OpenClaw 用户。但在中国，我觉得你可能去很多不同的地方，都会遇到一些你没想到会用 OpenClaw 的人。\n\n**7 、你们在中国的下一步是什么？打算和开源社区合作、还是云公司、还是企业？有没有具体的计划？**\n\n**Josh**：我没法告诉你任何具体的东西——我不能说我们下一个要谈的是哪家公司。为什么？因为这不是我能决定的事，也不是我现在能做主的。我不是官方代表，我不来自基金会，我不是在替他们发言。\n\n 但有几件事我可以说。第一，我们注意到中国有一个很实际的问题：很多大公司拿了某一天的最新版本，就一直跑那个版本。一旦做了 hard fork ，之后的更新就非常困难。我们来这里，很重要的一个目的就是和他们交流，了解这些问题，改进我们的流程。\n\n 我们希望给大家提供长期 LTS 版本，也就是长期支持版本，这样它足够稳定，大家能长期基于它构建，而不是接口协议一直变化。\n\n 第二，我们注意到中国用户非常分散——有很多微信群，但没有一个统一的地方。我们希望找到一个中心化的位置，能在一个地方和整个社区交流，这样改进产品会容易很多。\n\n 第三，关于更大的组织层面：OpenClaw Foundation 大约两周前才刚成立，正在招人，在和公司、实验室建立连接，尝试把这些流程正式化。\n\n 我不太清楚那边具体发生了什么，Vincent 更清楚。但对话在继续，这对大家都有好处。我希望每个人都能有同等的高质量体验，能在这上面构建出有意思的产品。\n\n**8 、Discord 刚开的时候一下子涌进来 10 万人，完全是混乱的。你从那段经历里学到了什么？如果现在有人想做开源社区，你会给他什么建议？**\n\n**Josh**：我加入 OpenClaw 的时候，PR 编号是 39 和 40——那真的是非常早期。现在项目已经有大概 8 万个 PR 了。我不是 OpenClaw 的员工，也没有拿钱，我来这里只是因为觉得它很酷。\n\n1 月 1 日前后，Peter 邀请我加入，我成了维护者和 Discord 管理员。那简直是一片混乱——一个月内大概就有 10 万人涌进来了。\n\n 那完全不是有意为之的。我们没有说'来，我们要搞个大事情'——它就那么发生了，我们自己也完全懵了。前一千人进来的时候，我就已经觉得很疯狂了；然后一万，然后两万……你盯着那个数字，还是没法相信。\n\n 关于建议，核心判断是：网上 95%的人都是善意的，但总有人来捣乱。所以你必须行动——清晰地说出社区的初衷，透明、开放，把对的人在对的时间连接在一起，想清楚社区和项目真正的需求是什么。\n\n 整个项目没有社区就什么都不是。你可能有了不起的技术，但终究还是看人。\n\n 现在，我们已经在用 OpenClaw 来维护 OpenClaw 本身。\n\n 系统知道它自己怎么工作，知道大家在抱怨什么，知道哪里坏了。我们八个核心维护者之间有共享记忆机制，来保证它能更好的工作。\n\n 本文来自微信公众号[“硅星人 Pro”]( https://mp.weixin.qq.com/s/H2qrjgVxlm7N3YLEUtHyuQ)，作者：Yoky ，36 氪经授权发布。"

[职场话题] 怎么应对焦虑

v2ex · 2026-05-18 02:45:42+08:00 · tech

感觉 26 年，社会上有一种结构化焦虑，或者说这种焦虑被放大了，工作缺乏安全感。我觉得不仅仅是个人，就是经济不好，失业的或者在岗，都有焦虑。所以大家正在做的解决办法是啥？想讨论下，安抚下大多数人。我先来，散步。中午&晚上吃完饭独自一个人走走，属于自己的放空时间，又能晒晒太阳，吹吹风。

[开源] ai-memory：把 Cursor 对话记录自动提取成结构化知识库，新建对话无痛迁移上下文

LinuxDo 最新话题 · 2026-05-07 16:23:38+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出 hello欸喂巴蒂起因很简单------现在Cursor 用久了，工作区积累了一堆对话窗口，每次开新会话都要重新跟 AI 解释一遍背景。前阵子数了一下，我一个工作区里有 37 个对话，涉及差不多 20 个项目。技术决策、为什么选这个方案、哪些地方不能动全都在里面，想找出来基本等于从头翻一遍。然后做了这个工具。第一次跑，选了2 个对话提出了 519 条结构化记忆。怎么用先看看你有多少对话： npx ai-memory-cli list 然后选几个提取： npx ai-memory-cli extract --pick 3,2 工具自动检测你装了哪些 AI 编辑器（Cursor / Claude Code / Windsurf / Copilot / Codex 都支持），对选中的对话分块并行提取。结果按类型分：决策 / 架构 / 约定 / TODO / Issue，每条是一个独立 Markdown 文件，放在 .ai-memory/ 下面，git 可追踪。可视化界面： npx ai-memory-cli dashboard 提取出来能干什么可以生成 AGENTS.md： npx ai-memory-cli rules --target agents-md 把提取出来的决策和约定写成 AGENTS.md，Cursor / Claude Code 开新会话会自动读这个文件，AI 就不用你再解释背景了。也可以直接复制上下文给当前会话： npx ai-memory-cli context --copy 搜历史决策： npx ai-memory-cli recall "OAuth" Claude Code 用户还可以生成 Skills，按需动态加载，比 AGENTS.md 更省 token： npx ai-memory-cli rules --target skills 聊天记录里有 API key 或者内部域名的，加 --redact 会在发给 LLM 之前自动脱敏： npx ai-memory-cli extract --redact ai-memory 不需要改任何代码，聊天记录本来就在本地硬盘上，直接去读就好了。不配 API Key 也能用内置 DeepSeek-V4-Flash，限 2 个对话/次，体验完整流程够用： npx ai-memory-cli try # 试用，不改任何文件 npx ai-memory-cli extract GitHub： GitHub - hyxnj666-creator/ai-memory: Extract structured knowledge from Cursor & Claude Code conversations into git-trackable Markdown files · GitHub npm： npx ai-memory-cli （内置免费模型，不用配 API Key） MIT 协议欢迎试用，有问题直接提 Issue 或评论区聊。 1 个帖子 - 1 位参与者阅读完整话题

【开源推广】Notemd，企业级结构化知识库构建与管理工具

linux.do · 2026-05-05 15:26:24+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容： - 我的帖子已经打上开源推广标签：是 - 我的开源项目完整开源，无未开源部分：是 - 我的开源项目已链接认可 LINUX DO 社区：是 - 我帖子内的项目介绍，AI 生成或润色部分已截图发出：是 - 以上选择我承诺长期有效，并接受社区监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出【开源推广】不是让 AI 替你读论文，而是把论文一点点织进知识库：作为一名在读物理博士，我现在怎么用 Obsidian + Notemd 做论文深读与长期积累 ]( 【开源推广】不是让 AI 替你读论文，而是把论文一点点织进知识库：作为一名在读物理博士，我现在怎么用 Obsidian + Notemd 做论文深读与长期积累 ) 企业版的介绍，会更专注于技术层面与信息层面的探讨。首先是解决以下三个企业级知识库构建与维护的方面：你能不能把一堆资料里的关键信息深挖出来，而不是只做表层摘要你能不能把这些信息压成稳定的知识单元、结构图和可复用节点你能不能让强模型先把知识库打磨好，然后再让本地模型、小模型、便宜模型基于这些底层知识进行低成本应用如果从这个角度看， Notemd 真正有意思是它在尝试把知识挖掘、知识结构化和知识本地化这三件事，做成一条可持续复用的工作流。上次提过的先略过：这次重点看几条技术主线上一篇已经讲过这些内容，这里不展开：文件优先，知识直接落在 Obsidian vault 里不强绑单一 SaaS 或单一模型供应商支持多 provider、批处理、翻译和工作流按钮以及prompt自定义设置功能有连接测试、开发者诊断、传输回退和错误时间线这些还是重要，但这次我更想讲下面几条。 1. 它不是只会“搜一下然后总结”，而是更接近信息深挖器很多知识库工具的“研究”能力，本质上还是：搜索一下抓几段内容让模型写一段摘要这当然有用，但如果你真的在做企业知识库、研究资料库、技术 SOP 库、论文资料库，这样是不够的。 Notemd 除了有“网页研究与摘要”这类泛化能力，还提供了一个很适合做证据级提取的能力：提取特定原始内容。这个功能的意义其实很大。它允许你：预先定义一组问题让 AI 从当前笔记里逐字抽取能回答这些问题的原始内容选择逐块处理，或者合并成单次查询在保留原文的前提下再附加翻译普通摘要是把内容压缩给你看，提取原始内容则可以用于证据挖掘、证据回填和定向索引。如果把它放到企业知识库场景里，你会发现它很适合做这些事：从一堆规范文档里抽出“权限边界”“接口约束”“回滚条件” 从会议纪要里抽出“拍板决定”“未决问题”“负责人” 从论文或研究笔记里抽出“方法假设”“实验条件”“局限性” 从操作手册里抽出“触发条件”“异常分支”“人工介入点” 也就是说，它不是只帮你“看懂”，还在帮你把原始资料里的可用信息挖出来，变成后续知识整理的原材料。再加上它本来就有：网页研究与摘要根据标题生成内容生成前可选先做网络研究这让它更像一套“外部信息补充 + 内部原文证据提取”同时成立的工作流，而不是一个单纯的摘要按钮。 2. 它不是只给笔记加链接，而是在做知识点的“单元化” 很多人第一次看到 Notemd ，可能会把它理解成“给 Markdown 自动加 [[wiki-links]] 的工具”。但如果只这么看，其实低估了它。它真正有价值的部分，在于它把知识点逐步拆成可以独立存在、独立维护、独立复用的单元。这方面至少分四层：第一层：自动链接最直观的就是处理文档时自动识别核心概念，为原文补上 [[wiki-links]] 。这一步看起来简单，但它做的是把原本一整块线性文本，先切出第一批潜在知识节点。第二层：概念笔记生成识别出概念以后，它还能自动创建概念笔记，并且支持：只生成最简概念笔记给概念笔记加“链接来源”反向链接自定义概念笔记输出路径不修改原文，只做纯概念提取这意味着你不是只能在原文上做标记，而是可以把知识点真正拆出来，变成自己的知识节点。第三层：治理知识点一旦开始自动生成，马上会出现另一个问题：重复、歧义、命名漂移。 Notemd 已经内置了相对务实的治理能力，比如：重复概念检查检查并删除重复概念笔记可配置输出路径和命名概念日志与错误日志这类能力在长期维护的知识库里非常关键。"生成"没有"可控"重要，特别是支持针对特定知识库内进行选择性生成，这在进行知识库管理时尤为重要。第四层：把知识进一步压成结构图很多工具做到概念节点这一步就停了， Notemd 更进一步的地方在于，它不是只输出文字，还能把理解压成图结构。它现在不只支持 Mermaid，还走到了更有意思的一步： Mermaid JSON Canvas Vega-Lite 而且这里最值得说的技术点不是“支持图表”，而是它的图表思路不是简单地让模型直接吐 Mermaid，而是既针对Mermaid做了数百个测试的鲁棒性优化，又设计了 DiagramSpec 这种规格优先的结构层。 3. 规格优先的图表生成，是这个项目很容易被忽视的创新点我自己比较在意这个点。很多 AI 工具做知识结构图，逻辑都是：给模型一段文本让模型直接输出 Mermaid Mermaid 报错了再修这当然能用，但它有个天然问题：模型的“理解结果”和“渲染语法”是耦合在一起的。一旦模型在语法层面出错，你很难判断问题到底出在理解还是出在表达。 Notemd 这里更工程的是：先让 LLM 产出结构化的 DiagramSpec JSON 再由解析和渲染层去落成 Mermaid / Canvas / Vega-Lite 这件事的意义其实很大：把“理解”与“渲染语法”解耦把知识结构从某一种具体图语法里抽出来让未来的结构迁移、结构复用和多渲染目标输出更自然如果从知识库建设的角度看，这已经不是“AI 帮我画图”了，而是在做一种更稳定的知识结构表达中间层。这也解释了为什么我会把它看作知识工程项目，而不是普通的 Obsidian AI 小插件。另外这里我可以强调一下为什么要针对Mermaid做深入调优：首先，我们后续的结构优化与设计都是为了做ai基建准备的，是面向LLM的，这是前提；其次，我们知道，LLM的原生语言(面向人类)之一是Markdown，那么Mermaid就是结构化、图形化的原生语言(面向人类)，传统的图形格式对LLM会有多模态的要求，但Mermaid就是在文本上高质量地传递结构化思想，这是我觉得很值得投入工作优化的原因。 4. 它的“本地化”不只是支持中文，而是把知识尽量沉到本地工作台里这里谈一下上个贴子中没有展开说的部分：很多人说本地化，第一反应是“有没有中文界面”“能不能翻译成中文”。 Notemd 当前支持数十种语言，除此之外： UI locale 和任务输出语言分离为不同任务单独设语言全文翻译和批量翻译翻译 Mermaid 输出非翻译任务保留原文语境但更关键的是，它让知识的组织和继续加工尽量留在本地工作台：输出回写到本地 vault 概念笔记、翻译稿、图表文件都保留为真实文件 provider 配置可以设备本地保存可以接 Ollama 、 LM Studio 这类本地模型也可以接各种 OpenAI Compatible 网关这意味着什么？意味着你可以把“强模型做重活，本地模型做续航”这件事，真正放进同一套知识工作台里，而不是每次都重新搭环境。 5. 我最看重的一个点：它在工作流层面支持“强模型反补弱模型” 这里我想专门展开一下，因为这可能是这类项目里最容易被低估的价值。先说清楚： Notemd 不是训练框架或参数蒸馏工具，不会直接帮你 finetune 小模型，也不是说你装完以后就自动拥有“蒸馏能力”。但从工作流的角度看，它确实天然支持一种很实用的事情：让强模型先把高质量知识语料打磨出来，再让弱模型或本地模型在这个基础上继续工作。我把这个过程理解成一种“知识层蒸馏”或者“工作流层蒸馏”。甚至是一种针对LLM的反向知识挖掘：第一步：让强模型干高认知负担的活例如：网页研究与摘要从长文里抽概念并建立链接生成较高质量的概念笔记抽取原始证据段落生成更稳定的结构化图表规格做双语或多语的第一版知识整理这一步最贵，但也最值钱。因为它决定了你的知识库起点质量。第二步：把这些结果沉成可复用语料沉淀下来的不是一次性的回答，而是： Markdown 原文和整理稿概念笔记反向链接提取出的证据文本 Mermaid / Canvas / Vega-Lite 产物双语版本或本地语言版本这批东西某种意义上就是经过强模型“加工过的高质量语料”。第三步：让弱模型或本地模型拓展后续低成本工作，让高质量语料反补模型例如：在已经结构化好的语料上继续做批量翻译在已有概念节点上做增量整理在本地知识库里做低成本问答和扩展生成用本地模型继续维护、修补、格式化和轻量总结为什么这样有意义？因为弱模型最怕的不是参数少，而是输入太乱、语境太差、结构太散。当强模型已经先把资料变成较干净的知识节点、双语文本、结构图和概念网络以后，后面的弱模型其实是在更优质的地基上工作。这并不是模型权重层面的蒸馏，但在实际使用里，效果经常和“把强模型的理解能力外化成可复用语料”很接近。而 Notemd 的价值就在于：它把这个过程落成文件、流程和可持续维护的知识库，而不是停留在一次聊天结果里。再加上它本来就支持：不同任务用不同 provider / model 本地模型与云模型并存输出路径、语言、日志和工作流可配置所以这套“强模型先开荒，弱模型后续拓展”的思路，在它这里不是概念，而是比较自然能落地的。更重要的是，在多人物游戏领域、移动端、本地部署等领域，对这类高质量语料反补弱模型是具有天然依赖性的，通过低成本高密度的结构化思想，利用轻量级或底层的多级RAG方案，实现agent世界的低成本优化与管理，这是具有极高价值的。 6. 从技术实现上看，它是有分层的知识处理系统如果只看表面，很容易把这类插件理解成“几个 prompt + 一个侧边栏”。但 Notemd 更扎实的地方在于，它其实已经有几层比较清楚的工程分层：多 provider 注册与统一传输任务级 provider / model 路由重试、连接测试、协议感知流式回退批处理并发、批次间隔、API 调用间隔控制概念提取、研究摘要、翻译、Mermaid 修复等任务层 DiagramSpec -> Renderer 的结构层这意味着它不是只在“提示词写得巧不巧”这一层做文章，而是在把知识处理链路本身做成可控制、可诊断、可拆分的系统。这点对于企业知识库很重要。因为一旦你要处理的是持续增长的知识资产，而不是一两篇笔记，工程性迟早会变成核心问题。最后如果你想要的只是“让 AI 帮我写一段摘要”，那市面上选择很多。但如果你想做的是下面这条链路：资料 -> 深挖 -> 概念单元 -> 结构图 -> 双语/本地化 -> 持续维护 -> 本地或弱模型继续拓展与完善那我觉得 Notemd 的方向是很值得看的。它真正专注的是，它在尝试把模型的理解能力，扩展为可维护、可迁移、可继续加工的知识工程系统，是知识库架构的底座，可以与知识库一起生长发展（MIT协议），如果有进一步讨论与需求，可以站内或者github联系我，欢迎提交PR和issue。下一步的短期计划，完善CLI支持，支持更多图格式。如果觉得喜欢有所收获就支持一下吧! 欢迎Star与讨论项目地址： GitHub: notemd github项目 Obsidian Community Plugin: 搜索 Notemd credit.linux.do LINUX DO Credit Linux Do 社区积分服务平台 1 个帖子 - 1 位参与者阅读完整话题

我的结构化饮食

linux.do · 2026-04-29 14:26:24+08:00 · tech

结构化饮食早：花生酱抹全麦面包+泡熟鸡蛋的豆浆中：一两面+蔬菜汤，肉包蛋与鸡胸肉交替加餐晚：猪肘饭+蛋菜汤细节早：拿一张纸垫掰开的面包（抹刀切太慢与不平）用抹刀抹花生酱，合上后在上面抹剩下的酱，豆浆先接一点冷水，倒粉用抹刀初步搅拌，再接热水至2/3，放入熟鸡蛋，抹刀在面包上抹干净后放到包装袋，吃完面包用抹刀控制蛋入口以免呛到，吃蛋时顺便接水以免太干，并吃粒维生素中：面汤不喝喝菜汤，菜汤多捞菜，加餐泡在菜汤里热一下，豌豆可以打，泡菜少打，回来买了黄瓜就吃一根晚：饭不要卤汤，蛋菜汤多捞菜，肥肉不吃，猪皮可以吃，饭不吃完留1/5。狼牙土豆、炒河粉、凉面、油焖茄子、辣拌黄瓜尽量不吃，要吃限制三块或一小撮，有海带丝可以夹海带丝 1 个帖子 - 1 位参与者阅读完整话题

/tag/结构化