WWW.YOUINFO.SITE
标签聚合 一套

/tag/一套

v2ex · 2026-06-11 11:53:53+08:00 · tech

大家好,我这边是做广告招牌、门头招牌、发光字、灯箱、标识标牌这类业务的。 现在想做一套线上系统,初步想法是: 一套系统,两种入口: * 客户在微信里可以通过小程序使用; * 手机端最好也能有一个独立 App ; * 小程序和 App 共用同一套后台数据。 目前需求还没有完全确定,所以想先在这里了解一下,这类系统如果找人开发,大概需要多少钱,报价范围一般是多少。 我们现在想到的功能大概如下。 ⸻ 一、客户端功能 客户进入小程序或 App 后,可以: 1. 查看企业介绍; 2. 查看广告牌产品、门头招牌、发光字、灯箱、标识标牌案例; 3. 选择需求类型,比如门头招牌、楼顶广告牌、发光字、灯箱、标识系统等; 4. 提交定制需求,包括尺寸、材质、安装位置、预算、期望完工时间; 5. 上传门店照片、现场照片、参考图; 6. 填写联系人、电话、微信、安装地址; 7. 提交后等待客服报价或联系; 8. 查看自己的需求、订单或工单状态; 9. 查看师傅上传的安装前、安装后照片; 10. 如果需要,也可以查看完工视频; 11. 确认验收,或者提交售后问题。 ⸻ 二、公司后台功能 后台这边希望可以: 1. 查看客户提交的需求; 2. 将客户需求转为订单或安装工单; 3. 补充报价、安装要求、预计安装时间; 4. 分配安装师傅; 5. 管理产品、案例、客户资料; 6. 查看工单状态,比如待处理、待派单、待安装、安装中、待验收、已完成、售后中; 7. 查看师傅上传的图片、视频、备注; 8. 审核完工结果; 9. 导出工单记录; 10. 统计订单量、完工量、师傅任务量、客户来源等数据。 ⸻ 三、师傅端功能 师傅最好也能通过小程序使用,不一定要单独做 App 。 师傅登录后可以: 1. 查看分配给自己的安装任务; 2. 查看客户姓名、电话、地址、安装要求; 3. 更新任务状态,比如已接单、出发、到达、安装中、已完工; 4. 上传安装前照片; 5. 上传安装中照片; 6. 上传安装后照片; 7. 上传短视频,如果一期需要的话; 8. 填写备注、异常说明、材料变更说明; 9. 提交完工,等待后台审核。 ⸻ 想请教大家几个问题 1. 这种系统如果做一版可用的 MVP ,大概需要多少钱? 2. 如果小程序 + 后台先做,独立 App 后面再做,报价大概会差多少? 3. 这种项目适合找个人开发、外包团队,还是软件公司? 4. 哪些功能适合一期做,哪些功能可以放到二期? 5. 如果涉及图片、视频上传,后续存储和服务器成本大概怎么估算? 6. 有没有类似项目的开发经验可以参考? 我现在不是特别懂软件开发,所以想先了解一个大概的市场价格范围,避免一开始需求没想清楚就被报得太高,或者报价太低后面做不出来。 欢迎有经验的朋友给点建议,也欢迎做过类似系统的开发者简单说一下大概报价区间。谢谢。

v2ex · 2026-06-11 10:43:32+08:00 · tech

大家好,我这边是做广告招牌、门头招牌、发光字、灯箱、标识标牌这类业务的。 现在想做一套线上系统,初步想法是: 一套系统,两种入口: * 客户在微信里可以通过小程序使用; * 手机端最好也能有一个独立 App ; * 小程序和 App 共用同一套后台数据。 目前需求还没有完全确定,所以想先在这里了解一下,这类系统如果找人开发,大概需要多少钱,报价范围一般是多少。 我们现在想到的功能大概如下。 ⸻ 一、客户端功能 客户进入小程序或 App 后,可以: 1. 查看企业介绍; 2. 查看广告牌产品、门头招牌、发光字、灯箱、标识标牌案例; 3. 选择需求类型,比如门头招牌、楼顶广告牌、发光字、灯箱、标识系统等; 4. 提交定制需求,包括尺寸、材质、安装位置、预算、期望完工时间; 5. 上传门店照片、现场照片、参考图; 6. 填写联系人、电话、微信、安装地址; 7. 提交后等待客服报价或联系; 8. 查看自己的需求、订单或工单状态; 9. 查看师傅上传的安装前、安装后照片; 10. 如果需要,也可以查看完工视频; 11. 确认验收,或者提交售后问题。 ⸻ 二、公司后台功能 后台这边希望可以: 1. 查看客户提交的需求; 2. 将客户需求转为订单或安装工单; 3. 补充报价、安装要求、预计安装时间; 4. 分配安装师傅; 5. 管理产品、案例、客户资料; 6. 查看工单状态,比如待处理、待派单、待安装、安装中、待验收、已完成、售后中; 7. 查看师傅上传的图片、视频、备注; 8. 审核完工结果; 9. 导出工单记录; 10. 统计订单量、完工量、师傅任务量、客户来源等数据。 ⸻ 三、师傅端功能 师傅最好也能通过小程序使用,不一定要单独做 App 。 师傅登录后可以: 1. 查看分配给自己的安装任务; 2. 查看客户姓名、电话、地址、安装要求; 3. 更新任务状态,比如已接单、出发、到达、安装中、已完工; 4. 上传安装前照片; 5. 上传安装中照片; 6. 上传安装后照片; 7. 上传短视频,如果一期需要的话; 8. 填写备注、异常说明、材料变更说明; 9. 提交完工,等待后台审核。 ⸻ 想请教大家几个问题 1. 这种系统如果做一版可用的 MVP ,大概需要多少钱? 2. 如果小程序 + 后台先做,独立 App 后面再做,报价大概会差多少? 3. 这种项目适合找个人开发、外包团队,还是软件公司? 4. 哪些功能适合一期做,哪些功能可以放到二期? 5. 如果涉及图片、视频上传,后续存储和服务器成本大概怎么估算? 6. 有没有类似项目的开发经验可以参考? 我现在不是特别懂软件开发,所以想先了解一个大概的市场价格范围,避免一开始需求没想清楚就被报得太高,或者报价太低后面做不出来。 欢迎有经验的朋友给点建议,也欢迎做过类似系统的开发者简单说一下大概报价区间。谢谢。

LinuxDo 最新话题 · 2026-06-10 13:42:32+08:00 · tech

我看最近各位佬都对微信自动回复消息的。我最近 做了一套微信中转。 不是玩具 demo,是现在已经在跑的那种。 它能做几件事: 接住微信里的消息 群聊、私聊都能进来,不需要人一直盯着窗口。 按项目归档 项目群里的进度、缺料、问题点、到货、延期,会自动沉淀成可追踪状态。不是靠记忆,不是靠聊天记录翻半天。 需要时才回复 普通消息可以只记录不打扰。被明确叫到时,才让 AI 介入回复。 能把上下文带上 不是每次都像第一次见面。它知道这是哪个群、哪个项目、哪个人、之前有哪些问题没闭环。 能检查自己有没有活着 服务、连接、消息通道、设备状态、项目数据,都有健康检查。坏了不会靠猜。 和主系统隔离 中转是独立插件,不绑死在主程序里。主系统升级不应该影响它,它自己也可以单独升级、回滚、修复。 7.非hook,目前方案稳定,自动化操作就两步完成。 有兴趣的可以共同开发完善并且一起交流。 17 个帖子 - 12 位参与者 阅读完整话题

v2ex · 2026-06-10 12:12:56+08:00 · tech

最近我给自己搭了一套自动化流程:每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目,然后自动筛选、整理、生成中文摘要,最后沉淀成日报。 这套系统的目标很简单: 不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿,而是让 AI Agent 每天帮我完成第一轮信息筛选。 我用的是 OpenClaw ,主要让它承担三件事: 定时抓取 arXiv 最新论文和 GitHub 热门项目; 按主题、质量和工程价值做过滤; 自动生成中文摘要、深度解读和每日归档。 这篇文章简单分享一下系统是怎么搭的,以及目前踩到的一些坑。 1. 为什么要做这套东西? 如果你关注 AI 工程化,信息源会非常碎: arXiv 每天都有大量新论文; GitHub Trending 每天都有新项目冒出来; Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告; 很多有价值的项目不是一开始就爆火,而是在小范围技术圈里先出现。 手动追踪的问题是: 很容易漏掉重要论文; GitHub Trending 噪声很大,很多项目只是短期热闹; 标题和 README 经常看起来很强,但实际工程价值一般; 每天都刷一遍非常耗时间。 所以我想做一个自动化系统,先让 Agent 帮我做“第一轮粗筛”,把候选论文和项目整理出来,再对其中高价值内容做中文精读。 2. 整体架构 目前流程大概是这样: 定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发 核心不是“抓取”,抓取其实不难。真正麻烦的是: 怎么过滤垃圾信息; 怎么避免每天重复写同一个方向; 怎么判断一个项目是不是真的值得看; 怎么让生成内容尽量可验证,而不是 AI 胡编。 3. 论文部分:从 arXiv 候选到中文精读 论文侧主要关注这些方向: RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ,例如: cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分 每篇论文进入候选池后,会先做基础解析: 标题 作者 arXiv ID 摘要 分类 发布时间 PDF 链接 关键词 然后做几层过滤: 主题相关性 :是否和 AI 工程化、RAG 、搜索、Agent 等方向有关; 新鲜度 :优先最近 1 个月,越新越优先; 机构/作者可信度 :顶级实验室、大厂、知名高校会加权,但不绝对迷信; 工程价值 :有没有方法、框架、评测或实践启发; 重复度 :是否和之前已经写过的主题过于接近。 通过过滤后,Agent 会读取论文摘要、PDF 或 HTML 版本,生成结构化产物: paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ,因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分:不只看 Star ,更看工程价值 GitHub Trending 的噪声非常大。 有些项目一天几千 Star ,但可能只是: 一个简单 UI 壳子; 复刻已有项目; README 写得很夸张; Demo 很漂亮,但代码不可复用; Star 暴涨,但最近维护质量一般。 所以我没有只按 Star 排序,而是做了几个维度: Star 总数; 最近增长速度; 最近 commit 活跃度; README 是否清晰; 是否有真实代码结构; 是否有 license ; 是否有 release / examples / docs ; 是否和 RAG 、Agent 、搜索、LLM 应用工程相关; 是否解决真实工程痛点。 一个项目进入精读流程前,至少要检查: repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害,大家快去看”的营销文,而是能回答几个问题: 它解决了什么问题? 它和已有方案相比有什么不同? 它的架构或实现有什么可复用点? 它现在成熟吗?适不适合生产使用? 如果我要试用,第一步应该看哪里? 5. 为什么用 OpenClaw ? 我需要的不是单次 ChatGPT 问答,而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点: 可以读写本地工作区文件; 可以跑脚本、定时任务; 可以维护长期记忆和每日日志; 可以把流程拆给多个子 Agent ; 可以把产物写成 Markdown / JSON / SQLite ; 可以接入公众号草稿、Discord 、QQ 等通知渠道。 换句话说,它更像一个“能干活的个人自动化工作台”,而不是只会聊天的模型。 当然,最重要的是:所有自动生成内容都要有检查门禁。比如: 没有来源链接不能进正式稿; 没读 primary source 不能写深度解读; 不能出现“待补充”“TODO”“正式发布前请检查”这类占位词; 标题不能为了吸引点击而歪曲论文或项目本意; GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出 现在我的目标是每天产出两类内容: 论文精读 :偏研究方法、技术路线、评测和启发; GitHub 项目精读 :偏架构、代码、工程价值和可落地性。 每日内容会先进入本地归档,再进入公众号草稿箱,最后人工检查后发布。 我也准备把其中一部分公开成 GitHub 仓库,作为每日 AI 论文和 GitHub Trending 的中文索引: 每日论文列表; 每日热门项目列表; 中文简介; 原始链接; 主题标签; 后续可能补充脚本。 完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤,否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤 如果 prompt 不约束,论文解读很容易变成: 本文提出了一种创新方法,显著提升了性能,具有重要意义。 这种话基本没信息量。 所以我现在要求每篇都必须回答: 方法具体是什么; 输入输出是什么; 对比基线是什么; 适用边界是什么; 工程上能学到什么。 7.3 需要保留证据文件 自动化写作最怕“看起来很完整,但来源不可查”。 所以每个 slot 都会保留来源文件,例如: arXiv 链接; PDF 链接; GitHub repo 链接; README 摘要; 关键文件路径; 生成时的判断理由。 这样后面出了问题可以回溯。 7.4 公众号不是终点,归档和分发更重要 如果内容只存在公众号里,后续搜索和复用都不方便。 所以我会同时保留: Markdown 版本; JSON 元数据; SQLite 主账本; GitHub 公开索引; 后续可能加网页展示。 8. 后续计划 接下来我想继续做几件事: 开源每日论文和 GitHub Trending 中文索引仓库; 加入更细的主题分类,比如 RAG 、Agent 、Search 、Evaluation ; 对高价值论文做系列化追踪; 对 GitHub 项目增加“可运行性”和“维护质量”评分; 把日报沉淀成一个可搜索的 AI 工程知识库。 如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报,欢迎交流。 我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。 最后放一句软广:如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地,可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。 也把文章放在了 github: https://github.com/AltenLi/daily-paper-github-trends

v2ex · 2026-06-10 12:12:56+08:00 · tech

最近我给自己搭了一套自动化流程:每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目,然后自动筛选、整理、生成中文摘要,最后沉淀成日报。 这套系统的目标很简单: 不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿,而是让 AI Agent 每天帮我完成第一轮信息筛选。 我用的是 OpenClaw ,主要让它承担三件事: 定时抓取 arXiv 最新论文和 GitHub 热门项目; 按主题、质量和工程价值做过滤; 自动生成中文摘要、深度解读和每日归档。 这篇文章简单分享一下系统是怎么搭的,以及目前踩到的一些坑。 1. 为什么要做这套东西? 如果你关注 AI 工程化,信息源会非常碎: arXiv 每天都有大量新论文; GitHub Trending 每天都有新项目冒出来; Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告; 很多有价值的项目不是一开始就爆火,而是在小范围技术圈里先出现。 手动追踪的问题是: 很容易漏掉重要论文; GitHub Trending 噪声很大,很多项目只是短期热闹; 标题和 README 经常看起来很强,但实际工程价值一般; 每天都刷一遍非常耗时间。 所以我想做一个自动化系统,先让 Agent 帮我做“第一轮粗筛”,把候选论文和项目整理出来,再对其中高价值内容做中文精读。 2. 整体架构 目前流程大概是这样: 定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发 核心不是“抓取”,抓取其实不难。真正麻烦的是: 怎么过滤垃圾信息; 怎么避免每天重复写同一个方向; 怎么判断一个项目是不是真的值得看; 怎么让生成内容尽量可验证,而不是 AI 胡编。 3. 论文部分:从 arXiv 候选到中文精读 论文侧主要关注这些方向: RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ,例如: cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分 每篇论文进入候选池后,会先做基础解析: 标题 作者 arXiv ID 摘要 分类 发布时间 PDF 链接 关键词 然后做几层过滤: 主题相关性 :是否和 AI 工程化、RAG 、搜索、Agent 等方向有关; 新鲜度 :优先最近 1 个月,越新越优先; 机构/作者可信度 :顶级实验室、大厂、知名高校会加权,但不绝对迷信; 工程价值 :有没有方法、框架、评测或实践启发; 重复度 :是否和之前已经写过的主题过于接近。 通过过滤后,Agent 会读取论文摘要、PDF 或 HTML 版本,生成结构化产物: paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ,因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分:不只看 Star ,更看工程价值 GitHub Trending 的噪声非常大。 有些项目一天几千 Star ,但可能只是: 一个简单 UI 壳子; 复刻已有项目; README 写得很夸张; Demo 很漂亮,但代码不可复用; Star 暴涨,但最近维护质量一般。 所以我没有只按 Star 排序,而是做了几个维度: Star 总数; 最近增长速度; 最近 commit 活跃度; README 是否清晰; 是否有真实代码结构; 是否有 license ; 是否有 release / examples / docs ; 是否和 RAG 、Agent 、搜索、LLM 应用工程相关; 是否解决真实工程痛点。 一个项目进入精读流程前,至少要检查: repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害,大家快去看”的营销文,而是能回答几个问题: 它解决了什么问题? 它和已有方案相比有什么不同? 它的架构或实现有什么可复用点? 它现在成熟吗?适不适合生产使用? 如果我要试用,第一步应该看哪里? 5. 为什么用 OpenClaw ? 我需要的不是单次 ChatGPT 问答,而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点: 可以读写本地工作区文件; 可以跑脚本、定时任务; 可以维护长期记忆和每日日志; 可以把流程拆给多个子 Agent ; 可以把产物写成 Markdown / JSON / SQLite ; 可以接入公众号草稿、Discord 、QQ 等通知渠道。 换句话说,它更像一个“能干活的个人自动化工作台”,而不是只会聊天的模型。 当然,最重要的是:所有自动生成内容都要有检查门禁。比如: 没有来源链接不能进正式稿; 没读 primary source 不能写深度解读; 不能出现“待补充”“TODO”“正式发布前请检查”这类占位词; 标题不能为了吸引点击而歪曲论文或项目本意; GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出 现在我的目标是每天产出两类内容: 论文精读 :偏研究方法、技术路线、评测和启发; GitHub 项目精读 :偏架构、代码、工程价值和可落地性。 每日内容会先进入本地归档,再进入公众号草稿箱,最后人工检查后发布。 我也准备把其中一部分公开成 GitHub 仓库,作为每日 AI 论文和 GitHub Trending 的中文索引: 每日论文列表; 每日热门项目列表; 中文简介; 原始链接; 主题标签; 后续可能补充脚本。 完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤,否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤 如果 prompt 不约束,论文解读很容易变成: 本文提出了一种创新方法,显著提升了性能,具有重要意义。 这种话基本没信息量。 所以我现在要求每篇都必须回答: 方法具体是什么; 输入输出是什么; 对比基线是什么; 适用边界是什么; 工程上能学到什么。 7.3 需要保留证据文件 自动化写作最怕“看起来很完整,但来源不可查”。 所以每个 slot 都会保留来源文件,例如: arXiv 链接; PDF 链接; GitHub repo 链接; README 摘要; 关键文件路径; 生成时的判断理由。 这样后面出了问题可以回溯。 7.4 公众号不是终点,归档和分发更重要 如果内容只存在公众号里,后续搜索和复用都不方便。 所以我会同时保留: Markdown 版本; JSON 元数据; SQLite 主账本; GitHub 公开索引; 后续可能加网页展示。 8. 后续计划 接下来我想继续做几件事: 开源每日论文和 GitHub Trending 中文索引仓库; 加入更细的主题分类,比如 RAG 、Agent 、Search 、Evaluation ; 对高价值论文做系列化追踪; 对 GitHub 项目增加“可运行性”和“维护质量”评分; 把日报沉淀成一个可搜索的 AI 工程知识库。 如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报,欢迎交流。 我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。 最后放一句软广:如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地,可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。 也把文章放在了 github: https://github.com/AltenLi/daily-paper-github-trends

v2ex · 2026-06-10 11:39:32+08:00 · tech

最近我给自己搭了一套自动化流程:每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目,然后自动筛选、整理、生成中文摘要,最后沉淀成日报。 这套系统的目标很简单: 不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿,而是让 AI Agent 每天帮我完成第一轮信息筛选。 我用的是 OpenClaw ,主要让它承担三件事: 定时抓取 arXiv 最新论文和 GitHub 热门项目; 按主题、质量和工程价值做过滤; 自动生成中文摘要、深度解读和每日归档。 这篇文章简单分享一下系统是怎么搭的,以及目前踩到的一些坑。 1. 为什么要做这套东西? 如果你关注 AI 工程化,信息源会非常碎: arXiv 每天都有大量新论文; GitHub Trending 每天都有新项目冒出来; Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告; 很多有价值的项目不是一开始就爆火,而是在小范围技术圈里先出现。 手动追踪的问题是: 很容易漏掉重要论文; GitHub Trending 噪声很大,很多项目只是短期热闹; 标题和 README 经常看起来很强,但实际工程价值一般; 每天都刷一遍非常耗时间。 所以我想做一个自动化系统,先让 Agent 帮我做“第一轮粗筛”,把候选论文和项目整理出来,再对其中高价值内容做中文精读。 2. 整体架构 目前流程大概是这样: 定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发 核心不是“抓取”,抓取其实不难。真正麻烦的是: 怎么过滤垃圾信息; 怎么避免每天重复写同一个方向; 怎么判断一个项目是不是真的值得看; 怎么让生成内容尽量可验证,而不是 AI 胡编。 3. 论文部分:从 arXiv 候选到中文精读 论文侧主要关注这些方向: RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ,例如: cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分 每篇论文进入候选池后,会先做基础解析: 标题 作者 arXiv ID 摘要 分类 发布时间 PDF 链接 关键词 然后做几层过滤: 主题相关性 :是否和 AI 工程化、RAG 、搜索、Agent 等方向有关; 新鲜度 :优先最近 1 个月,越新越优先; 机构/作者可信度 :顶级实验室、大厂、知名高校会加权,但不绝对迷信; 工程价值 :有没有方法、框架、评测或实践启发; 重复度 :是否和之前已经写过的主题过于接近。 通过过滤后,Agent 会读取论文摘要、PDF 或 HTML 版本,生成结构化产物: paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ,因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分:不只看 Star ,更看工程价值 GitHub Trending 的噪声非常大。 有些项目一天几千 Star ,但可能只是: 一个简单 UI 壳子; 复刻已有项目; README 写得很夸张; Demo 很漂亮,但代码不可复用; Star 暴涨,但最近维护质量一般。 所以我没有只按 Star 排序,而是做了几个维度: Star 总数; 最近增长速度; 最近 commit 活跃度; README 是否清晰; 是否有真实代码结构; 是否有 license ; 是否有 release / examples / docs ; 是否和 RAG 、Agent 、搜索、LLM 应用工程相关; 是否解决真实工程痛点。 一个项目进入精读流程前,至少要检查: repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害,大家快去看”的营销文,而是能回答几个问题: 它解决了什么问题? 它和已有方案相比有什么不同? 它的架构或实现有什么可复用点? 它现在成熟吗?适不适合生产使用? 如果我要试用,第一步应该看哪里? 5. 为什么用 OpenClaw ? 我需要的不是单次 ChatGPT 问答,而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点: 可以读写本地工作区文件; 可以跑脚本、定时任务; 可以维护长期记忆和每日日志; 可以把流程拆给多个子 Agent ; 可以把产物写成 Markdown / JSON / SQLite ; 可以接入公众号草稿、Discord 、QQ 等通知渠道。 换句话说,它更像一个“能干活的个人自动化工作台”,而不是只会聊天的模型。 当然,最重要的是:所有自动生成内容都要有检查门禁。比如: 没有来源链接不能进正式稿; 没读 primary source 不能写深度解读; 不能出现“待补充”“TODO”“正式发布前请检查”这类占位词; 标题不能为了吸引点击而歪曲论文或项目本意; GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出 现在我的目标是每天产出两类内容: 论文精读 :偏研究方法、技术路线、评测和启发; GitHub 项目精读 :偏架构、代码、工程价值和可落地性。 每日内容会先进入本地归档,再进入公众号草稿箱,最后人工检查后发布。 我也准备把其中一部分公开成 GitHub 仓库,作为每日 AI 论文和 GitHub Trending 的中文索引: 每日论文列表; 每日热门项目列表; 中文简介; 原始链接; 主题标签; 后续可能补充脚本。 完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤,否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤 如果 prompt 不约束,论文解读很容易变成: 本文提出了一种创新方法,显著提升了性能,具有重要意义。 这种话基本没信息量。 所以我现在要求每篇都必须回答: 方法具体是什么; 输入输出是什么; 对比基线是什么; 适用边界是什么; 工程上能学到什么。 7.3 需要保留证据文件 自动化写作最怕“看起来很完整,但来源不可查”。 所以每个 slot 都会保留来源文件,例如: arXiv 链接; PDF 链接; GitHub repo 链接; README 摘要; 关键文件路径; 生成时的判断理由。 这样后面出了问题可以回溯。 7.4 公众号不是终点,归档和分发更重要 如果内容只存在公众号里,后续搜索和复用都不方便。 所以我会同时保留: Markdown 版本; JSON 元数据; SQLite 主账本; GitHub 公开索引; 后续可能加网页展示。 8. 后续计划 接下来我想继续做几件事: 开源每日论文和 GitHub Trending 中文索引仓库; 加入更细的主题分类,比如 RAG 、Agent 、Search 、Evaluation ; 对高价值论文做系列化追踪; 对 GitHub 项目增加“可运行性”和“维护质量”评分; 把日报沉淀成一个可搜索的 AI 工程知识库。 如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报,欢迎交流。 我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。 最后放一句软广:如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地,可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。 也把文章放在了 github: https://github.com/AltenLi/daily-paper-github-trends