最近我给自己搭了一套自动化流程:每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目,然后自动筛选、整理、生成中文摘要,最后沉淀成日报。 这套系统的目标很简单: 不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿,而是让 AI Agent 每天帮我完成第一轮信息筛选。 我用的是 OpenClaw ,主要让它承担三件事: 定时抓取 arXiv 最新论文和 GitHub 热门项目; 按主题、质量和工程价值做过滤; 自动生成中文摘要、深度解读和每日归档。 这篇文章简单分享一下系统是怎么搭的,以及目前踩到的一些坑。 1. 为什么要做这套东西? 如果你关注 AI 工程化,信息源会非常碎: arXiv 每天都有大量新论文; GitHub Trending 每天都有新项目冒出来; Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告; 很多有价值的项目不是一开始就爆火,而是在小范围技术圈里先出现。 手动追踪的问题是: 很容易漏掉重要论文; GitHub Trending 噪声很大,很多项目只是短期热闹; 标题和 README 经常看起来很强,但实际工程价值一般; 每天都刷一遍非常耗时间。 所以我想做一个自动化系统,先让 Agent 帮我做“第一轮粗筛”,把候选论文和项目整理出来,再对其中高价值内容做中文精读。 2. 整体架构 目前流程大概是这样: 定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发 核心不是“抓取”,抓取其实不难。真正麻烦的是: 怎么过滤垃圾信息; 怎么避免每天重复写同一个方向; 怎么判断一个项目是不是真的值得看; 怎么让生成内容尽量可验证,而不是 AI 胡编。 3. 论文部分:从 arXiv 候选到中文精读 论文侧主要关注这些方向: RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ,例如: cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分 每篇论文进入候选池后,会先做基础解析: 标题 作者 arXiv ID 摘要 分类 发布时间 PDF 链接 关键词 然后做几层过滤: 主题相关性 :是否和 AI 工程化、RAG 、搜索、Agent 等方向有关; 新鲜度 :优先最近 1 个月,越新越优先; 机构/作者可信度 :顶级实验室、大厂、知名高校会加权,但不绝对迷信; 工程价值 :有没有方法、框架、评测或实践启发; 重复度 :是否和之前已经写过的主题过于接近。 通过过滤后,Agent 会读取论文摘要、PDF 或 HTML 版本,生成结构化产物: paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ,因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分:不只看 Star ,更看工程价值 GitHub Trending 的噪声非常大。 有些项目一天几千 Star ,但可能只是: 一个简单 UI 壳子; 复刻已有项目; README 写得很夸张; Demo 很漂亮,但代码不可复用; Star 暴涨,但最近维护质量一般。 所以我没有只按 Star 排序,而是做了几个维度: Star 总数; 最近增长速度; 最近 commit 活跃度; README 是否清晰; 是否有真实代码结构; 是否有 license ; 是否有 release / examples / docs ; 是否和 RAG 、Agent 、搜索、LLM 应用工程相关; 是否解决真实工程痛点。 一个项目进入精读流程前,至少要检查: repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害,大家快去看”的营销文,而是能回答几个问题: 它解决了什么问题? 它和已有方案相比有什么不同? 它的架构或实现有什么可复用点? 它现在成熟吗?适不适合生产使用? 如果我要试用,第一步应该看哪里? 5. 为什么用 OpenClaw ? 我需要的不是单次 ChatGPT 问答,而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点: 可以读写本地工作区文件; 可以跑脚本、定时任务; 可以维护长期记忆和每日日志; 可以把流程拆给多个子 Agent ; 可以把产物写成 Markdown / JSON / SQLite ; 可以接入公众号草稿、Discord 、QQ 等通知渠道。 换句话说,它更像一个“能干活的个人自动化工作台”,而不是只会聊天的模型。 当然,最重要的是:所有自动生成内容都要有检查门禁。比如: 没有来源链接不能进正式稿; 没读 primary source 不能写深度解读; 不能出现“待补充”“TODO”“正式发布前请检查”这类占位词; 标题不能为了吸引点击而歪曲论文或项目本意; GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出 现在我的目标是每天产出两类内容: 论文精读 :偏研究方法、技术路线、评测和启发; GitHub 项目精读 :偏架构、代码、工程价值和可落地性。 每日内容会先进入本地归档,再进入公众号草稿箱,最后人工检查后发布。 我也准备把其中一部分公开成 GitHub 仓库,作为每日 AI 论文和 GitHub Trending 的中文索引: 每日论文列表; 每日热门项目列表; 中文简介; 原始链接; 主题标签; 后续可能补充脚本。 完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤,否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤 如果 prompt 不约束,论文解读很容易变成: 本文提出了一种创新方法,显著提升了性能,具有重要意义。 这种话基本没信息量。 所以我现在要求每篇都必须回答: 方法具体是什么; 输入输出是什么; 对比基线是什么; 适用边界是什么; 工程上能学到什么。 7.3 需要保留证据文件 自动化写作最怕“看起来很完整,但来源不可查”。 所以每个 slot 都会保留来源文件,例如: arXiv 链接; PDF 链接; GitHub repo 链接; README 摘要; 关键文件路径; 生成时的判断理由。 这样后面出了问题可以回溯。 7.4 公众号不是终点,归档和分发更重要 如果内容只存在公众号里,后续搜索和复用都不方便。 所以我会同时保留: Markdown 版本; JSON 元数据; SQLite 主账本; GitHub 公开索引; 后续可能加网页展示。 8. 后续计划 接下来我想继续做几件事: 开源每日论文和 GitHub Trending 中文索引仓库; 加入更细的主题分类,比如 RAG 、Agent 、Search 、Evaluation ; 对高价值论文做系列化追踪; 对 GitHub 项目增加“可运行性”和“维护质量”评分; 把日报沉淀成一个可搜索的 AI 工程知识库。 如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报,欢迎交流。 我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。 最后放一句软广:如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地,可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。 也把文章放在了 github: https://github.com/AltenLi/daily-paper-github-trends
最近我给自己搭了一套自动化流程:每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目,然后自动筛选、整理、生成中文摘要,最后沉淀成日报。 这套系统的目标很简单: 不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿,而是让 AI Agent 每天帮我完成第一轮信息筛选。 我用的是 OpenClaw ,主要让它承担三件事: 定时抓取 arXiv 最新论文和 GitHub 热门项目; 按主题、质量和工程价值做过滤; 自动生成中文摘要、深度解读和每日归档。 这篇文章简单分享一下系统是怎么搭的,以及目前踩到的一些坑。 1. 为什么要做这套东西? 如果你关注 AI 工程化,信息源会非常碎: arXiv 每天都有大量新论文; GitHub Trending 每天都有新项目冒出来; Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告; 很多有价值的项目不是一开始就爆火,而是在小范围技术圈里先出现。 手动追踪的问题是: 很容易漏掉重要论文; GitHub Trending 噪声很大,很多项目只是短期热闹; 标题和 README 经常看起来很强,但实际工程价值一般; 每天都刷一遍非常耗时间。 所以我想做一个自动化系统,先让 Agent 帮我做“第一轮粗筛”,把候选论文和项目整理出来,再对其中高价值内容做中文精读。 2. 整体架构 目前流程大概是这样: 定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发 核心不是“抓取”,抓取其实不难。真正麻烦的是: 怎么过滤垃圾信息; 怎么避免每天重复写同一个方向; 怎么判断一个项目是不是真的值得看; 怎么让生成内容尽量可验证,而不是 AI 胡编。 3. 论文部分:从 arXiv 候选到中文精读 论文侧主要关注这些方向: RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ,例如: cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分 每篇论文进入候选池后,会先做基础解析: 标题 作者 arXiv ID 摘要 分类 发布时间 PDF 链接 关键词 然后做几层过滤: 主题相关性 :是否和 AI 工程化、RAG 、搜索、Agent 等方向有关; 新鲜度 :优先最近 1 个月,越新越优先; 机构/作者可信度 :顶级实验室、大厂、知名高校会加权,但不绝对迷信; 工程价值 :有没有方法、框架、评测或实践启发; 重复度 :是否和之前已经写过的主题过于接近。 通过过滤后,Agent 会读取论文摘要、PDF 或 HTML 版本,生成结构化产物: paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ,因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分:不只看 Star ,更看工程价值 GitHub Trending 的噪声非常大。 有些项目一天几千 Star ,但可能只是: 一个简单 UI 壳子; 复刻已有项目; README 写得很夸张; Demo 很漂亮,但代码不可复用; Star 暴涨,但最近维护质量一般。 所以我没有只按 Star 排序,而是做了几个维度: Star 总数; 最近增长速度; 最近 commit 活跃度; README 是否清晰; 是否有真实代码结构; 是否有 license ; 是否有 release / examples / docs ; 是否和 RAG 、Agent 、搜索、LLM 应用工程相关; 是否解决真实工程痛点。 一个项目进入精读流程前,至少要检查: repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害,大家快去看”的营销文,而是能回答几个问题: 它解决了什么问题? 它和已有方案相比有什么不同? 它的架构或实现有什么可复用点? 它现在成熟吗?适不适合生产使用? 如果我要试用,第一步应该看哪里? 5. 为什么用 OpenClaw ? 我需要的不是单次 ChatGPT 问答,而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点: 可以读写本地工作区文件; 可以跑脚本、定时任务; 可以维护长期记忆和每日日志; 可以把流程拆给多个子 Agent ; 可以把产物写成 Markdown / JSON / SQLite ; 可以接入公众号草稿、Discord 、QQ 等通知渠道。 换句话说,它更像一个“能干活的个人自动化工作台”,而不是只会聊天的模型。 当然,最重要的是:所有自动生成内容都要有检查门禁。比如: 没有来源链接不能进正式稿; 没读 primary source 不能写深度解读; 不能出现“待补充”“TODO”“正式发布前请检查”这类占位词; 标题不能为了吸引点击而歪曲论文或项目本意; GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出 现在我的目标是每天产出两类内容: 论文精读 :偏研究方法、技术路线、评测和启发; GitHub 项目精读 :偏架构、代码、工程价值和可落地性。 每日内容会先进入本地归档,再进入公众号草稿箱,最后人工检查后发布。 我也准备把其中一部分公开成 GitHub 仓库,作为每日 AI 论文和 GitHub Trending 的中文索引: 每日论文列表; 每日热门项目列表; 中文简介; 原始链接; 主题标签; 后续可能补充脚本。 完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤,否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤 如果 prompt 不约束,论文解读很容易变成: 本文提出了一种创新方法,显著提升了性能,具有重要意义。 这种话基本没信息量。 所以我现在要求每篇都必须回答: 方法具体是什么; 输入输出是什么; 对比基线是什么; 适用边界是什么; 工程上能学到什么。 7.3 需要保留证据文件 自动化写作最怕“看起来很完整,但来源不可查”。 所以每个 slot 都会保留来源文件,例如: arXiv 链接; PDF 链接; GitHub repo 链接; README 摘要; 关键文件路径; 生成时的判断理由。 这样后面出了问题可以回溯。 7.4 公众号不是终点,归档和分发更重要 如果内容只存在公众号里,后续搜索和复用都不方便。 所以我会同时保留: Markdown 版本; JSON 元数据; SQLite 主账本; GitHub 公开索引; 后续可能加网页展示。 8. 后续计划 接下来我想继续做几件事: 开源每日论文和 GitHub Trending 中文索引仓库; 加入更细的主题分类,比如 RAG 、Agent 、Search 、Evaluation ; 对高价值论文做系列化追踪; 对 GitHub 项目增加“可运行性”和“维护质量”评分; 把日报沉淀成一个可搜索的 AI 工程知识库。 如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报,欢迎交流。 我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。 最后放一句软广:如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地,可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。 也把文章放在了 github: https://github.com/AltenLi/daily-paper-github-trends
最近我给自己搭了一套自动化流程:每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目,然后自动筛选、整理、生成中文摘要,最后沉淀成日报。 这套系统的目标很简单: 不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿,而是让 AI Agent 每天帮我完成第一轮信息筛选。 我用的是 OpenClaw ,主要让它承担三件事: 定时抓取 arXiv 最新论文和 GitHub 热门项目; 按主题、质量和工程价值做过滤; 自动生成中文摘要、深度解读和每日归档。 这篇文章简单分享一下系统是怎么搭的,以及目前踩到的一些坑。 1. 为什么要做这套东西? 如果你关注 AI 工程化,信息源会非常碎: arXiv 每天都有大量新论文; GitHub Trending 每天都有新项目冒出来; Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告; 很多有价值的项目不是一开始就爆火,而是在小范围技术圈里先出现。 手动追踪的问题是: 很容易漏掉重要论文; GitHub Trending 噪声很大,很多项目只是短期热闹; 标题和 README 经常看起来很强,但实际工程价值一般; 每天都刷一遍非常耗时间。 所以我想做一个自动化系统,先让 Agent 帮我做“第一轮粗筛”,把候选论文和项目整理出来,再对其中高价值内容做中文精读。 2. 整体架构 目前流程大概是这样: 定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发 核心不是“抓取”,抓取其实不难。真正麻烦的是: 怎么过滤垃圾信息; 怎么避免每天重复写同一个方向; 怎么判断一个项目是不是真的值得看; 怎么让生成内容尽量可验证,而不是 AI 胡编。 3. 论文部分:从 arXiv 候选到中文精读 论文侧主要关注这些方向: RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ,例如: cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分 每篇论文进入候选池后,会先做基础解析: 标题 作者 arXiv ID 摘要 分类 发布时间 PDF 链接 关键词 然后做几层过滤: 主题相关性 :是否和 AI 工程化、RAG 、搜索、Agent 等方向有关; 新鲜度 :优先最近 1 个月,越新越优先; 机构/作者可信度 :顶级实验室、大厂、知名高校会加权,但不绝对迷信; 工程价值 :有没有方法、框架、评测或实践启发; 重复度 :是否和之前已经写过的主题过于接近。 通过过滤后,Agent 会读取论文摘要、PDF 或 HTML 版本,生成结构化产物: paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ,因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分:不只看 Star ,更看工程价值 GitHub Trending 的噪声非常大。 有些项目一天几千 Star ,但可能只是: 一个简单 UI 壳子; 复刻已有项目; README 写得很夸张; Demo 很漂亮,但代码不可复用; Star 暴涨,但最近维护质量一般。 所以我没有只按 Star 排序,而是做了几个维度: Star 总数; 最近增长速度; 最近 commit 活跃度; README 是否清晰; 是否有真实代码结构; 是否有 license ; 是否有 release / examples / docs ; 是否和 RAG 、Agent 、搜索、LLM 应用工程相关; 是否解决真实工程痛点。 一个项目进入精读流程前,至少要检查: repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害,大家快去看”的营销文,而是能回答几个问题: 它解决了什么问题? 它和已有方案相比有什么不同? 它的架构或实现有什么可复用点? 它现在成熟吗?适不适合生产使用? 如果我要试用,第一步应该看哪里? 5. 为什么用 OpenClaw ? 我需要的不是单次 ChatGPT 问答,而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点: 可以读写本地工作区文件; 可以跑脚本、定时任务; 可以维护长期记忆和每日日志; 可以把流程拆给多个子 Agent ; 可以把产物写成 Markdown / JSON / SQLite ; 可以接入公众号草稿、Discord 、QQ 等通知渠道。 换句话说,它更像一个“能干活的个人自动化工作台”,而不是只会聊天的模型。 当然,最重要的是:所有自动生成内容都要有检查门禁。比如: 没有来源链接不能进正式稿; 没读 primary source 不能写深度解读; 不能出现“待补充”“TODO”“正式发布前请检查”这类占位词; 标题不能为了吸引点击而歪曲论文或项目本意; GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出 现在我的目标是每天产出两类内容: 论文精读 :偏研究方法、技术路线、评测和启发; GitHub 项目精读 :偏架构、代码、工程价值和可落地性。 每日内容会先进入本地归档,再进入公众号草稿箱,最后人工检查后发布。 我也准备把其中一部分公开成 GitHub 仓库,作为每日 AI 论文和 GitHub Trending 的中文索引: 每日论文列表; 每日热门项目列表; 中文简介; 原始链接; 主题标签; 后续可能补充脚本。 完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤,否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤 如果 prompt 不约束,论文解读很容易变成: 本文提出了一种创新方法,显著提升了性能,具有重要意义。 这种话基本没信息量。 所以我现在要求每篇都必须回答: 方法具体是什么; 输入输出是什么; 对比基线是什么; 适用边界是什么; 工程上能学到什么。 7.3 需要保留证据文件 自动化写作最怕“看起来很完整,但来源不可查”。 所以每个 slot 都会保留来源文件,例如: arXiv 链接; PDF 链接; GitHub repo 链接; README 摘要; 关键文件路径; 生成时的判断理由。 这样后面出了问题可以回溯。 7.4 公众号不是终点,归档和分发更重要 如果内容只存在公众号里,后续搜索和复用都不方便。 所以我会同时保留: Markdown 版本; JSON 元数据; SQLite 主账本; GitHub 公开索引; 后续可能加网页展示。 8. 后续计划 接下来我想继续做几件事: 开源每日论文和 GitHub Trending 中文索引仓库; 加入更细的主题分类,比如 RAG 、Agent 、Search 、Evaluation ; 对高价值论文做系列化追踪; 对 GitHub 项目增加“可运行性”和“维护质量”评分; 把日报沉淀成一个可搜索的 AI 工程知识库。 如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报,欢迎交流。 我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。 最后放一句软广:如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地,可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。 也把文章放在了 github: https://github.com/AltenLi/daily-paper-github-trends
背景 现在 AI 圈每周都会出一些新的概念,根本来不及了解学习,而自己获取信息又比较散,因此周末写了一个 AI 信息网站 ,自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息,并且利用 AI GPT-4o 总结关键点并且翻译为中文。 每天早上去公司花 10 分钟左右,就可以浏览完最近的 AI 大事,解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点 引入了 GPT-4 来进行总结,而不是直接获取原文,让 GPT 来帮我总结提取最精炼的给到我,并且翻译为中文。 同时因为有时候怕自己忘记,就增加了邮件系统提醒自己,发到自己的工作邮箱,每天一早上就有红点提醒自己需要了解了 这个因为邮件服务商的限制,收件人有数量限制,所以如果有需要的大佬,可以私聊我 最后 写完这个项目之后,真的感慨 AI ,如果没有 AI 我就懒得麻烦了,干脆就一个一个看了。 有了 AI 一天就能写完,就能解决我的问题,真的很恐怖 最后如果对你有帮助,欢迎 star
背景 现在 AI 圈每周都会出一些新的概念,根本来不及了解学习,而自己获取信息又比较散,因此周末写了一个 AI 信息网站 ,自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息,并且利用 AI GPT-4o 总结关键点并且翻译为中文。 每天早上去公司花 10 分钟左右,就可以浏览完最近的 AI 大事,解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点 引入了 GPT-4 来进行总结,而不是直接获取原文,让 GPT 来帮我总结提取最精炼的给到我,并且翻译为中文。 同时因为有时候怕自己忘记,就增加了邮件系统提醒自己,发到自己的工作邮箱,每天一早上就有红点提醒自己需要了解了 这个因为邮件服务商的限制,收件人有数量限制,所以如果有需要的大佬,可以私聊我 最后 写完这个项目之后,真的感慨 AI ,如果没有 AI 我就懒得麻烦了,干脆就一个一个看了。 有了 AI 一天就能写完,就能解决我的问题,真的很恐怖 最后如果对你有帮助,欢迎 star
背景 现在 AI 圈每周都会出一些新的概念,根本来不及了解学习,而自己获取信息又比较散,因此周末写了一个 AI 信息网站 ,自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息,并且利用 AI GPT-4o 总结关键点并且翻译为中文。 每天早上去公司花 10 分钟左右,就可以浏览完最近的 AI 大事,解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点 引入了 GPT-4 来进行总结,而不是直接获取原文,让 GPT 来帮我总结提取最精炼的给到我,并且翻译为中文。 同时因为有时候怕自己忘记,就增加了邮件系统提醒自己,发到自己的工作邮箱,每天一早上就有红点提醒自己需要了解了 这个因为邮件服务商的限制,收件人有数量限制,所以如果有需要的大佬,可以私聊我 最后 写完这个项目之后,真的感慨 AI ,如果没有 AI 我就懒得麻烦了,干脆就一个一个看了。 有了 AI 一天就能写完,就能解决我的问题,真的很恐怖 最后如果对你有帮助,欢迎 star
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 背景 现在AI圈每周都会出一些新的概念,根本来不及了解学习,而自己获取信息又比较散,因此周末写了一个 AI信息网站 ,自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等AI信息,并且利用AI GPT-4o 总结关键点并且翻译为中文。 每天早上去公司花10分钟左右,就可以浏览完最近的AI大事,解决了自己的一大痛点 github.com GitHub - wenbochang888/github-trending-spider: 每日AI前沿信息。开源趋势、社区热议、AI 动态 每日AI前沿信息。开源趋势、社区热议、AI 动态 佬友们,第一次发推广,求star不违规吧 佬友们,自己VB的东西,没人star 没人看,大家都是怎么办的 搞七捻三 23k star的巨佬,感觉初期可能star可以满足自己的一点虚荣心,可能后期,花了时间花了心思,赚钱才是硬道理 最让我满意的点 引入了GPT-4 来进行总结,而不是直接获取原文,让GPT来帮我总结提取最精炼的给到我,并且翻译为中文。 同时因为有时候怕自己忘记,就增加了邮件系统提醒自己,发到自己的工作邮箱,每天一早上就有红点提醒自己需要了解了 这个因为邮件服务商的限制,收件人有数量限制,所以如果有需要的佬友,可以私聊我 最后 写完这个项目之后,真的感慨AI,如果没有AI我就懒得麻烦了,干脆就一个一个看了。 有了AI一天就能写完,就能解决我的问题,真的很恐怖 最后如果对你有帮助,欢迎star 6 个帖子 - 2 位参与者 阅读完整话题
背景 现在 AI 圈每周都会出一些新的概念,根本来不及了解学习,而自己获取信息又比较散,因此周末写了一个 AI 信息网站 ,自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息,并且利用 AI GPT-4o 总结关键点并且翻译为中文。 每天早上去公司花 10 分钟左右,就可以浏览完最近的 AI 大事,解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点 引入了 GPT-4 来进行总结,而不是直接获取原文,让 GPT 来帮我总结提取最精炼的给到我,并且翻译为中文。 同时因为有时候怕自己忘记,就增加了邮件系统提醒自己,发到自己的工作邮箱,每天一早上就有红点提醒自己需要了解了 这个因为邮件服务商的限制,收件人有数量限制,所以如果有需要的大佬,可以私聊我 最后 写完这个项目之后,真的感慨 AI ,如果没有 AI 我就懒得麻烦了,干脆就一个一个看了。 有了 AI 一天就能写完,就能解决我的问题,真的很恐怖 最后如果对你有帮助,欢迎 star
刚刚一直有人在我的github项目上issue中发表评论,说什么stars异常,还说什么trending项目,一大堆,我真是不理解,它们的目的是什么的?我现在就是把评论删除, 佬们我该如何处理 “一周增长了 4493 Star” 我一共才多少stars 10 个帖子 - 8 位参与者 阅读完整话题
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 1. 项目简介 DailyBrief 是一个每日新闻简报工具。会每天定时通过RSS/API抓23个数据源,调 LLM生成中文摘要,渲染成一份日报。可跑在本地也可以直接部署在github action上。 项目地址 : github.com GitHub - leiting-eric/DailyBrief: AI 每日新闻简报 · GitHub 热门 + X 热门文章 + 行情技术分析 · 23... AI 每日新闻简报 · GitHub 热门 + X 热门文章 + 行情技术分析 · 23 个数据源聚合 + LLM 中文摘要 · 本地或 GitHub Actions 部署 效果演示 leiting-eric.github.io 每日简报 · 2026-05-22 如果佬友们觉得有帮助的话欢迎大家star或者fork 2. 数据源 23 个源分布在 5 个分类: 技术动态 GitHub Trending每日热门的项目 X上AI相关最近7日的精选文章 其他AI媒体合集:OpenAI/DeepMind/Hugging Face/TLDR AI/Smol AI/Latent Space/MIT Tech Review 市场行情 (非新闻源,21 个标的) 美股/ETF:SPY / QQQ / AAPL / NVDA / TSLA / META … 加密:BTC / ETH / SOL(带恐慌贪婪指数) 中港:BABA / PDD / 0700.HK 等 商品/宏观:黄金 / 原油 / VIX / 10Y 美债 / DXY 时政观察 BBC / Guardian / NYT / NPR / DW 中文 / Al Jazeera / The Diplomat 的 World 频道 财经要点 Bloomberg / WSJ / FT / BBC Business / Economist 社区讨论 (zh 模式) LinuxDo —— 通过站点公开的 RSS feed ( linux.do/top.rss ) 抓取,UA 标识 DailyBriefBot/1.0 ,每天一次。代码见 lib/sources/linuxdo.ts 。如果用法不合适请直接告诉我,立刻下线。 V2EX —— 走官方 /api/topics/show.json 接口 en 模式下中文社区源会自动隐藏,替换成 Hacker News + r/stocks。 3. 部署方式及成本 三种部署方式任选其一: 方式 适合 时间 Fork 到 GitHub Actions + Pages 无需服务器、免费托管 ~5 分钟 本地一行命令装 有常开的机器 ~3 分钟 仓库地址丢给 AI agent 自己装 想省事的人 一句话 前置条件 :Node 20+(仅本地需要)+ 任一 LLM(Claude Code CLI 已登录 / Anthropic / OpenAI / DeepSeek / MiniMax API key)。 成本 : 基础设施(GitHub Actions + Pages 公开 repo) :完全免费 LLM 调用 (按部署方式分两种情况): 本地部署 + 复用 Claude Code 订阅 :$0额外花费 GitHub Actions + 配 DeepSeek 后端: 每月不到3块人民币 数据源 API key : 0个 (全部走免费公开端点) 4. 实现 单文件 HTML 输出 :CSS + JS 全部内联,~110KB,scp 上服务器直接当首页。不打算上 SPA / Next.js / 任何 build 链。 没有数据库 :每天一个目录 daily_reports/2026-05-22/ ,里面 .html (主输出)+ .json (缓存)+ -articles.json (缓存)。改了 CSS 不满意 → npm run render 1 秒重渲染 ,不用重抓不用重调 LLM。 LLM 后端可换 :5 个后端用一个 LLM_BACKEND 环境变量切换,prompt 抽离在 lib/ai/prompts.ts ,对 backend 完全透明。 数据源在JSON里 : sources.config.json 是唯一配置入口,加源 / 禁源 / 改分类不用改 TS 代码。 时区精确触发 :GH Actions 的 cron 只支持 UTC,所以工作流每小时跑一次,里面有个 gate 任务用 REPORT_TZ 判断当前小时是否匹配 REPORT_HOUR 。 夏令时自动跟 (IANA 时区库)。 5. 起因 & 一些感言 刚开始接触 AI 编程的时候,总焦虑两件事:一是看到的知识不知道是不是已经过时,二是没有合适的idea上手。即便看过一些官方教程,也老担心自己用这些工具的方式已经落后了。 最近也受朋友影响开始研究交易,除了收集一些市场行情外也开始关注一些时政相关的讯息。这个过程中我感觉信息涉及的面多了之后,重复去收集会很麻烦,所以做了这个工具。 因为知识面还不够广,数据源可能也还是不够好,工具本身也没做几天还不够成熟,各位佬友们看看有没有什么好的改进的建议,这也是我第一次在L站发帖,有什么不合规的地方我也再看着改一下。如果大家觉得这个项目有帮助到你的话,欢迎去仓库地址给个star,感激不尽! 5 个帖子 - 3 位参与者 阅读完整话题
接之前话题 https://linux.do/t/topic/1623235?u=CJackHwang 最近发现star数涨得老快了 然后就上Trending了,梁圣会不会制裁我啊 很感谢大家的支持和反馈啊,于是我连更两天把项目优化了亿下 最新的版本是v4.1.1-2,与之前版本比起来现在除了上下文有时候不太敏感以外,现在几乎接近原生API的水平了 不吹牛吧,试过就知道,我觉得至少应该是目前DeepSeek2API里面工具调用效果最好的,没有之一 具体实现思路项目内有非常详细的技术文档 入口在 ds2api/docs/README.md at dev · CJackHwang/ds2api · GitHub 重点看 github.com/CJackHwang/ds2api docs%2Fprompt-compatibility.md dev # API -> 网页对话纯文本兼容主链路说明 文档导航:[总览](../README.MD) / [架构说明](./ARCHITECTURE.md) / [接口文档](../API.md) / [测试指南](./TESTING.md) > 本文档是 DS2API“把 OpenAI / Claude / Gemini 风格 API 请求兼容成 DeepSeek 网页对话纯文本上下文”的专项说明。 > 这是项目最重要的兼容产物之一。凡是修改消息标准化、tool prompt 注入、tool history 保留、文件引用、current input file / legacy history_split、下游 completion payload 组装等行为,都必须同步更新本文档。 ## 1. 核心结论 DS2API 当前的核心思路,不是把客户端传来的 `messages`、`tools`、`attachments` 原样转发给下游。 而是把这些高层 API 语义,统一压缩成 DeepSeek 网页对话更容易理解的三类输入: 1. `prompt` 一个单字符串,里面带有角色标记、system 指令、历史消息、assistant reasoning 标签、历史 tool call XML 等。 2. `ref_file_ids` 一个文件引用数组,承载附件、inline 上传文件,以及必要时被拆出去的历史文件。 3. 控制位 例如 `thinking_enabled`、`search_enabled`、部分 passthrough 参数。 此文件已被截断。 显示原始文件 github.com/CJackHwang/ds2api docs%2Ftoolcall-semantics.md dev # Tool call parsing semantics(Go/Node 统一语义) 本文档描述当前代码中的**实际行为**,以 `internal/toolcall`、`internal/toolstream` 与 `internal/js/helpers/stream-tool-sieve` 为准。 文档导航:[总览](../README.MD) / [架构说明](./ARCHITECTURE.md) / [测试指南](./TESTING.md) ## 1) 当前可执行格式 当前版本推荐模型输出 DSML 外壳: ```xml <|DSML|tool_calls> <|DSML|invoke name="read_file"> <|DSML|parameter name="path"><![CDATA[README.MD]]></|DSML|parameter> </|DSML|invoke> </|DSML|tool_calls> ``` 兼容层仍接受旧式 canonical XML: 此文件已被截断。 显示原始文件 这两个文档 希望我项目工程实现对大家有启发 用DeepSeek在本项目接cc从0-1写的react博客系统 工具调用部分 参考了官方v4技术文档 然后再结合外部我们的解析器和上下文工程实现比较稳定的输出 我们项目现在也默认启用内置的Max思考注入 后台可以关闭 9 个帖子 - 9 位参与者 阅读完整话题