Trending - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

[分享发现] 如何让 OpenClaw 自动追踪 AI 前沿论文和 GitHub Trending

v2ex · 2026-06-10 12:12:56+08:00 · tech

最近我给自己搭了一套自动化流程：每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目，然后自动筛选、整理、生成中文摘要，最后沉淀成日报。这套系统的目标很简单：不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿，而是让 AI Agent 每天帮我完成第一轮信息筛选。我用的是 OpenClaw ，主要让它承担三件事：定时抓取 arXiv 最新论文和 GitHub 热门项目；按主题、质量和工程价值做过滤；自动生成中文摘要、深度解读和每日归档。这篇文章简单分享一下系统是怎么搭的，以及目前踩到的一些坑。 1. 为什么要做这套东西？如果你关注 AI 工程化，信息源会非常碎： arXiv 每天都有大量新论文； GitHub Trending 每天都有新项目冒出来； Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告；很多有价值的项目不是一开始就爆火，而是在小范围技术圈里先出现。手动追踪的问题是：很容易漏掉重要论文； GitHub Trending 噪声很大，很多项目只是短期热闹；标题和 README 经常看起来很强，但实际工程价值一般；每天都刷一遍非常耗时间。所以我想做一个自动化系统，先让 Agent 帮我做“第一轮粗筛”，把候选论文和项目整理出来，再对其中高价值内容做中文精读。 2. 整体架构目前流程大概是这样：定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发核心不是“抓取”，抓取其实不难。真正麻烦的是：怎么过滤垃圾信息；怎么避免每天重复写同一个方向；怎么判断一个项目是不是真的值得看；怎么让生成内容尽量可验证，而不是 AI 胡编。 3. 论文部分：从 arXiv 候选到中文精读论文侧主要关注这些方向： RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ，例如： cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分每篇论文进入候选池后，会先做基础解析：标题作者 arXiv ID 摘要分类发布时间 PDF 链接关键词然后做几层过滤：主题相关性：是否和 AI 工程化、RAG 、搜索、Agent 等方向有关；新鲜度：优先最近 1 个月，越新越优先；机构/作者可信度：顶级实验室、大厂、知名高校会加权，但不绝对迷信；工程价值：有没有方法、框架、评测或实践启发；重复度：是否和之前已经写过的主题过于接近。通过过滤后，Agent 会读取论文摘要、PDF 或 HTML 版本，生成结构化产物： paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ，因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分：不只看 Star ，更看工程价值 GitHub Trending 的噪声非常大。有些项目一天几千 Star ，但可能只是：一个简单 UI 壳子；复刻已有项目； README 写得很夸张； Demo 很漂亮，但代码不可复用； Star 暴涨，但最近维护质量一般。所以我没有只按 Star 排序，而是做了几个维度： Star 总数；最近增长速度；最近 commit 活跃度； README 是否清晰；是否有真实代码结构；是否有 license ；是否有 release / examples / docs ；是否和 RAG 、Agent 、搜索、LLM 应用工程相关；是否解决真实工程痛点。一个项目进入精读流程前，至少要检查： repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害，大家快去看”的营销文，而是能回答几个问题：它解决了什么问题？它和已有方案相比有什么不同？它的架构或实现有什么可复用点？它现在成熟吗？适不适合生产使用？如果我要试用，第一步应该看哪里？ 5. 为什么用 OpenClaw ？我需要的不是单次 ChatGPT 问答，而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点：可以读写本地工作区文件；可以跑脚本、定时任务；可以维护长期记忆和每日日志；可以把流程拆给多个子 Agent ；可以把产物写成 Markdown / JSON / SQLite ；可以接入公众号草稿、Discord 、QQ 等通知渠道。换句话说，它更像一个“能干活的个人自动化工作台”，而不是只会聊天的模型。当然，最重要的是：所有自动生成内容都要有检查门禁。比如：没有来源链接不能进正式稿；没读 primary source 不能写深度解读；不能出现“待补充”“TODO”“正式发布前请检查”这类占位词；标题不能为了吸引点击而歪曲论文或项目本意； GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出现在我的目标是每天产出两类内容：论文精读：偏研究方法、技术路线、评测和启发； GitHub 项目精读：偏架构、代码、工程价值和可落地性。每日内容会先进入本地归档，再进入公众号草稿箱，最后人工检查后发布。我也准备把其中一部分公开成 GitHub 仓库，作为每日 AI 论文和 GitHub Trending 的中文索引：每日论文列表；每日热门项目列表；中文简介；原始链接；主题标签；后续可能补充脚本。完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤，否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤如果 prompt 不约束，论文解读很容易变成：本文提出了一种创新方法，显著提升了性能，具有重要意义。这种话基本没信息量。所以我现在要求每篇都必须回答：方法具体是什么；输入输出是什么；对比基线是什么；适用边界是什么；工程上能学到什么。 7.3 需要保留证据文件自动化写作最怕“看起来很完整，但来源不可查”。所以每个 slot 都会保留来源文件，例如： arXiv 链接； PDF 链接； GitHub repo 链接； README 摘要；关键文件路径；生成时的判断理由。这样后面出了问题可以回溯。 7.4 公众号不是终点，归档和分发更重要如果内容只存在公众号里，后续搜索和复用都不方便。所以我会同时保留： Markdown 版本； JSON 元数据； SQLite 主账本； GitHub 公开索引；后续可能加网页展示。 8. 后续计划接下来我想继续做几件事：开源每日论文和 GitHub Trending 中文索引仓库；加入更细的主题分类，比如 RAG 、Agent 、Search 、Evaluation ；对高价值论文做系列化追踪；对 GitHub 项目增加“可运行性”和“维护质量”评分；把日报沉淀成一个可搜索的 AI 工程知识库。如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报，欢迎交流。我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。最后放一句软广：如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地，可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。也把文章放在了 github： https://github.com/AltenLi/daily-paper-github-trends

[分享发现] 如何让 OpenClaw 自动追踪 AI 前沿论文和 GitHub Trending

v2ex · 2026-06-10 12:12:56+08:00 · tech

最近我给自己搭了一套自动化流程：每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目，然后自动筛选、整理、生成中文摘要，最后沉淀成日报。这套系统的目标很简单：不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿，而是让 AI Agent 每天帮我完成第一轮信息筛选。我用的是 OpenClaw ，主要让它承担三件事：定时抓取 arXiv 最新论文和 GitHub 热门项目；按主题、质量和工程价值做过滤；自动生成中文摘要、深度解读和每日归档。这篇文章简单分享一下系统是怎么搭的，以及目前踩到的一些坑。 1. 为什么要做这套东西？如果你关注 AI 工程化，信息源会非常碎： arXiv 每天都有大量新论文； GitHub Trending 每天都有新项目冒出来； Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告；很多有价值的项目不是一开始就爆火，而是在小范围技术圈里先出现。手动追踪的问题是：很容易漏掉重要论文； GitHub Trending 噪声很大，很多项目只是短期热闹；标题和 README 经常看起来很强，但实际工程价值一般；每天都刷一遍非常耗时间。所以我想做一个自动化系统，先让 Agent 帮我做“第一轮粗筛”，把候选论文和项目整理出来，再对其中高价值内容做中文精读。 2. 整体架构目前流程大概是这样：定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发核心不是“抓取”，抓取其实不难。真正麻烦的是：怎么过滤垃圾信息；怎么避免每天重复写同一个方向；怎么判断一个项目是不是真的值得看；怎么让生成内容尽量可验证，而不是 AI 胡编。 3. 论文部分：从 arXiv 候选到中文精读论文侧主要关注这些方向： RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ，例如： cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分每篇论文进入候选池后，会先做基础解析：标题作者 arXiv ID 摘要分类发布时间 PDF 链接关键词然后做几层过滤：主题相关性：是否和 AI 工程化、RAG 、搜索、Agent 等方向有关；新鲜度：优先最近 1 个月，越新越优先；机构/作者可信度：顶级实验室、大厂、知名高校会加权，但不绝对迷信；工程价值：有没有方法、框架、评测或实践启发；重复度：是否和之前已经写过的主题过于接近。通过过滤后，Agent 会读取论文摘要、PDF 或 HTML 版本，生成结构化产物： paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ，因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分：不只看 Star ，更看工程价值 GitHub Trending 的噪声非常大。有些项目一天几千 Star ，但可能只是：一个简单 UI 壳子；复刻已有项目； README 写得很夸张； Demo 很漂亮，但代码不可复用； Star 暴涨，但最近维护质量一般。所以我没有只按 Star 排序，而是做了几个维度： Star 总数；最近增长速度；最近 commit 活跃度； README 是否清晰；是否有真实代码结构；是否有 license ；是否有 release / examples / docs ；是否和 RAG 、Agent 、搜索、LLM 应用工程相关；是否解决真实工程痛点。一个项目进入精读流程前，至少要检查： repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害，大家快去看”的营销文，而是能回答几个问题：它解决了什么问题？它和已有方案相比有什么不同？它的架构或实现有什么可复用点？它现在成熟吗？适不适合生产使用？如果我要试用，第一步应该看哪里？ 5. 为什么用 OpenClaw ？我需要的不是单次 ChatGPT 问答，而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点：可以读写本地工作区文件；可以跑脚本、定时任务；可以维护长期记忆和每日日志；可以把流程拆给多个子 Agent ；可以把产物写成 Markdown / JSON / SQLite ；可以接入公众号草稿、Discord 、QQ 等通知渠道。换句话说，它更像一个“能干活的个人自动化工作台”，而不是只会聊天的模型。当然，最重要的是：所有自动生成内容都要有检查门禁。比如：没有来源链接不能进正式稿；没读 primary source 不能写深度解读；不能出现“待补充”“TODO”“正式发布前请检查”这类占位词；标题不能为了吸引点击而歪曲论文或项目本意； GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出现在我的目标是每天产出两类内容：论文精读：偏研究方法、技术路线、评测和启发； GitHub 项目精读：偏架构、代码、工程价值和可落地性。每日内容会先进入本地归档，再进入公众号草稿箱，最后人工检查后发布。我也准备把其中一部分公开成 GitHub 仓库，作为每日 AI 论文和 GitHub Trending 的中文索引：每日论文列表；每日热门项目列表；中文简介；原始链接；主题标签；后续可能补充脚本。完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤，否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤如果 prompt 不约束，论文解读很容易变成：本文提出了一种创新方法，显著提升了性能，具有重要意义。这种话基本没信息量。所以我现在要求每篇都必须回答：方法具体是什么；输入输出是什么；对比基线是什么；适用边界是什么；工程上能学到什么。 7.3 需要保留证据文件自动化写作最怕“看起来很完整，但来源不可查”。所以每个 slot 都会保留来源文件，例如： arXiv 链接； PDF 链接； GitHub repo 链接； README 摘要；关键文件路径；生成时的判断理由。这样后面出了问题可以回溯。 7.4 公众号不是终点，归档和分发更重要如果内容只存在公众号里，后续搜索和复用都不方便。所以我会同时保留： Markdown 版本； JSON 元数据； SQLite 主账本； GitHub 公开索引；后续可能加网页展示。 8. 后续计划接下来我想继续做几件事：开源每日论文和 GitHub Trending 中文索引仓库；加入更细的主题分类，比如 RAG 、Agent 、Search 、Evaluation ；对高价值论文做系列化追踪；对 GitHub 项目增加“可运行性”和“维护质量”评分；把日报沉淀成一个可搜索的 AI 工程知识库。如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报，欢迎交流。我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。最后放一句软广：如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地，可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。也把文章放在了 github： https://github.com/AltenLi/daily-paper-github-trends

[分享发现] 如何让 OpenClaw 自动追踪 AI 前沿论文和 GitHub Trending

v2ex · 2026-06-10 11:39:32+08:00 · tech

最近我给自己搭了一套自动化流程：每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目，然后自动筛选、整理、生成中文摘要，最后沉淀成日报。这套系统的目标很简单：不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿，而是让 AI Agent 每天帮我完成第一轮信息筛选。我用的是 OpenClaw ，主要让它承担三件事：定时抓取 arXiv 最新论文和 GitHub 热门项目；按主题、质量和工程价值做过滤；自动生成中文摘要、深度解读和每日归档。这篇文章简单分享一下系统是怎么搭的，以及目前踩到的一些坑。 1. 为什么要做这套东西？如果你关注 AI 工程化，信息源会非常碎： arXiv 每天都有大量新论文； GitHub Trending 每天都有新项目冒出来； Hugging Face 、OpenAI 、Anthropic 、Google 、Meta 、微软等团队会不定期发布模型、框架或技术报告；很多有价值的项目不是一开始就爆火，而是在小范围技术圈里先出现。手动追踪的问题是：很容易漏掉重要论文； GitHub Trending 噪声很大，很多项目只是短期热闹；标题和 README 经常看起来很强，但实际工程价值一般；每天都刷一遍非常耗时间。所以我想做一个自动化系统，先让 Agent 帮我做“第一轮粗筛”，把候选论文和项目整理出来，再对其中高价值内容做中文精读。 2. 整体架构目前流程大概是这样：定时任务 / Cron ↓ 数据源抓取 ├── arXiv API ├── GitHub Trending / GitHub API └── 其他公开信息源 ↓ 候选池入库 ↓ 规则过滤 + 去重 ↓ Agent 精读 / 摘要生成 ↓ Markdown / JSON / SQLite 归档 ↓ 公众号草稿 / GitHub 日报 / 后续分发核心不是“抓取”，抓取其实不难。真正麻烦的是：怎么过滤垃圾信息；怎么避免每天重复写同一个方向；怎么判断一个项目是不是真的值得看；怎么让生成内容尽量可验证，而不是 AI 胡编。 3. 论文部分：从 arXiv 候选到中文精读论文侧主要关注这些方向： RAG / Retrieval-Augmented Generation Search / Information Retrieval Agent / Tool Use / Function Calling Long Context Evaluation / Benchmark LLM Application Engineering Knowledge Base / Re-ranking / Query Understanding 数据源主要是 arXiv API ，例如： cs.AI cs.CL cs.IR cs.LG cs.CV 中和多模态检索、文档理解相关的部分每篇论文进入候选池后，会先做基础解析：标题作者 arXiv ID 摘要分类发布时间 PDF 链接关键词然后做几层过滤：主题相关性：是否和 AI 工程化、RAG 、搜索、Agent 等方向有关；新鲜度：优先最近 1 个月，越新越优先；机构/作者可信度：顶级实验室、大厂、知名高校会加权，但不绝对迷信；工程价值：有没有方法、框架、评测或实践启发；重复度：是否和之前已经写过的主题过于接近。通过过滤后，Agent 会读取论文摘要、PDF 或 HTML 版本，生成结构化产物： paper_slot/ deep_read_article.md deep_read_meta.json sources.md evidence-notes.md seo-title.json 我比较看重 sources.md 和 evidence-notes.md ，因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。 4. GitHub 部分：不只看 Star ，更看工程价值 GitHub Trending 的噪声非常大。有些项目一天几千 Star ，但可能只是：一个简单 UI 壳子；复刻已有项目； README 写得很夸张； Demo 很漂亮，但代码不可复用； Star 暴涨，但最近维护质量一般。所以我没有只按 Star 排序，而是做了几个维度： Star 总数；最近增长速度；最近 commit 活跃度； README 是否清晰；是否有真实代码结构；是否有 license ；是否有 release / examples / docs ；是否和 RAG 、Agent 、搜索、LLM 应用工程相关；是否解决真实工程痛点。一个项目进入精读流程前，至少要检查： repo_slot/ repo-evidence.json readme.md key-files.md sources.md deep_read_article.md seo-title.json 我希望最后生成的不是“这个项目很厉害，大家快去看”的营销文，而是能回答几个问题：它解决了什么问题？它和已有方案相比有什么不同？它的架构或实现有什么可复用点？它现在成熟吗？适不适合生产使用？如果我要试用，第一步应该看哪里？ 5. 为什么用 OpenClaw ？我需要的不是单次 ChatGPT 问答，而是一个能长期运行的个人自动化 Agent 。 OpenClaw 对我比较有用的点：可以读写本地工作区文件；可以跑脚本、定时任务；可以维护长期记忆和每日日志；可以把流程拆给多个子 Agent ；可以把产物写成 Markdown / JSON / SQLite ；可以接入公众号草稿、Discord 、QQ 等通知渠道。换句话说，它更像一个“能干活的个人自动化工作台”，而不是只会聊天的模型。当然，最重要的是：所有自动生成内容都要有检查门禁。比如：没有来源链接不能进正式稿；没读 primary source 不能写深度解读；不能出现“待补充”“TODO”“正式发布前请检查”这类占位词；标题不能为了吸引点击而歪曲论文或项目本意； GitHub 项目不能把 README 里的宣传语直接当事实。 6. 目前的每日输出现在我的目标是每天产出两类内容：论文精读：偏研究方法、技术路线、评测和启发； GitHub 项目精读：偏架构、代码、工程价值和可落地性。每日内容会先进入本地归档，再进入公众号草稿箱，最后人工检查后发布。我也准备把其中一部分公开成 GitHub 仓库，作为每日 AI 论文和 GitHub Trending 的中文索引：每日论文列表；每日热门项目列表；中文简介；原始链接；主题标签；后续可能补充脚本。完整版的深度解读会继续放在公众号里。 7. 踩过的一些坑 7.1 不要只追热点 GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤，否则日报会变成项目搬运。 7.2 AI 很容易把摘要写成鸡汤如果 prompt 不约束，论文解读很容易变成：本文提出了一种创新方法，显著提升了性能，具有重要意义。这种话基本没信息量。所以我现在要求每篇都必须回答：方法具体是什么；输入输出是什么；对比基线是什么；适用边界是什么；工程上能学到什么。 7.3 需要保留证据文件自动化写作最怕“看起来很完整，但来源不可查”。所以每个 slot 都会保留来源文件，例如： arXiv 链接； PDF 链接； GitHub repo 链接； README 摘要；关键文件路径；生成时的判断理由。这样后面出了问题可以回溯。 7.4 公众号不是终点，归档和分发更重要如果内容只存在公众号里，后续搜索和复用都不方便。所以我会同时保留： Markdown 版本； JSON 元数据； SQLite 主账本； GitHub 公开索引；后续可能加网页展示。 8. 后续计划接下来我想继续做几件事：开源每日论文和 GitHub Trending 中文索引仓库；加入更细的主题分类，比如 RAG 、Agent 、Search 、Evaluation ；对高价值论文做系列化追踪；对 GitHub 项目增加“可运行性”和“维护质量”评分；把日报沉淀成一个可搜索的 AI 工程知识库。如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报，欢迎交流。我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。最后放一句软广：如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地，可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。也把文章放在了 github： https://github.com/AltenLi/daily-paper-github-trends

[分享创造] 做了一个每日 AI 信息，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等 AI 信息

v2ex · 2026-06-03 23:54:27+08:00 · tech

背景现在 AI 圈每周都会出一些新的概念，根本来不及了解学习，而自己获取信息又比较散，因此周末写了一个 AI 信息网站，自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息，并且利用 AI GPT-4o 总结关键点并且翻译为中文。每天早上去公司花 10 分钟左右，就可以浏览完最近的 AI 大事，解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点引入了 GPT-4 来进行总结，而不是直接获取原文，让 GPT 来帮我总结提取最精炼的给到我，并且翻译为中文。同时因为有时候怕自己忘记，就增加了邮件系统提醒自己，发到自己的工作邮箱，每天一早上就有红点提醒自己需要了解了这个因为邮件服务商的限制，收件人有数量限制，所以如果有需要的大佬，可以私聊我最后写完这个项目之后，真的感慨 AI ，如果没有 AI 我就懒得麻烦了，干脆就一个一个看了。有了 AI 一天就能写完，就能解决我的问题，真的很恐怖最后如果对你有帮助，欢迎 star

[分享创造] 做了一个每日 AI 信息，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等 AI 信息

v2ex · 2026-06-03 23:54:27+08:00 · tech

背景现在 AI 圈每周都会出一些新的概念，根本来不及了解学习，而自己获取信息又比较散，因此周末写了一个 AI 信息网站，自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息，并且利用 AI GPT-4o 总结关键点并且翻译为中文。每天早上去公司花 10 分钟左右，就可以浏览完最近的 AI 大事，解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点引入了 GPT-4 来进行总结，而不是直接获取原文，让 GPT 来帮我总结提取最精炼的给到我，并且翻译为中文。同时因为有时候怕自己忘记，就增加了邮件系统提醒自己，发到自己的工作邮箱，每天一早上就有红点提醒自己需要了解了这个因为邮件服务商的限制，收件人有数量限制，所以如果有需要的大佬，可以私聊我最后写完这个项目之后，真的感慨 AI ，如果没有 AI 我就懒得麻烦了，干脆就一个一个看了。有了 AI 一天就能写完，就能解决我的问题，真的很恐怖最后如果对你有帮助，欢迎 star

[分享创造] 做了一个每日 AI 信息，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等 AI 信息

v2ex · 2026-06-03 23:31:54+08:00 · tech

背景现在 AI 圈每周都会出一些新的概念，根本来不及了解学习，而自己获取信息又比较散，因此周末写了一个 AI 信息网站，自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息，并且利用 AI GPT-4o 总结关键点并且翻译为中文。每天早上去公司花 10 分钟左右，就可以浏览完最近的 AI 大事，解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点引入了 GPT-4 来进行总结，而不是直接获取原文，让 GPT 来帮我总结提取最精炼的给到我，并且翻译为中文。同时因为有时候怕自己忘记，就增加了邮件系统提醒自己，发到自己的工作邮箱，每天一早上就有红点提醒自己需要了解了这个因为邮件服务商的限制，收件人有数量限制，所以如果有需要的大佬，可以私聊我最后写完这个项目之后，真的感慨 AI ，如果没有 AI 我就懒得麻烦了，干脆就一个一个看了。有了 AI 一天就能写完，就能解决我的问题，真的很恐怖最后如果对你有帮助，欢迎 star

【开源自荐】AI信息，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等AI信息

LinuxDo 最新话题 · 2026-06-03 22:54:10+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出背景现在AI圈每周都会出一些新的概念，根本来不及了解学习，而自己获取信息又比较散，因此周末写了一个 AI信息网站，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等AI信息，并且利用AI GPT-4o 总结关键点并且翻译为中文。每天早上去公司花10分钟左右，就可以浏览完最近的AI大事，解决了自己的一大痛点 github.com GitHub - wenbochang888/github-trending-spider: 每日AI前沿信息。开源趋势、社区热议、AI 动态每日AI前沿信息。开源趋势、社区热议、AI 动态佬友们，第一次发推广，求star不违规吧佬友们，自己VB的东西，没人star 没人看，大家都是怎么办的搞七捻三 23k star的巨佬，感觉初期可能star可以满足自己的一点虚荣心，可能后期，花了时间花了心思，赚钱才是硬道理最让我满意的点引入了GPT-4 来进行总结，而不是直接获取原文，让GPT来帮我总结提取最精炼的给到我，并且翻译为中文。同时因为有时候怕自己忘记，就增加了邮件系统提醒自己，发到自己的工作邮箱，每天一早上就有红点提醒自己需要了解了这个因为邮件服务商的限制，收件人有数量限制，所以如果有需要的佬友，可以私聊我最后写完这个项目之后，真的感慨AI，如果没有AI我就懒得麻烦了，干脆就一个一个看了。有了AI一天就能写完，就能解决我的问题，真的很恐怖最后如果对你有帮助，欢迎star 6 个帖子 - 2 位参与者阅读完整话题

[分享创造] 做了一个每日 AI 信息，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等 AI 信息

v2ex · 2026-06-03 22:48:17+08:00 · tech

背景现在 AI 圈每周都会出一些新的概念，根本来不及了解学习，而自己获取信息又比较散，因此周末写了一个 AI 信息网站，自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息，并且利用 AI GPT-4o 总结关键点并且翻译为中文。每天早上去公司花 10 分钟左右，就可以浏览完最近的 AI 大事，解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点引入了 GPT-4 来进行总结，而不是直接获取原文，让 GPT 来帮我总结提取最精炼的给到我，并且翻译为中文。同时因为有时候怕自己忘记，就增加了邮件系统提醒自己，发到自己的工作邮箱，每天一早上就有红点提醒自己需要了解了这个因为邮件服务商的限制，收件人有数量限制，所以如果有需要的大佬，可以私聊我最后写完这个项目之后，真的感慨 AI ，如果没有 AI 我就懒得麻烦了，干脆就一个一个看了。有了 AI 一天就能写完，就能解决我的问题，真的很恐怖最后如果对你有帮助，欢迎 star

【求助】github项目被攻击，一直在提评论

LinuxDo 最新话题 · 2026-06-03 19:08:27+08:00 · tech

刚刚一直有人在我的github项目上issue中发表评论，说什么stars异常，还说什么trending项目，一大堆，我真是不理解，它们的目的是什么的？我现在就是把评论删除，佬们我该如何处理 “一周增长了 4493 Star” 我一共才多少stars 10 个帖子 - 8 位参与者阅读完整话题

【开源】DailyBrief：AI 每日新闻简报，覆盖 GitHub Trending / X技术文章 / 市场行情 / 时政财经

LinuxDo 最新话题 · 2026-05-23 11:52:58+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出 1. 项目简介 DailyBrief 是一个每日新闻简报工具。会每天定时通过RSS/API抓23个数据源，调 LLM生成中文摘要，渲染成一份日报。可跑在本地也可以直接部署在github action上。项目地址 : github.com GitHub - leiting-eric/DailyBrief: AI 每日新闻简报 · GitHub 热门 + X 热门文章 + 行情技术分析 · 23... AI 每日新闻简报 · GitHub 热门 + X 热门文章 + 行情技术分析 · 23 个数据源聚合 + LLM 中文摘要 · 本地或 GitHub Actions 部署效果演示 leiting-eric.github.io 每日简报 · 2026-05-22 如果佬友们觉得有帮助的话欢迎大家star或者fork 2. 数据源 23 个源分布在 5 个分类：技术动态 GitHub Trending每日热门的项目 X上AI相关最近7日的精选文章其他AI媒体合集：OpenAI/DeepMind/Hugging Face/TLDR AI/Smol AI/Latent Space/MIT Tech Review 市场行情（非新闻源，21 个标的）美股/ETF：SPY / QQQ / AAPL / NVDA / TSLA / META … 加密：BTC / ETH / SOL（带恐慌贪婪指数）中港：BABA / PDD / 0700.HK 等商品/宏观：黄金 / 原油 / VIX / 10Y 美债 / DXY 时政观察 BBC / Guardian / NYT / NPR / DW 中文 / Al Jazeera / The Diplomat 的 World 频道财经要点 Bloomberg / WSJ / FT / BBC Business / Economist 社区讨论（zh 模式） LinuxDo —— 通过站点公开的 RSS feed ( linux.do/top.rss ) 抓取，UA 标识 DailyBriefBot/1.0 ，每天一次。代码见 lib/sources/linuxdo.ts 。如果用法不合适请直接告诉我，立刻下线。 V2EX —— 走官方 /api/topics/show.json 接口 en 模式下中文社区源会自动隐藏，替换成 Hacker News + r/stocks。 3. 部署方式及成本三种部署方式任选其一：方式适合时间 Fork 到 GitHub Actions + Pages 无需服务器、免费托管 ~5 分钟本地一行命令装有常开的机器 ~3 分钟仓库地址丢给 AI agent 自己装想省事的人一句话前置条件：Node 20+（仅本地需要）+ 任一 LLM（Claude Code CLI 已登录 / Anthropic / OpenAI / DeepSeek / MiniMax API key）。成本：基础设施（GitHub Actions + Pages 公开 repo）：完全免费 LLM 调用（按部署方式分两种情况）：本地部署 + 复用 Claude Code 订阅：$0额外花费 GitHub Actions + 配 DeepSeek 后端：每月不到3块人民币数据源 API key ： 0个（全部走免费公开端点） 4. 实现单文件 HTML 输出：CSS + JS 全部内联，~110KB，scp 上服务器直接当首页。不打算上 SPA / Next.js / 任何 build 链。没有数据库：每天一个目录 daily_reports/2026-05-22/ ，里面 .html （主输出）+ .json （缓存）+ -articles.json （缓存）。改了 CSS 不满意 → npm run render 1 秒重渲染，不用重抓不用重调 LLM。 LLM 后端可换：5 个后端用一个 LLM_BACKEND 环境变量切换，prompt 抽离在 lib/ai/prompts.ts ，对 backend 完全透明。数据源在JSON里： sources.config.json 是唯一配置入口，加源 / 禁源 / 改分类不用改 TS 代码。时区精确触发：GH Actions 的 cron 只支持 UTC，所以工作流每小时跑一次，里面有个 gate 任务用 REPORT_TZ 判断当前小时是否匹配 REPORT_HOUR 。夏令时自动跟（IANA 时区库）。 5. 起因 & 一些感言刚开始接触 AI 编程的时候，总焦虑两件事：一是看到的知识不知道是不是已经过时，二是没有合适的idea上手。即便看过一些官方教程，也老担心自己用这些工具的方式已经落后了。最近也受朋友影响开始研究交易，除了收集一些市场行情外也开始关注一些时政相关的讯息。这个过程中我感觉信息涉及的面多了之后，重复去收集会很麻烦，所以做了这个工具。因为知识面还不够广，数据源可能也还是不够好，工具本身也没做几天还不够成熟，各位佬友们看看有没有什么好的改进的建议，这也是我第一次在L站发帖，有什么不合规的地方我也再看着改一下。如果大家觉得这个项目有帮助到你的话，欢迎去仓库地址给个star，感激不尽！ 5 个帖子 - 3 位参与者阅读完整话题

我的DS2API登上GitHubTrending单日全榜了和Go榜，有点意外和激动，还有一点小担忧

linux.do · 2026-04-28 09:49:09+08:00 · tech

接之前话题 https://linux.do/t/topic/1623235?u=CJackHwang 最近发现star数涨得老快了然后就上Trending了，梁圣会不会制裁我啊很感谢大家的支持和反馈啊，于是我连更两天把项目优化了亿下最新的版本是v4.1.1-2，与之前版本比起来现在除了上下文有时候不太敏感以外，现在几乎接近原生API的水平了不吹牛吧，试过就知道，我觉得至少应该是目前DeepSeek2API里面工具调用效果最好的，没有之一具体实现思路项目内有非常详细的技术文档入口在 ds2api/docs/README.md at dev · CJackHwang/ds2api · GitHub 重点看 github.com/CJackHwang/ds2api docs%2Fprompt-compatibility.md dev # API -> 网页对话纯文本兼容主链路说明文档导航：[总览](../README.MD) / [架构说明](./ARCHITECTURE.md) / [接口文档](../API.md) / [测试指南](./TESTING.md) > 本文档是 DS2API“把 OpenAI / Claude / Gemini 风格 API 请求兼容成 DeepSeek 网页对话纯文本上下文”的专项说明。 > 这是项目最重要的兼容产物之一。凡是修改消息标准化、tool prompt 注入、tool history 保留、文件引用、current input file / legacy history_split、下游 completion payload 组装等行为，都必须同步更新本文档。 ## 1. 核心结论 DS2API 当前的核心思路，不是把客户端传来的 `messages`、`tools`、`attachments` 原样转发给下游。而是把这些高层 API 语义，统一压缩成 DeepSeek 网页对话更容易理解的三类输入： 1. `prompt` 一个单字符串，里面带有角色标记、system 指令、历史消息、assistant reasoning 标签、历史 tool call XML 等。 2. `ref_file_ids` 一个文件引用数组，承载附件、inline 上传文件，以及必要时被拆出去的历史文件。 3. 控制位例如 `thinking_enabled`、`search_enabled`、部分 passthrough 参数。此文件已被截断。显示原始文件 github.com/CJackHwang/ds2api docs%2Ftoolcall-semantics.md dev # Tool call parsing semantics（Go/Node 统一语义）本文档描述当前代码中的**实际行为**，以 `internal/toolcall`、`internal/toolstream` 与 `internal/js/helpers/stream-tool-sieve` 为准。文档导航：[总览](../README.MD) / [架构说明](./ARCHITECTURE.md) / [测试指南](./TESTING.md) ## 1) 当前可执行格式当前版本推荐模型输出 DSML 外壳： ```xml <|DSML|tool_calls> <|DSML|invoke name="read_file"> <|DSML|parameter name="path"><![CDATA[README.MD]]></|DSML|parameter> </|DSML|invoke> </|DSML|tool_calls> ``` 兼容层仍接受旧式 canonical XML：此文件已被截断。显示原始文件这两个文档希望我项目工程实现对大家有启发用DeepSeek在本项目接cc从0-1写的react博客系统工具调用部分参考了官方v4技术文档然后再结合外部我们的解析器和上下文工程实现比较稳定的输出我们项目现在也默认启用内置的Max思考注入后台可以关闭 9 个帖子 - 9 位参与者阅读完整话题

/tag/Trending