爬取 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-05 16:18:31+08:00 · tech

我利用它配合久佬的Joverna公益站提供的grok4.20-multiagent-xhigh来完成推特（X，）上面指定主题的帖子图片爬取，一早上收割了 1700 多张图挺有意思的这个不像API会触发限流，感觉很稳定CDP 方式 3 个帖子 - 2 位参与者阅读完整话题

[分享创造] 做了一个每日 AI 信息，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等 AI 信息

v2ex · 2026-06-03 23:54:27+08:00 · tech

背景现在 AI 圈每周都会出一些新的概念，根本来不及了解学习，而自己获取信息又比较散，因此周末写了一个 AI 信息网站，自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息，并且利用 AI GPT-4o 总结关键点并且翻译为中文。每天早上去公司花 10 分钟左右，就可以浏览完最近的 AI 大事，解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点引入了 GPT-4 来进行总结，而不是直接获取原文，让 GPT 来帮我总结提取最精炼的给到我，并且翻译为中文。同时因为有时候怕自己忘记，就增加了邮件系统提醒自己，发到自己的工作邮箱，每天一早上就有红点提醒自己需要了解了这个因为邮件服务商的限制，收件人有数量限制，所以如果有需要的大佬，可以私聊我最后写完这个项目之后，真的感慨 AI ，如果没有 AI 我就懒得麻烦了，干脆就一个一个看了。有了 AI 一天就能写完，就能解决我的问题，真的很恐怖最后如果对你有帮助，欢迎 star

[分享创造] 做了一个每日 AI 信息，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等 AI 信息

v2ex · 2026-06-03 23:54:27+08:00 · tech

背景现在 AI 圈每周都会出一些新的概念，根本来不及了解学习，而自己获取信息又比较散，因此周末写了一个 AI 信息网站，自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息，并且利用 AI GPT-4o 总结关键点并且翻译为中文。每天早上去公司花 10 分钟左右，就可以浏览完最近的 AI 大事，解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点引入了 GPT-4 来进行总结，而不是直接获取原文，让 GPT 来帮我总结提取最精炼的给到我，并且翻译为中文。同时因为有时候怕自己忘记，就增加了邮件系统提醒自己，发到自己的工作邮箱，每天一早上就有红点提醒自己需要了解了这个因为邮件服务商的限制，收件人有数量限制，所以如果有需要的大佬，可以私聊我最后写完这个项目之后，真的感慨 AI ，如果没有 AI 我就懒得麻烦了，干脆就一个一个看了。有了 AI 一天就能写完，就能解决我的问题，真的很恐怖最后如果对你有帮助，欢迎 star

[分享创造] 做了一个每日 AI 信息，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等 AI 信息

v2ex · 2026-06-03 23:31:54+08:00 · tech

背景现在 AI 圈每周都会出一些新的概念，根本来不及了解学习，而自己获取信息又比较散，因此周末写了一个 AI 信息网站，自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息，并且利用 AI GPT-4o 总结关键点并且翻译为中文。每天早上去公司花 10 分钟左右，就可以浏览完最近的 AI 大事，解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点引入了 GPT-4 来进行总结，而不是直接获取原文，让 GPT 来帮我总结提取最精炼的给到我，并且翻译为中文。同时因为有时候怕自己忘记，就增加了邮件系统提醒自己，发到自己的工作邮箱，每天一早上就有红点提醒自己需要了解了这个因为邮件服务商的限制，收件人有数量限制，所以如果有需要的大佬，可以私聊我最后写完这个项目之后，真的感慨 AI ，如果没有 AI 我就懒得麻烦了，干脆就一个一个看了。有了 AI 一天就能写完，就能解决我的问题，真的很恐怖最后如果对你有帮助，欢迎 star

【开源自荐】AI信息，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等AI信息

LinuxDo 最新话题 · 2026-06-03 22:54:10+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出背景现在AI圈每周都会出一些新的概念，根本来不及了解学习，而自己获取信息又比较散，因此周末写了一个 AI信息网站，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等AI信息，并且利用AI GPT-4o 总结关键点并且翻译为中文。每天早上去公司花10分钟左右，就可以浏览完最近的AI大事，解决了自己的一大痛点 github.com GitHub - wenbochang888/github-trending-spider: 每日AI前沿信息。开源趋势、社区热议、AI 动态每日AI前沿信息。开源趋势、社区热议、AI 动态佬友们，第一次发推广，求star不违规吧佬友们，自己VB的东西，没人star 没人看，大家都是怎么办的搞七捻三 23k star的巨佬，感觉初期可能star可以满足自己的一点虚荣心，可能后期，花了时间花了心思，赚钱才是硬道理最让我满意的点引入了GPT-4 来进行总结，而不是直接获取原文，让GPT来帮我总结提取最精炼的给到我，并且翻译为中文。同时因为有时候怕自己忘记，就增加了邮件系统提醒自己，发到自己的工作邮箱，每天一早上就有红点提醒自己需要了解了这个因为邮件服务商的限制，收件人有数量限制，所以如果有需要的佬友，可以私聊我最后写完这个项目之后，真的感慨AI，如果没有AI我就懒得麻烦了，干脆就一个一个看了。有了AI一天就能写完，就能解决我的问题，真的很恐怖最后如果对你有帮助，欢迎star 6 个帖子 - 2 位参与者阅读完整话题

[分享创造] 做了一个每日 AI 信息，自动爬取 GitHub Trending、Hacker News、OpenAI、Anthropic、InfoQ AI 等 AI 信息

v2ex · 2026-06-03 22:48:17+08:00 · tech

背景现在 AI 圈每周都会出一些新的概念，根本来不及了解学习，而自己获取信息又比较散，因此周末写了一个 AI 信息网站，自动爬取 GitHub Trending 、Hacker News 、OpenAI 、Anthropic 、InfoQ AI 等 AI 信息，并且利用 AI GPT-4o 总结关键点并且翻译为中文。每天早上去公司花 10 分钟左右，就可以浏览完最近的 AI 大事，解决了自己的一大痛点 https://github.com/wenbochang888/github-trending-spider/ 最让我满意的点引入了 GPT-4 来进行总结，而不是直接获取原文，让 GPT 来帮我总结提取最精炼的给到我，并且翻译为中文。同时因为有时候怕自己忘记，就增加了邮件系统提醒自己，发到自己的工作邮箱，每天一早上就有红点提醒自己需要了解了这个因为邮件服务商的限制，收件人有数量限制，所以如果有需要的大佬，可以私聊我最后写完这个项目之后，真的感慨 AI ，如果没有 AI 我就懒得麻烦了，干脆就一个一个看了。有了 AI 一天就能写完，就能解决我的问题，真的很恐怖最后如果对你有帮助，欢迎 star

Codex 还是 Cluade cowork 选择

V2EX - 技术 · 2026-06-03 13:30:55+08:00 · tech

各位我主要是用 AI 做两件事, 主要是 computer use 和辅助开发软件以及爬取数据请问这 2 个如何选择. 第一件继续放弃了 10 年的外贸行业, 实现 Wordpress 快速优启用和优化官网. 同时建立快速工作流, 比如媒体素材生成- 批量自动发布以及 ads 投放会参考一些开源的系统, 比如 invoice 系统/简单的 CRM 系统来建立自己的自动寻客并纳入 CRM 系统- 自动回复- 自动跟进的工作流. 第二件事尝试利用 AI 协助我来股市/crypto. 目前已经部署了 qtrade/freqtrade, 正在寻找离交易所最近的主机, 尽量做到尽可能的低延迟, 还在慢慢测试中, 主要是尽可能早日进行职业交易转换. 此外用来辅助我进行癌股操作, 对待情绪化的癌股, 协助早期定位即将轮动或者资金增长的板块就足够了. (这半年测试过不少系统, 例如 daily_stock 等, 多少都有些美中不足和缺陷,想着以后可以 github 上找个开源的系统,基于它进行自己的交易系统搭建, 需要用到 AI 来辅助编程) 今天没事去了深圳福田好日子酒店一个交易员论坛, 比较有意思, 很多都是单打独斗的程序员摆摊卖/推广自己的策略或者社区,都是些外盘比如黄金/虚拟货币, 我看有些人做策略也可以卖钱, 这其实给 V2er 一些启发也可以走上这条路, 既自己开发策略自己跑或者卖钱给需要的人, 不过程序员们大部分执念太深, 过于自信, 很难做好交易. https://v2ex.com/i/1c5ahxZf.jpeg https://v2ex.com/i/db0AUGnS.jpeg

Codex 还是 Cluade cowork 选择

V2EX - 技术 · 2026-06-03 12:30:55+08:00 · tech

各位我主要是用 AI 做两件事, 主要是 computer use 和辅助开发软件以及爬取数据请问这 2 个如何选择. 第一件继续放弃了 10 年的外贸行业, 实现 Wordpress 快速优启用和优化官网. 同时建立快速工作流, 比如媒体素材生成- 批量自动发布以及 ads 投放会参考一些开源的系统, 比如 invoice 系统/简单的 CRM 系统来建立自己的自动寻客并纳入 CRM 系统- 自动回复- 自动跟进的工作流. 第二件事尝试利用 AI 协助我来股市/crypto. 目前已经部署了 qtrade/freqtrade, 正在寻找离交易所最近的主机, 尽量做到尽可能的低延迟, 还在慢慢测试中, 主要是尽可能早日进行职业交易转换. 此外用来辅助我进行癌股操作, 对待情绪化的癌股, 协助早期定位即将轮动或者资金增长的板块就足够了. (这半年测试过不少系统, 例如 daily_stock 等, 多少都有些美中不足和缺陷,想着以后可以 github 上找个开源的系统,基于它进行自己的交易系统搭建, 需要用到 AI 来辅助编程) 今天没事去了深圳福田好日子酒店一个交易员论坛, 比较有意思, 很多都是单打独斗的程序员摆摊卖/推广自己的策略或者社区,都是些外盘比如黄金/虚拟货币, 我看有些人做策略也可以卖钱, 这其实给 V2er 一些启发也可以走上这条路, 既自己开发策略自己跑或者卖钱给需要的人, 不过程序员们大部分执念太深, 过于自信, 很难做好交易. https://v2ex.com/i/1c5ahxZf.jpeg https://v2ex.com/i/db0AUGnS.jpeg

Codex 还是 Cluade cowork 选择

V2EX - 技术 · 2026-06-03 12:30:55+08:00 · tech

各位我主要是用 AI 做两件事, 主要是 computer use 和辅助开发软件以及爬取数据请问这 2 个如何选择. 第一件继续放弃了 10 年的外贸行业, 实现 Wordpress 快速优启用和优化官网. 同时建立快速工作流, 比如媒体素材生成- 批量自动发布以及 ads 投放会参考一些开源的系统, 比如 invoice 系统/简单的 CRM 系统来建立自己的自动寻客并纳入 CRM 系统- 自动回复- 自动跟进的工作流. 第二件事尝试利用 AI 协助我来股市/crypto. 目前已经部署了 qtrade/freqtrade, 正在寻找离交易所最近的主机, 尽量做到尽可能的低延迟, 还在慢慢测试中, 主要是尽可能早日进行职业交易转换. 此外用来辅助我进行癌股操作, 对待情绪化的癌股, 协助早期定位即将轮动或者资金增长的板块就足够了. (这半年测试过不少系统, 例如 daily_stock 等, 多少都有些美中不足和缺陷,想着以后可以 github 上找个开源的系统,基于它进行自己的交易系统搭建, 需要用到 AI 来辅助编程) 今天没事去了深圳福田好日子酒店一个交易员论坛, 比较有意思, 很多都是单打独斗的程序员摆摊卖/推广自己的策略或者社区,都是些外盘比如黄金/虚拟货币, 我看有些人做策略也可以卖钱, 这其实给 V2er 一些启发也可以走上这条路, 既自己开发策略自己跑或者卖钱给需要的人, 不过程序员们大部分执念太深, 过于自信, 很难做好交易. https://v2ex.com/i/1c5ahxZf.jpeg https://v2ex.com/i/db0AUGnS.jpeg

Codex 还是 Cluade cowork 选择

V2EX - 技术 · 2026-06-03 10:03:01+08:00 · tech

各位我主要是用 AI 做两件事, 主要是 computer use 和辅助开发软件以及爬取数据请问这 2 个如何选择. 第一件继续放弃了 10 年的外贸行业, 实现 Wordpress 快速优启用和优化官网. 同时建立快速工作流, 比如媒体素材生成- 批量自动发布以及 ads 投放会参考一些开源的系统, 比如 invoice 系统/简单的 CRM 系统来建立自己的自动寻客并纳入 CRM 系统- 自动回复- 自动跟进的工作流. 第二件事尝试利用 AI 协助我来股市/crypto. 目前已经部署了 qtrade/freqtrade, 正在寻找离交易所最近的主机, 尽量做到尽可能的低延迟, 还在慢慢测试中, 主要是尽可能早日进行职业交易转换. 此外用来辅助我进行癌股操作, 对待情绪化的癌股, 协助早期定位即将轮动或者资金增长的板块就足够了. (这半年测试过不少系统, 例如 daily_stock 等, 多少都有些美中不足和缺陷,想着以后可以 github 上找个开源的系统,基于它进行自己的交易系统搭建, 需要用到 AI 来辅助编程) 今天没事去了深圳福田好日子酒店一个交易员论坛, 比较有意思, 很多都是单打独斗的程序员摆摊卖/推广自己的策略或者社区,都是些外盘比如黄金/虚拟货币, 我看有些人做策略也可以卖钱, 这其实给 V2er 一些启发也可以走上这条路, 既自己开发策略自己跑或者卖钱给需要的人, 不过程序员们大部分执念太深, 过于自信, 很难做好交易. https://v2ex.com/i/1c5ahxZf.jpeg https://v2ex.com/i/db0AUGnS.jpeg

Codex 还是 Cluade cowork 选择

V2EX - 技术 · 2026-06-03 08:59:58+08:00 · tech

各位我主要是用 AI 做两件事, 主要是 computer use 和辅助开发软件以及爬取数据请问这 2 个如何选择. 第一件继续放弃了 10 年的外贸行业, 实现 Wordpress 快速优启用和优化官网. 同时建立快速工作流, 比如媒体素材生成- 批量自动发布以及 ads 投放会参考一些开源的系统, 比如 invoice 系统/简单的 CRM 系统来建立自己的自动寻客并纳入 CRM 系统- 自动回复- 自动跟进的工作流. 第二件事尝试利用 AI 协助我来股市/crypto. 目前已经部署了 qtrade/freqtrade, 正在寻找离交易所最近的主机, 尽量做到尽可能的低延迟, 还在慢慢测试中, 主要是尽可能早日进行职业交易转换. 此外用来辅助我进行癌股操作, 对待情绪化的癌股, 协助早期定位即将轮动或者资金增长的板块就足够了. (这半年测试过不少系统, 例如 daily_stock 等, 多少都有些美中不足和缺陷,想着以后可以 github 上找个开源的系统,基于它进行自己的交易系统搭建, 需要用到 AI 来辅助编程) 今天没事去了深圳福田好日子酒店一个交易员论坛, 比较有意思, 很多都是单打独斗的程序员摆摊卖/推广自己的策略或者社区,都是些外盘比如黄金/虚拟货币, 我看有些人做策略也可以卖钱, 这其实给 V2er 一些启发也可以走上这条路, 既自己开发策略自己跑或者卖钱给需要的人, 不过程序员们大部分执念太深, 过于自信, 很难做好交易. https://v2ex.com/i/1c5ahxZf.jpeg https://v2ex.com/i/db0AUGnS.jpeg

Codex 还是 Cluade cowork 选择

V2EX - 技术 · 2026-06-03 08:31:04+08:00 · tech

各位我主要是用 AI 做两件事, 主要是 computer use 和辅助开发软件以及爬取数据请问这 2 个如何选择. 第一件继续放弃了 10 年的外贸行业, 实现 Wordpress 快速优启用和优化官网. 同时建立快速工作流, 比如媒体素材生成- 批量自动发布以及 ads 投放会参考一些开源的系统, 比如 invoice 系统/简单的 CRM 系统来建立自己的自动寻客并纳入 CRM 系统- 自动回复- 自动跟进的工作流. 第二件事尝试利用 AI 协助我来股市/crypto. 目前已经部署了 qtrade/freqtrade, 正在寻找离交易所最近的主机, 尽量做到尽可能的低延迟, 还在慢慢测试中, 主要是尽可能早日进行职业交易转换. 此外用来辅助我进行癌股操作, 对待情绪化的癌股, 协助早期定位即将轮动或者资金增长的板块就足够了. (这半年测试过不少系统, 例如 daily_stock 等, 多少都有些美中不足和缺陷,想着以后可以 github 上找个开源的系统,基于它进行自己的交易系统搭建, 需要用到 AI 来辅助编程) 今天没事去了深圳福田好日子酒店一个交易员论坛, 比较有意思, 很多都是单打独斗的程序员摆摊卖/推广自己的策略或者社区,都是些外盘比如黄金/虚拟货币, 我看有些人做策略也可以卖钱, 这其实给 V2er 一些启发也可以走上这条路, 既自己开发策略自己跑或者卖钱给需要的人, 不过程序员们大部分执念太深, 过于自信, 很难做好交易. https://v2ex.com/i/1c5ahxZf.jpeg https://v2ex.com/i/db0AUGnS.jpeg

Codex 还是 Cluade cowork 选择

V2EX - 技术 · 2026-06-03 07:34:27+08:00 · tech

各位我主要是用 AI 做两件事, 主要是 computer use 和辅助开发软件以及爬取数据请问这 2 个如何选择. 第一件继续放弃了 10 年的外贸行业, 实现 Wordpress 快速优启用和优化官网. 同时建立快速工作流, 比如媒体素材生成- 批量自动发布以及 ads 投放会参考一些开源的系统, 比如 invoice 系统/简单的 CRM 系统来建立自己的自动寻客并纳入 CRM 系统- 自动回复- 自动跟进的工作流. 第二件事尝试利用 AI 协助我来股市/crypto. 目前已经部署了 qtrade/freqtrade, 正在寻找离交易所最近的主机, 尽量做到尽可能的低延迟, 还在慢慢测试中, 主要是尽可能早日进行职业交易转换. 此外用来辅助我进行癌股操作, 对待情绪化的癌股, 协助早期定位即将轮动或者资金增长的板块就足够了. (这半年测试过不少系统, 例如 daily_stock 等, 多少都有些美中不足和缺陷,想着以后可以 github 上找个开源的系统,基于它进行自己的交易系统搭建, 需要用到 AI 来辅助编程) 今天没事去了深圳福田好日子酒店一个交易员论坛, 比较有意思, 很多都是单打独斗的程序员摆摊卖/推广自己的策略或者社区,都是些外盘比如黄金/虚拟货币, 我看有些人做策略也可以卖钱, 这其实给 V2er 一些启发也可以走上这条路, 既自己开发策略自己跑或者卖钱给需要的人, 不过程序员们大部分执念太深, 过于自信, 很难做好交易. https://v2ex.com/i/1c5ahxZf.jpeg https://v2ex.com/i/db0AUGnS.jpeg

Codex 还是 Cluade cowork 选择

V2EX - 技术 · 2026-06-03 05:07:27+08:00 · tech

各位我主要是用 AI 做两件事, 主要是 computer use 和辅助开发软件以及爬取数据请问这 2 个如何选择. 第一件继续放弃了 10 年的外贸行业, 实现 Wordpress 快速优启用和优化官网. 同时建立快速工作流, 比如媒体素材生成- 批量自动发布以及 ads 投放会参考一些开源的系统, 比如 invoice 系统/简单的 CRM 系统来建立自己的自动寻客并纳入 CRM 系统- 自动回复- 自动跟进的工作流. 第二件事尝试利用 AI 协助我来股市/crypto. 目前已经部署了 qtrade/freqtrade, 正在寻找离交易所最近的主机, 尽量做到尽可能的低延迟, 还在慢慢测试中, 主要是尽可能早日进行职业交易转换. 此外用来辅助我进行癌股操作, 对待情绪化的癌股, 协助早期定位即将轮动或者资金增长的板块就足够了. (这半年测试过不少系统, 例如 daily_stock 等, 多少都有些美中不足和缺陷,想着以后可以 github 上找个开源的系统,基于它进行自己的交易系统搭建, 需要用到 AI 来辅助编程) 今天没事去了深圳福田好日子酒店一个交易员论坛, 比较有意思, 很多都是单打独斗的程序员摆摊卖/推广自己的策略或者社区,都是些外盘比如黄金/虚拟货币, 我看有些人做策略也可以卖钱, 这其实给 V2er 一些启发也可以走上这条路, 既自己开发策略自己跑或者卖钱给需要的人, 不过程序员们大部分执念太深, 过于自信, 很难做好交易. https://v2ex.com/i/1c5ahxZf.jpeg https://v2ex.com/i/db0AUGnS.jpeg

Codex 还是 Cluade cowork 选择

V2EX - 技术 · 2026-06-03 04:09:07+08:00 · tech

各位我主要是用 AI 做两件事, 主要是 computer use 和辅助开发软件以及爬取数据请问这 2 个如何选择. 第一件继续放弃了 10 年的外贸行业, 实现 Wordpress 快速优启用和优化官网. 同时建立快速工作流, 比如媒体素材生成- 批量自动发布以及 ads 投放会参考一些开源的系统, 比如 invoice 系统/简单的 CRM 系统来建立自己的自动寻客并纳入 CRM 系统- 自动回复- 自动跟进的工作流. 第二件事尝试利用 AI 协助我来股市/crypto. 目前已经部署了 qtrade/freqtrade, 正在寻找离交易所最近的主机, 尽量做到尽可能的低延迟, 还在慢慢测试中, 主要是尽可能早日进行职业交易转换. 此外用来辅助我进行癌股操作, 对待情绪化的癌股, 协助早期定位即将轮动或者资金增长的板块就足够了. (这半年测试过不少系统, 例如 daily_stock 等, 多少都有些美中不足和缺陷,想着以后可以 github 上找个开源的系统,基于它进行自己的交易系统搭建, 需要用到 AI 来辅助编程) 今天没事去了深圳福田好日子酒店一个交易员论坛, 比较有意思, 很多都是单打独斗的程序员摆摊卖/推广自己的策略或者社区,都是些外盘比如黄金/虚拟货币, 我看有些人做策略也可以卖钱, 这其实给 V2er 一些启发也可以走上这条路, 既自己开发策略自己跑或者卖钱给需要的人, 不过程序员们大部分执念太深, 过于自信, 很难做好交易. https://v2ex.com/i/1c5ahxZf.jpeg https://v2ex.com/i/db0AUGnS.jpeg

想写个爬虫每天爬取L站的热帖自动总结推送给我自己，不知道是否违反站规？

LinuxDo 最新话题 · 2026-05-31 19:16:19+08:00 · tech

如题，最近比较忙可能没空刷L站，但又不想错过最新热点，所以想写个爬虫每天爬取L站的热帖（或者直接让龙虾爬），然后让龙虾自动总结推送给我自己，但不知道这样是否违反站规？求大佬解惑 17 个帖子 - 12 位参与者阅读完整话题

不会自动爬取电商数据？厌倦了手动填写表单？OpenCLI + AI 智能体瞬间实现浏览器自动化！

LinuxDo 最新话题 · 2026-05-29 01:03:54+08:00 · tech

你家 AI 不能耍浏览器？相信大家平时在使用各类智能体，无论是 openclaw、hermes、还是单纯使用Claude Code这样的模型，帮我们处理各种事情的时候，总能遇到因为无法访问部分网站遭受互联网反爬虫铁拳的情况。比如当我们让大模型搜集小红书上所有有关英国留学的相关信息的时候，我相信你的模型一定会告诉你，小红书无法访问，或是当前被限流了等等一系列很麻烦的问题。因为我们的智能体往往是通过构造网络请求的方法来模拟浏览器请求的。而这类技术非常容易遭受到各类社交媒体的封号处理或是各类限流。归根到底，还是直接仿造的网络请求，总会漏掉网站频繁更新的各类凭证，从而触发安全警告，让网站知道你当前的这个请求，不是通过浏览器发起的，而是你的脚本发起的，说明你图谋不轨。那有没有什么方法可以完全让AI像我们一样操作浏览器，完全复用我们的登录凭证，从而安全可靠的访问这些网站呢。这就是今天要给大家介绍的万 star 项目 OpenCLI，项目链接如下： https://github.com/jackwener/opencli 最近也有不少的大模型厂商支持了他们自己的浏览器插件，允许他们自己的coding agent，可以如我们文章中描述的效果一样，自动的操作浏览器。但是大部分插件的原理和使用方法几乎都是完全一样的。通过这个项目，你将可以：让你的智能体可以访问过去那些反爬虫猛烈的网站内容了，比如爬取评论区内容搞舆论分析，或者抓取全网商品最低价 balabala。让你的智能体可以帮你操作浏览器，完成一些重复劳动，比如填写烦人的的公司和学校的调查问卷，或者是在一万个按钮的垃圾 SaaS 产品里面找到正确的功能入口。原料为了顺利的完成本文的教程，你需要准备：一台电脑常规的智能体（openclaw/hermes/claude code/kimi cli/codex/opendeep/…），本文智能体为 claude code 一定量的大模型 token，本文使用的大模型是 deepseek v4 pro 安装过程 1. 安装插件 & 命令行工具先打开我们的浏览器（推荐 chrome），打开 https://chromewebstore.google.com/detail/opencli/ildkmabpimmkaediidaifkhjpohdnifk 下载 opencli 浏览器插件。然后安装 opencli 命令行工具： npm install -g @jackwener/opencli 复制 2. 开启守护进程如果是第一次在本机使用 opencli，先运行命令 opencli daemon restart 复制这会开启一个守护进程来架设本地进程和浏览器的桥梁，这样，后续智能体就能通过 opencli 的这个守护进程来操作浏览器了。不少知名的让 ai 操作浏览器的项目，都是利用这个架构来实现本地进程和浏览器的通信的，比如我曾经介绍过的可以让网页版大模型也能"越狱"接入本地 MCP 的项目 GitHub - srbhptl39/MCP-SuperAssistant: Brings MCP to ChatGPT, DeepSeek, Perplexity, Grok, Gemini, Google AI Studio, OpenRouter, DeepSeek, T3 Chat and more... · GitHub 3. 验证一下是否就绪然后运行如下命令来验证一下 opencli 目前是否工作正常 opencli doctor 复制这会打开一个浏览器调试版本并在控制台输出"Everything looks good!"的信息，说明 opencli 工作环境就绪。 4. 安装 SKILL，完成收尾最后，让我们再安装一下 SKILL： npx skills add jackwener/opencli 复制选择需要安装的 SKILL（全选就好）和你的智能体（默认选择 Claude Code 就好，它会根据 Agents.md 协议安装到 .agent 文件中，几乎所有智能体都支持这个 SKILL 协议，或者你也可以根据你的需求重命名这个文件夹），后面可以扔给我们的智能体耍了。如果你的智能体有 find-skills 这个 skill，也可以用这个 skill 直接安装玩法 1：爬取电商网站信息什么类型的网站内容最难爬取？当然是电商网站和各类的媒体网站了。那我们就来以标准的电商问题来试试水。其实市面上已经有很多成熟的获取电商信息的各类营销平台了，本文的目的并非展示一种替代品，而是展示一种可能性。进入智能体，然后先使用这个 skill /opencli-browser 告诉智能体后续我们使用 opencli 来爬取部分网站的内容。输入： /opencli-browser 复制然后再输入我们的问题，比如我想要经营一家专业的耳机套网店，我想要知道东亚地区的耳机套最低价是多少。我们就输入：帮我看一下 beats 系列耳机耳机套的全网最低价，并把连接返回给我，发货地区限定在亚洲复制按下回车后，就可以和好哥们打把游戏，或者和闺蜜煲个电话粥，过一会儿（大概 10 分钟）就能看到结果了：可以看到，结果已经出来了，但是智能体告诉我们部分数据爬不到是因为淘宝和虾皮需要登录。打开智能体的工作区，也能看到它打开了哪些网页，可以看到大部分网站都卡在了登录上。这里就体现出 opencli 的厉害之处了，作为浏览器插件，opencli 可以复用我们在浏览器上的登录凭证，这意味着只需要我们先完成手动的扫码登录（这一步智能体不可能自己做到，因为需要保证安全性），后续智能体就能访问这些宝贵的平台数据了。我们先点击上面每一个页面来完成登录或者注册。然后像个同事一样再告诉你的智能体：我完成了淘宝和 shopee 的登录，你再看一下，然后再汇总一下结果复制可以看到，在我们完成登录之后，结合了我们的智能体，就能够完整的扒取全网所有电商店铺的相关数据了。并且由于完全"借用"了浏览器的用户信息，除了图形化验证需要人来接管，其他部分都不需要。玩法 2：自动填写表单相信无论你是不是技术人员，都一定非常讨厌公司学校的各种各样填表呀，问卷调查啥的，大部分都是在电脑上到处找，然后再复制粘贴，这种毫无技术含量的事情多做一秒都是浪费时间。但是现在有了 opencli，你只需要先登录表单网站，然后就可以让我们的智能体根据我们的信息来自动填写表单了。你说什么？就算这样还是需要我们把需要的信息找到再复制粘贴给智能体？no no no，成熟的智能体系统（比如 openclaw）往往都有记忆模块，它就像你的私人秘书，你只需要告诉过它一次你的基本信息，这个秘书后续的相关工作就会用到这些私人信息。所以，我们直接输入输入提示词即可：请帮我通过 https://luma.com/3pzu7aq2 报名活动。如果有别的什么需要填写的信息，也请让我得知。复制如果你是第一次用这类智能体，还没养好，那么可以把你的基本信息粘贴到上面的提示词的后面。如果智能体遇到了一些它也不知道的信息，比如它不知道我的身份证，就会再次询问我我们把 AI 当做我们的秘书，它要什么信息，我们给它，它就能把事情办好。输入 AI 需要知道的信息作为提示词后，回车，再过一会儿，可以看到 AI 已经帮我们报名成功了不放心的话，我们可以再次点入网站看一下：可以看到，活动已经报名成功了。是不是非常爽，是不是再也不用在该死的填表上浪费时间了？让我们欢呼这一时刻的来临。给 AI 做一次 mbti 测试既然 AI 可以填写表单，我突发奇想，能不能让 ai 试试做一次 mbti 测试？于是乎，咱们输入如下提示词：进入 https://www.16personalities.com/ch/%E4%BA%BA%E6%A0%BC%E6%B5%8B%E8%AF%95 进行 mbti 测试，然后告诉我测试结果，mbti 测试使用你的人格和判断进行。复制过了一段时间后，就可以看到结果了：当然，一次测试不一定准确，大家感兴趣可以用不同参数，不同模型进行多次测量。结论我们从去年就在不断探索，如何让 AI 不仅仅会说，还能会干活。智能体和各类基础设施就是我们给出的答卷。 opencli 也只是这类基础设施中的一个，它或许不一定会是最终答案。作为浏览器这块地盘的老大，google 也在紧锣密鼓地推进 WebMCP 功能的内测，等到这项技术和对应的生态起来了，让 AI 自由操作浏览器这一课题终将得到彻底解决。 5 个帖子 - 5 位参与者阅读完整话题

商品详情规格和图片爬取转换表格问题求助

LinuxDo 最新话题 · 2026-05-28 11:34:21+08:00 · tech

最近在学习抓包爬数据的，用ai在vibecoding。有无佬知道更精准或者我的问题出在那里。之前没咋用学习过抓包，所以一直很坎坷调试很久，不知道是我提示词的问题还是模型的问题，gpt5.5和小米的2.5pro模型都有用过，但是效果不太理想，需要一直调试，耗时很长，大题是可以出来，比如抓取的信息和csv文件。但是小问题不断。比如信息边界问题。抓取到了非规格的信息，比如标题和描述或者其他按钮。csv中价格不是对应规格的，图片都是同一个不是对应规格的预览图。不是高清图。等一系列小问题。问题是“抓取对应1688详情页面的相关规格信息，最后得到文件products.json，然后将json文件转化成csv，csv中对应格式和json格式相同，以对象分组。同一个对象一行。分别有不同的json单对象中的字段信息作为行名。并且csv中对应图片的单元格，使用函数image处理对应json中的图片字符串方便后续csv联网状态下可以直接加载对应图片” —>简单说就是把商品详情页面的不同规格信息（按钮上的）和对应不同规格的预览高清图片还有价格加载到csv之类的excel中，制作这种脚本或者web工具。想请教下是否有更简单、更精准方式，比如第三方插件。或者其他相关工具。github我也看到有一些。但是很多不符合我的要求，先直接来请教各位大佬了样例是对应商品详情页面案例 products.json案例对应产出案例（带各种小bug的） 1 个帖子 - 1 位参与者阅读完整话题

记录从交易所爬取技术指标的过程

V2EX - 技术 · 2026-05-25 00:22:06+08:00 · tech

最近在优化一个量化策略，需要用到交易所图表里的一些指标，比如 smc 1 、官方 api 一开始我想得很简单：我联系了该交易所的工作人员询问技术指标的 api 。他说交易指标是没有单独 api 的，建议我拉取 k 线自己计算 2 、自己算于是我打算自己算，于是找到了 py 相关的库 smartmoneyconcepts ，但是我发现自己拉取 k 线算的和交易所有很大的出入，完全不一样，根本用不了啊 2 、网站爬于是我决定还是从交易所网页上爬取我发现点击交易指标时候，是没有新的接口调用的，说明是前端渲染的实际就是前端渲染的 canvas ，那就有很有可能获取到 js 最终发现了 F12 → Sources → Page ，通过 search 搜索到了对应算法 78686-fa6ec3f3500b6300.js ，通过 gpt 把这个 6000 多行的算法转化成了 py ，以为这样就结束了，但是最坑的来了！ 3 、坑一样的算法但是计算指标算出来就是不一样！算出结果还是和交易所的不吻合，然后我打印发现交易所给的公开 k 线 api 和网页上实时的 api 相同时间数据不一样（有比如）！！！如果你用交易所公开的 api 永远算不出相同的指标！下面是细节，相同的时间戳 k 线值不一样~！公开 K 线接口返回的是： Open: 0.5316 High: 0.5354 Low : 0.5251 Close: 0.5274 但网页图表接口返回的是： Open: 0.5311 High: 0.5349 Low : 0.5263 Close: 0.5316 然后我把公开接口换成了内部接口，我改成模拟网页请求，requests.Session()，这样算法一样，数据一样总一样了吧但问题还没完全结束。因为 SMC 这种指标不是只看最后几根 K 线，它还会记住前面的结构。比如前面哪里形成了高点、低点，哪里有 OB ，哪些 OB 已经失效，当前 K 线有没有临时结构。这些都是隐藏的规则所以我又发现一个细节：网页如果只加载 limit=1000 根 K 线，那 Python 也要按 1000 根去算。如果我自己多拉 60 天、90 天，历史起点不一样，后面的结构也会跟网页不一样。后面又对齐了几个小隐藏的规则，比如：网页用 limit=1000 ，Python 也用 1000 根 OB 的 ATR 处理要和网页一致 BOS / CHoCH 在网页上显示的是一条结构线，不是单根 K 线最后基本对齐了： K 线对齐 Order Block 对齐 BOS / CHoCH 基本对齐也就是说，最后 Python 算出来的 SMC ，已经和交易所图上的 SMC 完全一致了。哇！这次最大的收获是：以后这个交易所网页上的基本所有的技术指标，就算官方不给 API ，也可以用类似方法，还原出来。

记录从交易所爬取技术指标的过程

V2EX - 技术 · 2026-05-25 00:22:06+08:00 · tech

最近在优化一个量化策略，需要用到交易所图表里的一些指标，比如 smc 1 、官方 api 一开始我想得很简单：我联系了该交易所的工作人员询问技术指标的 api 。他说交易指标是没有单独 api 的，建议我拉取 k 线自己计算 2 、自己算于是我打算自己算，于是找到了 py 相关的库 smartmoneyconcepts ，但是我发现自己拉取 k 线算的和交易所有很大的出入，完全不一样，根本用不了啊 2 、网站爬于是我决定还是从交易所网页上爬取我发现点击交易指标时候，是没有新的接口调用的，说明是前端渲染的实际就是前端渲染的 canvas ，那就有很有可能获取到 js 最终发现了 F12 → Sources → Page ，通过 search 搜索到了对应算法 78686-fa6ec3f3500b6300.js ，通过 gpt 把这个 6000 多行的算法转化成了 py ，以为这样就结束了，但是最坑的来了！ 3 、坑一样的算法但是计算指标算出来就是不一样！算出结果还是和交易所的不吻合，然后我打印发现交易所给的公开 k 线 api 和网页上实时的 api 相同时间数据不一样（有比如）！！！如果你用交易所公开的 api 永远算不出相同的指标！下面是细节，相同的时间戳 k 线值不一样~！公开 K 线接口返回的是： Open: 0.5316 High: 0.5354 Low : 0.5251 Close: 0.5274 但网页图表接口返回的是： Open: 0.5311 High: 0.5349 Low : 0.5263 Close: 0.5316 然后我把公开接口换成了内部接口，我改成模拟网页请求，requests.Session()，这样算法一样，数据一样总一样了吧但问题还没完全结束。因为 SMC 这种指标不是只看最后几根 K 线，它还会记住前面的结构。比如前面哪里形成了高点、低点，哪里有 OB ，哪些 OB 已经失效，当前 K 线有没有临时结构。这些都是隐藏的规则所以我又发现一个细节：网页如果只加载 limit=1000 根 K 线，那 Python 也要按 1000 根去算。如果我自己多拉 60 天、90 天，历史起点不一样，后面的结构也会跟网页不一样。后面又对齐了几个小隐藏的规则，比如：网页用 limit=1000 ，Python 也用 1000 根 OB 的 ATR 处理要和网页一致 BOS / CHoCH 在网页上显示的是一条结构线，不是单根 K 线最后基本对齐了： K 线对齐 Order Block 对齐 BOS / CHoCH 基本对齐也就是说，最后 Python 算出来的 SMC ，已经和交易所图上的 SMC 完全一致了。哇！这次最大的收获是：以后这个交易所网页上的基本所有的技术指标，就算官方不给 API ，也可以用类似方法，还原出来。

/tag/爬取