WWW.YOUINFO.SITE
标签聚合 向量

/tag/向量

v2ex · 2026-05-31 20:17:33+08:00 · tech

最近在做一个本地优先的 PDF 论文阅读工具,叫 Lumenfolio 。 GitHub: https://github.com/tanghui315/lumenfolio 技术原理介绍文章: https://zhuanlan.zhihu.com/p/2044458693488637381 起因其实很简单:现在论文越来越多,找论文不难,难的是打开一篇论文之后,怎么快速、可靠地理解它。 很多 PDF Chat 工具现在都能做总结,但我自己用下来最不满意的是:回答经常很流畅,但证据不够清楚。有时候模型看起来像是读懂了,实际上可能只是根据上下文补了一段“很像论文内容”的话。 所以我想做的不是单纯的“和 PDF 聊天”,而是一个更偏证据链的论文阅读工具: 本地优先,PDF 、索引、聊天历史、笔记都在本机 回答尽量能回到原文 page / quote / bbox 不默认使用向量数据库 用 PDF 结构树 + SQLite FTS + page/block evidence 做检索 支持 Agentic RAG:不是一次检索直接回答,而是分步找证据、判断证据是否足够,再生成回答 支持 PDF 翻译,接了 PDFMathTranslate sidecar ,目标是保留双栏、图表、公式等版面结构 支持锚定笔记,笔记可以回跳到 PDF 原文位置 为什么没有一开始就用向量检索? 不是说向量检索没用。跨文档搜索、大规模知识库里它很有价值。但在“单篇论文精读”这个场景里,我更关心的是可解释性和证据路径。 向量检索的问题是,它召回的是语义相似 chunk ,但语义相似不等于证据充分。论文里的关键信息经常分散在 abstract 、method 、实验表格、figure caption 里。单靠 chunk 相似度,很容易召回“相关但不够”的内容。 所以我现在的思路是先把 PDF 解析成本地可审计的证据层: PDF -> pages / lines / blocks / chunks -> structure tree -> SQLite FTS -> bbox citations -> tables / visual evidence -> agentic retrieval -> answer + citations + trace 目前基础索引在一些常见论文上可以做到几秒级,目标是打开 PDF 后尽快进入可读、可问、可跳转的状态,而不是先等一套很重的索引流程。 现在项目还比较早期,肯定有不少粗糙的地方,比如复杂 PDF 结构识别、多文档对比、表格理解都还需要继续迭代。但主线已经跑通了:本地 PDF 阅读、索引、无向量 Agentic RAG 、证据链、翻译和笔记。 长远一点,我希望它能变成一个面向论文阅读和分析的 Cursor-like workspace:不是泛泛地总结 PDF ,而是围绕论文结构、证据、图表、实验和笔记来帮助理解论文。 项目地址: https://github.com/tanghui315/lumenfolio 技术原理介绍文章: https://zhuanlan.zhihu.com/p/2044458693488637381 如果你也经常读论文,或者对无向量 RAG 、PDF 结构解析、本地优先桌面应用感兴趣,欢迎看看,也欢迎提 issue / 拍砖。

IT之家 · 2026-05-28 19:51:24+08:00 · tech

IT之家 5 月 28 日消息,据财联社,小鹏集团董事长何小鹏今晚在公司一季度财报电话会上表示,小鹏面向量产版本的新一代 IRON 人形机器人软硬件研发进展顺利,并即将进入 ET2 软硬件合围阶段,计划于 今年三季度正式亮相 ,目标今年底 实现高阶人形机器人量产 ,首先在小鹏门店试商用,明年起面向中国及海外商业客户交付。 何小鹏透露,从明年起,人形机器人的硬件收入和 AI 模型收入将会是 小鹏集团收入和毛利增长的重要驱动力之一 。 本月早些时候有消息称,小鹏集团近日召开机器人量产动员大会,汽车、动力、制造、测试、通用智能等多个中心近千名员工参会,标志着小鹏机器人业务 正式进入量产冲刺阶段 。 据IT之家此前报道,2025 年 11 月, 小鹏全新一代 IRON 人形机器人亮相 ,号称“最拟人的人形机器人”。 今年 2 月,小鹏汽车与广州天河区人民政府正式签署战略合作框架协议。小鹏人形机器人全链条量产基地将落地于广棠科创城具身智能产业园。一期工程将建设高标准机器人厂房、动力站房及相关配套设施,为小鹏高阶人形机器人产业化提供关键载体与基础支撑。

V2EX - 技术 · 2026-05-26 19:48:53+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 18:48:53+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 18:48:53+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 18:48:53+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 18:12:02+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:59:44+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:59:44+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:59:44+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:59:44+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:36:34+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:02:38+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 12:33:24+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 12:21:29+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 12:02:31+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 11:46:49+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 11:46:49+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。