WWW.YOUINFO.SITE
标签聚合 预处理

/tag/预处理

V2EX - 技术 · 2026-05-26 19:48:53+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 18:48:53+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 18:48:53+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 18:48:53+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 18:12:02+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:59:44+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:59:44+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:59:44+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:59:44+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:36:34+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 16:02:38+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 12:33:24+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 12:21:29+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 12:02:31+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 11:46:49+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 11:46:49+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 11:24:24+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 11:24:24+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

V2EX - 技术 · 2026-05-26 11:06:50+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

v2ex · 2026-05-26 11:06:50+08:00 · tech

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。 我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。 从网页内容中,提取“中国人民银行的编制”,效果不错: 从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: 可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。 这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。 所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。