数仓 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

要不要开一个新的开源小项目（已有劣质实现）支持细分场景， 10TB+ 级 SQL Server 传统数仓迁移上云，这种需求还多吗

V2EX - 技术 · 2026-06-01 10:38:55+08:00 · tech

回想起来已将近四年过去了，那时我刚出互联网，还没被外包抹去棱角，第一次知道到 Consulting Company ，一切都很新奇。初入咨询（外包）行业，我被分配的第一个任务是把 SQL Server 上 10 TB 数据每天全量迁移一份到 AWS Redshift 数仓，很有挑战，很有意思。我用一个多月时间写出了第一版，速度差了点，又花半个月优化出第二版，速度可以了，关键是 PIPE 。那还是手搓代码的时候，我用 Python 将几个工具粘合成一条管道线，对于无法输出 stream 的，我加了 FIFO 。很有意思，不过没人懂一个 10 年 UNIX 爱好者的快乐。后来我把核心的部分独立出来一个很粗糙的小工具。一晃竟四年了，现在是 Vibe Coding 的时代，以前我不会写前端，现在我写了很多很多前端。以前我不会写 C 、写 Rust 、写 .Net ，现在我有 AI 了。过去了那么久，现在又有了同样的需求，要把 SQL Server 迁移上云，只是不再是 Redshift ，换成了 Snowflake ，好像一下子所有人都要迁 Snowflake 。可是我已经没有任何兴趣了，这是很无聊的事。可是我已经要离开这个项目了，这是很恶心的地方。一切都与我无关，看戏的同时，我又在想，要不要弥补当初胶水男孩的遗憾，再来一次，可以从底层开始设计，我有 AI 。

V2EX - 技术 · 2026-06-01 10:38:55+08:00 · tech

回想起来已将近四年过去了，那时我刚出互联网，还没被外包抹去棱角，第一次知道到 Consulting Company ，一切都很新奇。初入咨询（外包）行业，我被分配的第一个任务是把 SQL Server 上 10 TB 数据每天全量迁移一份到 AWS Redshift 数仓，很有挑战，很有意思。我用一个多月时间写出了第一版，速度差了点，又花半个月优化出第二版，速度可以了，关键是 PIPE 。那还是手搓代码的时候，我用 Python 将几个工具粘合成一条管道线，对于无法输出 stream 的，我加了 FIFO 。很有意思，不过没人懂一个 10 年 UNIX 爱好者的快乐。后来我把核心的部分独立出来一个很粗糙的小工具。一晃竟四年了，现在是 Vibe Coding 的时代，以前我不会写前端，现在我写了很多很多前端。以前我不会写 C 、写 Rust 、写 .Net ，现在我有 AI 了。过去了那么久，现在又有了同样的需求，要把 SQL Server 迁移上云，只是不再是 Redshift ，换成了 Snowflake ，好像一下子所有人都要迁 Snowflake 。可是我已经没有任何兴趣了，这是很无聊的事。可是我已经要离开这个项目了，这是很恶心的地方。一切都与我无关，看戏的同时，我又在想，要不要弥补当初胶水男孩的遗憾，再来一次，可以从底层开始设计，我有 AI 。

要不要开一个新的开源小项目（已有劣质实现）支持细分场景， 10TB+ 级 SQL Server 传统数仓迁移上云，这种需求还多吗

V2EX - 技术 · 2026-06-01 08:49:08+08:00 · tech

回想起来已将近四年过去了，那时我刚出互联网，还没被外包抹去棱角，第一次知道到 Consulting Company ，一切都很新奇。初入咨询（外包）行业，我被分配的第一个任务是把 SQL Server 上 10 TB 数据每天全量迁移一份到 AWS Redshift 数仓，很有挑战，很有意思。我用一个多月时间写出了第一版，速度差了点，又花半个月优化出第二版，速度可以了，关键是 PIPE 。那还是手搓代码的时候，我用 Python 将几个工具粘合成一条管道线，对于无法输出 stream 的，我加了 FIFO 。很有意思，不过没人懂一个 10 年 UNIX 爱好者的快乐。后来我把核心的部分独立出来一个很粗糙的小工具。一晃竟四年了，现在是 Vibe Coding 的时代，以前我不会写前端，现在我写了很多很多前端。以前我不会写 C 、写 Rust 、写 .Net ，现在我有 AI 了。过去了那么久，现在又有了同样的需求，要把 SQL Server 迁移上云，只是不再是 Redshift ，换成了 Snowflake ，好像一下子所有人都要迁 Snowflake 。可是我已经没有任何兴趣了，这是很无聊的事。可是我已经要离开这个项目了，这是很恶心的地方。一切都与我无关，看戏的同时，我又在想，要不要弥补当初胶水男孩的遗憾，再来一次，可以从底层开始设计，我有 AI 。

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-16 10:19:17+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-16 10:19:17+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-15 21:52:32+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

相关专题

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-15 21:52:32+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-15 21:52:32+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

相关专题

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-15 14:09:22+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-15 13:09:22+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-15 12:09:22+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-15 12:09:22+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-15 11:09:22+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-15 11:09:22+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

Doris 增量数据刷新方案

V2EX - 技术 · 2026-05-15 11:00:24+08:00 · tech

各位巨佬，真没招呀，在线拜求目前我们引入了 Doris 实时数仓，版本 2.1 ，FE 8c 32g BE 16c 32g 数据处理流程是数据进入到 Doris 后开始使用 Doris 的 insert into select 进行 dwd dwm dws ads 等层级的数据处理。由于都是业务数据，不是纯新增数据，所以都是主键模型。某个业务维护的相关表需要先根据 update_time 统计出关联的业务字段，写入到一张增量表中，最后由增量表作为驱动表。也就是在一个大的多表 JOIN sql 中，增量表作为 build 端，利用 RUNTIME FILTER 下推过滤大表数据从而实现表数据更新现在问题就出现在这个增量驱动表上，增量表数据很少可能也就 3 万~5 万区间，5 分钟跑一次，每次全量刷新。然后利用 ANALYZE TABLE 刷新增量表的统计新的，我没想到的是，增量表数据进去了以后，统计信息居然需要等 3 分钟在执行才能统计到条数，这也就导致 Doris 优化器 CBO 在利用统计信息判断 join 的时，增量表如果统计信息是 0 ，或者健康度太低，就不会走 RF ，从而进行全表扫描，导致 OOM ！！我尝试过使用 /*+ SET_VAR(disable_join_reorder=true) / 或/ + LEADING(a b c) */ 都不行，效率太差，内存使用更高，原本能成功的，用了这两个优化后失败率更高了。现在是我每两个小时执行一次增量表统计信息收集，然后 DORIS 的 ETL 任务能抗两小时，两小时后就开始报错 OOM 了。所以想请教下各位巨佬，Doris 不是各个大厂都在推么，难道没这种问题么？还是我使用方式错了，我人要麻了。。。

【北京】阿里健康招P7数仓

linux.do · 2026-04-19 13:18:21+08:00 · tech

职位信息岗位：数据开发主管类型：全职工作地点：北京望京薪资：固定薪资+ 期权（面议）职位描述 1 、基于阿里集团大数据技术体系，负责大数据技术体系的规划建设，应用数据仓库技术解决业务痛点； 2 、跟踪和调研大数据处理和分析的新技术，推动大数据平台技术持续演进； 3 、构建大数据质量体系，持续提升数据质量； 4 、通过技术和业务场景的紧密结合，让数据发挥最大业务价值。职位要求 1 、2 年以上大数据处理研发经验； 2 、扎实的 SQL 开发能力； 3 、熟练使用数据库同步、日志采集工具； 4 、熟悉 hadoop 、HDFS 、Hbase 、Hive 等技术； 5 、熟悉 flink 、storm 或 spark streaming 等流式或流批一体处理框架中的一种或多种； 6 、熟练掌握数据仓库建模和 ETL 设计方法论； 7 、有基于数据分析推动业务提升或优化的实际案例； 8 、有数据挖掘、机器学习经验者优先考虑； 9 、有大型医药领域大数据分析经验者优先考虑。投递邮箱： [email protected] 1 个帖子 - 1 位参与者阅读完整话题

/tag/数仓