大家好,我这边准备参加 2026 年全国税务师行业 “AI 赋能涉税专业服务技能竞赛”。
这个比赛比较特殊,不是普通聊天,也不是单纯写提示词,而是在 90 分钟内用 AI 完成涉税案例解析,流程大概是:
提示词设计 → AI 初稿 → 人工纠错 → 最终正式税务报告
初赛、复赛线上进行,每个事务所最多 6 个终端参赛。每个终端最多选 3 道案例题,题型分为:
- 基础题:企业所得税汇算、研发费用加计扣除、发票管理、基础优惠申请等。
- 中级题:土地增值税清算、高新认定、跨境简单涉税、税务风险评估、数据分析等。
- 高级题:并购重组、转让定价、税务争议、集团税务合规、国际税收、海外架构等。
分值权重是:基础 20%,中级 30%,高级 50%。
关键限制:初赛、复赛官方限定使用三个通用 AI 工具:
- 豆包
- 通义千问
- DeepSeek
决赛还会考 AI 智能体、API、RPA、OCR 等辅助工具融合应用。
我现在想请教各位大佬:这三个国产大模型到底应该怎么分工,才能在税务专业场景里最稳?
我目前初步设想是:
一、模型分工假设
1. 拆题模型
任务:从题干里提取主体、税种、期间、金额、资料、问题、业务链条、明显矛盾。
希望模型能力:
- 中文长文本理解强;
- 表格化输出稳定;
- 不乱编事实;
- 能把复杂题干拆成事实矩阵。
想请教:豆包、千问、DeepSeek 里,哪个更适合做"题干结构化拆解"?
2. 红队反证模型
任务:专门找 AI 初稿里的错误,包括:
- 政策适用错误;
- 税种混淆;
- 生效时间、废止时间、新旧政策衔接;
- 含税 / 不含税错误;
- 计算公式错误;
- 优惠条件遗漏;
- 程序法、证据链、资料缺口;
- 高级题里的主路径 / 备选路径 / 风险路径。
希望模型能力:
- 推理强;
- 会质疑;
- 不顺着初稿胡说;
- 能指出"证据不足,不能下结论"。
想请教:DeepSeek 是否最适合红队?千问或豆包有没有更稳的审查模式?
3. 正式报告成稿模型
任务:把人工确认后的事实、政策、计算和风险点,写成正式涉税专业服务报告。
希望模型能力:
- 中文公文 / 专业报告表达稳;
- 结构清晰;
- 语气审慎;
- 不乱加政策和事实;
- 能写"资料不足"“保留意见”“风险提示”。
想请教:豆包、千问、DeepSeek 里,哪个生成正式税务报告最像专业执业文本?
4. 质检模型
任务:提交前检查报告是否齐全:
- 是否有提示词设计;
- 是否有 AI 初稿;
- 是否有人工纠错;
- 是否有最终报告;
- 是否有政策依据;
- 是否有计算过程;
- 是否有风险提示;
- 是否存在资料不足但结论写死。
想请教:哪个模型适合做最后 5 分钟的稳定质检?
二、我想实测的模型能力
希望各位大佬帮忙提供经验,尤其是下面这些:
- 豆包、千问、DeepSeek 在中文税务、法律、政策类任务中各自强项是什么?
- 哪个模型最容易幻觉政策文号、条款、金额?
- 哪个模型最适合长题干和多附件分析?
- 哪个模型最适合表格、计算、公式复核?
- 哪个模型最适合"找错"和反证?
- 哪个模型写正式中文报告最稳?
- Web 版和 API 版能力差异大吗?
- 有没有适合税务 / 审计 / 法律场景的提示词套路?
- 如果要做内部知识库,豆包、千问、DeepSeek 哪套生态更适合快速落地?
- 决赛如果要展示 OCR + RPA + API + 知识库 + 智能体,哪家工具链更容易做出效果?
三、我的比赛打法设想
90 分钟内不打算让一个模型从头包到尾,而是多模型流水线:
0-10 分钟:人工先读题,标出主体、税种、期间、金额、异常点。
10-20 分钟:模型 A 拆题,输出事实矩阵和初步路径。
20-45 分钟:模型 B 红队审查,专门找政策、计算、逻辑、证据问题。
45-65 分钟:人工税务人员拍板,决定采纳、删除、保留、补资料。
65-75 分钟:模型 C 写正式报告。
75-85 分钟:整理人工纠错记录。
85-90 分钟:最后质检,不再大改。
我现在最想找到每个模型最适合的位置,而不是盲目迷信某一个模型。
四、希望大佬们给建议
如果你用过豆包、千问、DeepSeek 做过以下任务,求分享经验:
- 税务 / 法律 / 审计 / 财务分析;
- 政策检索和适用判断;
- 长文档阅读;
- 表格和计算复核;
- 报告写作;
- OCR / RPA / API / 智能体;
- 多模型协作工作流;
- 国内模型私有化或知识库搭建。
也欢迎直接推荐:
- “豆包适合干什么”
- “千问适合干什么”
- “DeepSeek 适合干什么”
- “哪个环节千万别用哪个模型”
- “怎么设计测试题 benchmark”
- “怎么防止政策幻觉”
- “怎么做最终人工审核清单”
我的目标不是炫技,而是把国产大模型在真实涉税专业服务场景里用稳、用深、用出可复制的方法。
感谢各位大佬。
1 个帖子 - 1 位参与者