想请教一下各位佬:工业生产企业内部知识库 / RAG 系统,应该怎么选型和落地?
目前我在尝试给自己公司搭建一套内部知识库,希望把过去积累的各种业务资料、产品资料、型号参数、性能数据、适用场景、报价/询价记录、历史项目经验等内容,更系统地沉淀下来,方便后续检索和复用。
核心目标主要有两个:
第一个是提高业务资料的检索效率
过去很多信息散落在excel、pdf、图片、聊天记录、邮件或者老员工经验里。新人入职后,想快速理解产品、型号、性能、适用范围,经常需要到处问人或者翻资料,效率比较低。
第二个是让ai能辅助回答业务问题
比如用户输入一个比较模糊的需求,ai能根据内部知识库里的产品资料、型号参数、历史案例等信息,帮忙推荐可能合适的产品方向、型号、供应商信息,或者提示需要进一步确认哪些参数。
我们公司本身是做工业生产相关业务的,所以数据特点大概是:
产品型号多;
参数、性能、适用范围比较重要;
很多资料是半结构化/非结构化的,比如 PDF、Excel、图片、说明书、报价单等;
有些信息需要长期沉淀,最好后续能持续补充、维护和更新;
希望新人也能通过自然语言查询快速上手业务。
目前我比较纠结的是技术方向和工具选型。
我看了一些传统RAG方案,比如Dify这类,也看到不少反馈说实际落地后查询准确率并不稳定,尤其是遇到工业产品这种参数型、型号型、强业务语境的数据时,可能会出现召回不准、答非所问、幻觉、引用不清楚等问题。
另外市面上也有一些云厂商方案,比如阿里百炼之类的,号称低代码搭建知识库、接入大模型比较简单。但我不太确定这类平台在真实业务场景里的效果如何,尤其是面对比较复杂的企业内部产品库和历史业务数据时,后续可控性、迁移成本、准确率优化空间怎么样。
顺带问个蠢问题,比如notebookllm、ima这种,虽然定位是个人知识库,但是拓展到企业会有什么问题吗?
感觉这个方向相比大模型本身热度低很多,但对企业实际业务应该挺有价值的。真心求教,感谢各位! ![]()
15 个帖子 - 11 位参与者