它可以在一堆包含图片文档中找到,比如“这个产品的最高温度是多少?”或者“这篇文章主要讲了什么?”,
ViDoRAG能看文字、看图片、看图表,核心是它基于高斯混合模型的多模态混合检索策略,及多智能体迭代推理机制,来提升模型在视觉丰富文档上的检索和推理能力
多智能体协作:
1、Seeker,负责快速浏览文档,找出可能相关的图片或页面
2、Inspector,仔细检查Seeker找到的内容,判断是否真的有用,提出进一步建议
3、Answer Agent,根据Inspector的结果给出准确的答案
此外还开源了一个专注于大规模数据文档集合下的检索和复杂推理的数据集,ViDoSeek 用来测试ViDoRAG,里面包含文本、图表、表格、布局等各种各样的问题和对应的答案,每个问题都有唯一的答案,并且指明了答案在文档的哪一页
地址: