多模态CoT思维链架构来了现已开源|来自厦大腾讯优图

2024-06-07 14:16:38
浏览次数:
返回列表

  多模态CoT思维链架构来了现已开源|来自厦大腾讯优图在没有视觉上下文的情况下,询问GPT-3.5烧杯的最大刻度,会由于缺乏图像信息而无法回答,出现决策幻觉,要求提供更多信息。

  对于目标检测相关的子任务,传统方法使用的低级感知工具(如检测器)只能获得基本数据(如坐标)。这些低级线索需要后续的进一步整合才能得到有用信息,这会增加推理负担。

  由MLLM扮演的高级认知专家可以直接获得高级推理信息(如目标的相对数量关系),有助于后续推理。

  TextIntel Extract:此模块会按要求针对性地提取图像中的文本。它对于包含文本和图形元素混合的图像特别有用。

  ObjectQuant Locator:此模块用于识别并定位图像中的对象。它在比较数量和识别空间关系等方面有优势。

  VisionIQ Analyst:此模块用于处理和解释视觉数据,它能够处理任何与图像内容相关的查询,善于分析图像。

  ChartSense Expert:此模块专门分析和解释图表中的信息。它可以提取数据点,了解趋势,并识别图表中的标题、轴、标签和图例等关键组件。

  决策生成部分让MLLM或LLM扮演决策生成器,也就是充当决策大脑,先对问题进行分析,并结合各专家模块特点,分配子任务,并给出分配理由。

  例如要比较两瓶溶液的温度大小时,Cantor会先分析粒子温度与粒子动能的关系,分析粒子动能的表达式为1/2mv^2。并结合图像信息与专家模块特点,为TextIntel Extractor和ObjectQuant Locator分别分配子任务:

  接下来,团队提供多个专家模块,以完成各种类型的子任务,充当决策的四肢。这种集成确保了决策生成既全面又精细,能够充分利用了每个模块的优势。

  此后,决策生成器根据从原理分析中获得的见解,为选定的专家模块量身定制任务,这种动态的任务分配提高了Cantor的效率和性能。

  值得注意的是,团队只使用MLLM来扮演各种专家模块,以获得高级的认知信息辅助推理(如数量的大小关系,位置的相对关系)。

  其中包括了三个关键,首先通过提示,让MLLM或LLM扮演一个知识渊博并且善于整合信息的答案生成器,这既保证他的专业性,能对问题有基本判断,又保证他能更好地整合信息。

  其次为了可解释性,展示模型的思维过程并提高其思维能力,要求它先生成为答案的基本原理,然后生成相应的选项。

  结果显示使用GPT-3.5作为基本LLM进行决策和回答,Cantor的准确率达到82.39%,比GPT-3.5提示的思想链(CoT)提高了4.08%。

  使用Gemini作为决策生成器和答案生成器,Cantor的准确率达到84.96%,大大超过了所有免训练方法,甚至优于UnifiedQA(CoT)和MM-CoT等微调方法博业体育

  可以看出,基于GPT-3.5的Cantor在各种问题上都显著超过了基线,甚至超过了一些著名的MLLMs,如SPHINX和LLaVA-1.5。

  上表比较了不同方法的性能。从一般的视觉问题回答到专业的数学问题,Cantor在几乎所有类型的问题中都大大超过了基线。

  可以看出Cantor通过任务分配,以及让Gemini进行角色扮演,做到了原来难以做到的事情,并且正确得出了答案。

  值得注意的是,即使Gemini在一些问题上答对了,但是它的推理过程其实是有问题的,相比之下Cantor没有出现这个问题。

搜索