logo
P
Prompt Master

Prompt 大师

掌握和 AI 对话的艺术

Multimodal CoT

融合视觉与文本的 CoT 两阶段框架

最近,Zhang 等人(2023)提出了一种多模态思维链提示方法。传统的思维链提示方法侧重于语言模态。相比之下,多模态思维链提示将文本和视觉融入到一个两阶段框架中。第一步涉及基于多模态信息的理性生成。接下来是第二阶段的答案推断,它利用生成的理性信息。

多模态 CoT 模型(1B)在 ScienceQA 基准测试中的表现优于 GPT-3.5。

MCOT

图片来源:Zhang et al. (2023)

进一步阅读:

1v1免费职业咨询