对于多模态根基模子,咱们愿望其不光可能处置特定的多模态相关使命 ,还愿望其处置单模态使命时也具备优异的功能 。阿⾥达摩院团队发现现有的模子每一每一不能很好的失调模态相助以及模态瓜葛的下场,这限度了模子在种种单模态以及跨模态卑劣使命的功能 。
基于此 ,达摩院的钻研者提出了 mPLUG-2,其经由模块化的⽹络妄想妄想来失调多模态之间的相助以及瓜葛下场,mPLUG-2 在 30 + 多 / 单模态使命 ,取患上划一数据量以及模子规模 SOTA 概况 Comparable 下场 ,在 VideoQA 以及 VideoCaption 上逾越 Flamingo 、VideoCoca 、GITv2 等超⼤模子取患上相对于SOTA 。此外,mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新使命,不断了 mPLUG 系列的模块化磨炼脑子,把 LLM 降级为⼀个多模态⼤模子。mPLUG-2 的研品评辩说文已经被 ICML 2023 接管。
论⽂地址