机器之心专栏
纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的 GPT-4 具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4 和 LLaVA 问世不久,阿里达摩院便推出 mPLUG-Owl ,一个基于模块化实现的多模态大模型。
(资料图片)
mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作,延续了 mPLUG 系列的模块化训练思想,把 LLM 升级为一个多模态大模型。在 mPLUG 系列工作中,之前的 E2E-VLP 、mPLUG 、mPLUG-2 分别被 ACL2021 、EMNLP2022、ICML2023 录用,其中 mPLUG 工作在 VQA 榜单首超人类的成绩。
今天要介绍的是 mPLUG-Owl,该工作不仅通过大量 cases 展示出优秀的多模态能力,还第一次针对视觉相关的指令理解提出一个全⾯的测试集 OwlEval,通过人工评测对比了已有模型,包括 LLaVA 、MiniGPT-4 、BLIP-2 以及系统类 MM-REACT 等工作,实验结果表明 mPLUG-Owl 展示出更优的多模态能力,尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方⾯表现突出
论文链接:https://arxiv.org/abs/2304.14178
代码链接:https://github.com/X-PLUG/mPLUG-Owl
ModelScope体验地址:
https://modelscope.cn/studios/damo/mPLUG-Owl/summary
HuggingFace体验地址:
https://huggingface.co/spaces/MAGAer13/mPLUG-Owl
多模态能力展示
我们把 mPLUG-Owl 与现有工作进行对比来感受一下 mPLUG-Owl 的多模态效果,值得一提的是,该工作中评比的测试样例基本上都来自已有工作,避免了 cherry pick 问题。
下图 6 展示了 mPLUG-Owl 很强的多轮对话能力。
从图 7 中可以发现, mPLUG-Owl 具有很强的推理能力。
如图 9 展示了一些笑话解释例⼦。
在该工作中,除了评测对比外,该研究团队还观察到 mPLUG-Owl 初显一些意想不到的能力,比如多图关联、多语⾔、文字识别和文档理解等能力。
如图 10 所示,虽然在训练阶段并没有进行多图关联数据的训练,mPLUG-Owl 展现出了一定的多图关联能力。
如图 11 所示,尽管 mPLUG-Owl 在训练阶段仅使用了英文数据,但其展现出了有趣的多语⾔能力。这可能是因为 mPLUG-Owl 中的语⾔模型使用了 LLaMA,从而出现了这一现象。
尽管 mPLUG-Owl 没有在带有标注的文档数据上进行训练,但其仍然展现出了一定的文字识别和文档理解能力,测试结果如图 12 所示。
方法介绍
该工作提出的 mPLUG-Owl,其整体架构如图 2 所示。
模型结构:它由视觉基础模块 (开源的 ViT-L)、视觉抽象模块 以及预训练语⾔模型 ( LLaMA-7B) 组成。视觉抽象模块将较⻓的、细粒度的图像特征概括为少量可学习的 Token,从而实现对视觉信息的⾼效建模。⽣成的视觉 Token 与文本查询一起输⼊到语⾔模型中,以⽣成相应的回复。
模型训练:采用两阶段的训练方式
第一阶段:主要目的也是先学习视觉和语⾔模态间的对⻬。不同于先前的工作, mPLUG-Owl 提出冻住视觉基础模块会限制模型关联视觉知识和文本知识的能力。 因此 mPLUG-Owl 在第一阶段只冻住 LLM 的参数,采用 LAION-400M, COYO-700M, CC 以及 MSCOCO 训练视觉基础模块和视觉摘要模块。
第⼆阶段:延续 mPLUG 和 mPLUG-2 中不同模态混合训练对彼此有收益的发现,Owl 在第⼆阶段的指令微调训练中也同时采用了纯文本的指令数据 (52kfrom Alpaca+90k from Vicuna+50k from Baize) 和多模态的指令数据 (150k from LLaVA)。作者通过详细的消融实验验证了引⼊纯文本指令微调在指令理解等方⾯带来的收益。第⼆阶段中视觉基础模块、视觉摘要模块和原始 LLM 的参数都被冻住,参考 LoRA,只在 LLM 引⼊少量参数的 adapter 结构用于指令微调。
实验结果
SOTA 对比
为了比较不同模型的多模态能力,该工作构建一个多模态指令评测集 OwlEval。由于⽬前并没有合适的自动化指标,参考 Self-Intruct 对模型的回复进行人工评测,打分规则为:A="正确且令人满意";B="有一些不完美,但可以接受";C="理解了指令但是回复存在明显错误";D="完全不相关或不正确的回复"。
对比结果如下图 3 所示,实验证明 Owl 在视觉相关的指令回复任务上优于已有的 OpenFlamingo 、BLIP-2 、LLaVA、MiniGPT-4。
多维度能力对比
多模态指令回复任务中牵扯到多种能力,例如指令理解、视觉理解、图⽚上文字理解以及推理等。为了细粒度地探究模型在不同能力上的⽔平,本文进一步定义了多模态场景中的 6 种主要的能力,并对 OwlEval 每个测试指令人工标注了相关的能力要求以及模型的回复中体现了哪些能力。
结果如下表格 6 所示,在该部分实验,作者既进行了 Owl 的消融实验,验证了训练策略和多模态指令微调数据的有效性,也和上一个实验中表现最佳的 baseline— MiniGPT4 进行了对比,结果显示 Owl 在各个能力方⾯都优于 MiniGPT4。
©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
-
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力机器之心专栏机器之心编辑部纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的GP
-
今热点:王清宪就加快打造万亿级汽车产业集群在芜湖市开展调研按照省委关于开展主题教育和大兴调查研究的部署安排,5月5日至7日,省长王清宪重点就加快打造万亿级汽车产
-
当前热讯:中金:维持供应短缺溢价可能在下半年推升油价中枢的判断中金公司(行情601995,诊股)研报表示,短期而言,油价主导因素或仍为海外需求预期能否验证,当前来看,已计
-
保护人民健康 国家中医药管理局规范中医养生保健服务为促进和规范中医养生保健服务发展,保护人民健康,国家中医药管理局近日印发《中医养生保健服务规范(试
-
要闻:华安法国CAC40ETF净值下跌1.81% 请保持关注金融界基金05月08日讯华安法国CAC40ETF基金05月04日下跌0 54%,现价1 468元,成交284 46万元。当前本基金场
-
属龙的四大桃花年,属龙人2022年桃花劫 当前简讯猪:大智若愚别看那些笨笨的人,都是很好欺负,尽情地让你使唤,而不求回报的。因此呢,属猪的人,天生就是
-
Letme婚礼:RNG团建游戏|微资讯休赛期LPL又迎来一件美事,RNG名宿Letme和心上人正式完婚,多位RNG的队友前来参加Letme的婚礼。先和大家讲
-
快看点丨联想y470固态硬盘接口_联想y470加装固态硬盘1、联想Y470安装SSD固态盘后,BIOS设置,按F2或者F1进入BIOS,选择configuration——sata
-
标称续航405公里直接打五折,车企造车续航里程虚标,意义何在? 焦点消息威马EX5官方标定续航里程405公里,直接只能跑到200公里,直接打五折;零跑C01冬季续航里程打四折,从提车到
-
美国得州购物中心突发枪击已致9死 枪手被击毙-全球看点00:13当地时间5月6日下午,美国得克萨斯州达拉斯市郊的一处奥特莱斯商业区发生大规模枪击事件。据美国广播
-
AI来势汹汹,九种方式助你告别过度炒作|世界时讯最近几个月来,人工智能(AI)成为人们最喜爱的流行语。随着AI发展稳步加速,硅谷初创企业和财富五百强公司
-
(新华全媒头条·图文互动)(1)文韵贯长安——解码古都西安的文化自信样本 当前简讯新华社照片,西安,2023年5月7日文韵贯长安——解码古都西安的文化自信样本游客行走在西安市长安区秦岭终南
-
中央气象台继续发布降雨双预警 世界报道强降雨影响华南!中央气象台继续发布双预警5月2日以来我国华中、华东地区出现强降雨及强对流天气过程河南中
-
看点:拉夫罗夫:这笔钱,没法花据美国彭博社网站报道,5月5日,俄罗斯外长拉夫罗夫在提到不断膨胀的对印贸易顺差时说,俄罗斯已经在印度的
-
小红书电商的“第一口螃蟹”,9块9包邮真香?|焦点精选小红书电商的“第一口螃蟹”,9块9包邮真香?,电商,淘宝,小红书,客单价,百亿补贴
-
当前短讯!阿特金斯设计公司(阿特金斯)阿特金斯设计公司,阿特金斯很多人还不知道,现在让我们一起来看看吧!1 阿特金斯法分为四个阶段:第一阶段
-
英超西汉姆联vs曼联比分预测 铁锤帮多位核心球员身体不适出战成疑_快消息北京时间5月8日凌晨02:00,英格兰豪门曼联将做客伦敦体育场与“铁锤帮”西汉姆联带来英超第35轮比赛。目前
-
环球报道:casual是什么意思中文翻译(casual是什么意思)1、casual意思是adj 2、随便的;漫不经心的;非正式;不经意的;无忧无虑的;不在乎的;马虎的;疏忽的n 便
-
天天快看点丨一季度海洋经济复苏态势强劲今年一季度,我国海洋经济稳中有进,实现良好开局。据自然资源部初步核算,一季度我国海洋生产总值2 3万亿
-
人民币交易时间延长会不会有影响 新消息人民币交易时间延长的利弊影响有待今年市场验证,短期人民币受交易时限影响相对较小,市场主体初步试探人民
-
女生给男生发一个旺柴表情什么意思啊(女生给男生发一个旺柴表情什么意思)1、“旺柴”是2020年1月微信上线的表情包中的一个“狗头”表情。2、女生发来此表情的可能意思:我就静静地
-
以家校共建赋能生态新城建设 全球今日报近年来,河北省邯郸市复兴区持续推进现代化生态新城建设,将教育作为城市最美的“绿色”,将家校共建作为最
-
环球讯息:《生化危机2重制版》武器大全 所有武器伤害威力及获得方法分享在《生化危机2重制版》中武器有非常多的选择,不同的武器还能选择装备不同的配件,借此提升武器的威力,很
-
环球实时:贵州茅台:茅台冰淇淋南昌、昆明、合肥、太原旗舰店即将开业【贵州茅台:茅台冰淇淋南昌、昆明、合肥、太原旗舰店即将开业】据贵州茅台消息,5月9日,茅台冰淇淋南昌、
-
电脑换行的快捷键是什么_换行的快捷键是什么1、方法一:打开excel表格,在A1单元格内输入一段文字,可以看到文字已经超出单元格范围。2、2、将鼠标光标
-
检察机关依法惩防诈骗犯罪推动源头治理_天天热门检察机关依法加大惩治诈骗犯罪力度,今年第一季度共批准逮捕诈骗犯罪10923人,在所有批捕案件罪名中位列第2
-
三家股份行存款利率集体“补降”,未来或有进一步下行空间(图片来源:图虫创意)又有一批银行下调存款挂牌利率。近日,浙商银行、恒丰银行、渤海银行相继发布调整人
-
巴菲特:我们与日本的关系还没有结束-天天动态巴菲特说,他将继续在日本寻找机会。他说,他对上个月增持的5家日本主要贸易公司都感到“惊喜”。这位“奥
-
世界播报:1000坦桑尼亚先令兑换人民币 先令兑换人民币1、1 按照1971年之前的来计算的话,那时候一英镑=20先令,1先令=12便士,1先令=0 05英镑,现在的人名币对英
-
焦点快看:Redmi Note 12 T卖爆了 1999元成爆款Redmi官宣:RedmiNote12Turbo首销当月拿下全渠道、全品牌、全价位段三个销量第一,打破2023年行业新品首销