炒股杠杆平台是什么_股市配资公司_股票网上配资平台

期货配资 多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键

发布日期:2024-08-09 07:52    点击次数:181

Simon Zhai 投稿期货配资

量子位 | 公众号 QbitAI

只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!

这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。

这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:

图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCunUC伯克利大牛、ALOHA团队成员Sergry LevineResNeXt一作、Sora基础技术DiT作者谢赛宁香港大学数据科学学院院长、UC伯克利教授马毅

该方法名为RL4VLM,论文预印本已经上线,相关代码也已在GitHub中开源。

RL4VLM提出了一种新的算法框架,直接使用强化学习方法对多模态大模型进行微调。

其中奖励信息直接来源于环境当中,摆脱了RLHF中对于人类反馈的需要,从而直接赋予了多模态模型决策能力。

对于RL4VLM的意义,参与了这项工作的马毅教授这样说:

一方面希望大家对模型真实性能有更客观清醒的认识;

另一方面,也希望能建立一个平台,支持探索如何进一步提升模型性能。

那么,用这种方法微调出来的多模态大模型,都能让智能体学会哪些能力呢?

多模态决策能力超GPT-4v

为了评估训练出的多模态大模型给智能体带来的能力,作者一共使用了两类物种评测任务:

第一类任务(a-d) 主要考验模型利用图像中的细粒度视觉信息做决策的能力,包括对于数字的识别能力和利用识别的数字进行逻辑推理的能力第二类任务(e)主要考察多模态大模型在具身智能环境中的视觉语义推理能力。

具体来说,这五个任务分别是:

a.数轴(Numberline):模型需要通过输出“+” 或者 “-”,将当前数字移动到目标数字b.简易12点(EZPoint):模型需要识别两张牌,并用加号和乘号运算“12点”c.24点(Point24): 模型需要识别四张牌,并用加减乘除和括号运算“24点”d.21点(Blackjack):模型需要通过牌面上的信息来决定“要牌”或者“停牌”e.ALFWorld:一个标准具身智能环境

其中任务a-d为作者的原创任务,任务e的ALFWorld是微软等于2020年提出的开源具身智能任务集。

实验结果表明,直接使用强化学习微调7B的多模态模型之后,能使其在两类决策问题上的表现超过商用模型GPT-4v Gemini,同时也能超过传统的监督微调(SFT)方法。

而在ALFWorld的具身智能任务中,作者的模型也取得了最高的平均分,特别是在单物体拾取任务上表现尤为突出。

先生成思维链,再做决策

这套VLM智能体主要解决的是需要视觉识别和语言理解的任务,它的工作流程是这样的:

首先,对于每一个任务,系统会直接将该任务的当前状态,以图片和文字描述的形式输入多模态大模型,并要求模型输出一段思维链之后,再以文字形式输出要执行的动作。

最后将,动作信息会被输入进对应的环境并获得奖励值,该奖励值会被用来进行强化学习训练。

例如下图中,智能体在执行玩21点的任务时,系统直接要求多模态模型根据目前的状态,在输出思维链之后选择“停牌” (stand)或者“拿牌”(hit),然后直接将对应的动作输入到环境中,得到奖励函数值以及下一个状态。

为了能用直接将强化学习运用到多模态模型的训练中,需要对模型的输入和输出做一些调整,以适应RL训练框架中。

具体来说,作者将任务图像o和任务描述的文本v-in合并后,直接作为当前任务的状态s,即:

s = [o, v-in]

在获得了多模态模型的文字输出v-out以后,该框架直接将其中文字形式的动作(“action: {act}”) 转化为可与环境交互的动作指令a。

接下来把a输入到环境当中,就能获得奖励函数r,以及操作后的下一个状态。

在获得了来自环境的奖励函数r之后,文章利用PPO直接对整个多模态模型进行微调。

而从提示词上看,这项研究采取了如下的提示过程作为多模态模型的输入,并且给出了期望的输出形式:

(其中蓝色的部分是让模型生成思维链提示过程, 红色的部分是告诉模型以文字形式输出动作a)

消融实验结果表明,如果这一过程中不采用思维链,则任务成功率会出现大幅下降。

论文地址:

https://arxiv.org/abs/2405.10292

GitHub:

https://github.com/RL4VLM/RL4VLM

— 完 —

量子位 QbitAI · 头条号签约期货配资

","del":0,"gnid":"9312d6c03e38dd857","img_data":[{"flag":2,"img":[{"desc":"","height":"488","s_url":"http://p2.img.360kuai.com/t110df81bbcb82f9a8b5f3b5a7c_1.gif","title":"","url":"http://p2.img.360kuai.com/t110df81bbcb82f9a8b5f3b5a7c.gif","width":"1078"},{"desc":"","height":"378","title":"","url":"http://p2.img.360kuai.com/t110df81bbce8665081073bad19.webp","width":"867"},{"desc":"","height":"360","s_url":"http://p2.img.360kuai.com/t110df81bbc101e55a293e8f4e5_1.gif","title":"","url":"http://p2.img.360kuai.com/t110df81bbc101e55a293e8f4e5.gif","width":"640"},{"desc":"","height":"391","title":"","url":"http://p1.img.360kuai.com/t110df81bbcc633a562b164d0a8.webp","width":"1080"},{"desc":"","height":"266","title":"","url":"http://p0.img.360kuai.com/t110df81bbcbe60cd9250e37465.webp","width":"1080"},{"desc":"","height":"504","title":"","url":"http://p2.img.360kuai.com/t110df81bbc68e658eab3116b16.webp","width":"1080"},{"desc":"","height":"479","title":"","url":"http://p2.img.360kuai.com/t110df81bbc177c7556ce3e5aee.webp","width":"1080"},{"desc":"","height":"509","title":"","url":"http://p0.img.360kuai.com/t110df81bbcac4821f3e75e0be2.webp","width":"1080"},{"desc":"","height":"412","title":"","url":"http://p2.img.360kuai.com/t110df81bbca3b2ff4f59b2637d.webp","width":"1080"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"cache","pub_time":1717485060000,"pure":"","rawurl":"http://zm.news.so.com/597cd3112e8c51e4332c478d251383e1","redirect":0,"rptid":"de306343aae354da","rss_ext":[],"s":"t","src":"量子位","tag":[{"clk":"ktechnology_1:伯克利","k":"伯克利","u":""}],"title":"多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键","type":"zmt","wapurl":"http://zm.news.so.com/597cd3112e8c51e4332c478d251383e1","ytag":"科技:人工智能:AI技术","zmt":{"brand":{},"cert":"优质科技领域创作者","desc":"追踪人工智能新趋势,报道科技行业新突破","fans_num":48,"id":"3324838173","is_brand":"0","name":"量子位","new_verify":"5","pic":"https://p0.img.360kuai.com/t019169dba71cb73484.jpg","real":1,"textimg":"https://p9.img.360kuai.com/bl/0_3/t017c4d51e87f46986f.png","verify":"0"},"zmt_status":0}","errmsg":"","errno":0}

相关资讯
  • 期货配资 青田荣远新能源农光互补光伏电站工程首桩成功

    原标题:青田荣远新能源农光互补光伏电站工程首桩成功 工人日报-中工网记者 刘静 日前,青田荣远新能源农光互补光伏电站工程首根混凝土灌注桩浇筑完成,标志着中铁九局电务公司负责施工的青田荣远新能源农光互补光伏电站工程主体桩基工程正式开工。 “农光互补”项目属于农光复合型项目,利用光伏阵列下方空地及间隔种植农作物,实现土地复...

  • 期货配资 广州海关在白云机场口岸旅检渠道查获一名旅客超量携带减肥药进境,共计233盒

    近日,广州海关在广州白云机场口岸旅检渠道查获一名旅客超量携带减肥药进境,共计233盒。 广州海关所属广州白云机场海关关员在对一架进境航班进行监管时,发现一名旅客携带的行李机检图像异常。经进一步查验,发现该旅客的三个行李箱内装有大量同一国外品牌的减肥药,共计233盒。 旅客白云机场广州白云机场广州海关减肥药发布于:北京市...

  • 期货配资 中国电信中标结果:2024年基础地理实体更新和典型场景数据生产项目中标(成交)结果公告

    消息,根据企查查信息整理,6月7日公布的《2024年基础地理实体更新和典型场景数据生产项目中标(成交)结果公告》中显示中国电信(601728)股份有限公司青海分公司中标。公告内容如下: 一、项目编号:青海诚鑫公招(服务)2024-021 二、项目名称:2024年基础地理实体更新和典型场景数据生产项目 三、中标(成交)信...

  • 期货配资 文华软件期货缠论公式 缠论中枢无敌版指标

    图片 DRAWICON(牛牛1,L期货配资,25);DRAWICON(牛牛2,L,25);DRAWICON(牛牛3,L,25);DRAWICON(牛牛4,L,25);DRAWICON(牛牛5,L,25);DRAWICON(牛牛6,L,25);DRAWICON(牛牛7,L,25);DRAWICON(牛牛8,L,25);D...

  • 期货配资 佳贝艾特KOL溯源团“闪现”荷兰 亲鉴更好营养源头

    期货配资 更好营养的佳贝艾特羊奶粉究竟是怎样生产的?平均身高世界第一的荷兰,与其深厚的饮奶文化又有怎样的关联?5月24日至30日,全球羊奶第一品牌佳贝艾特携手@带娃的小璐、@xka轻奢好物平台、@魔都p妈以及@罐头瓶子在荷兰 等国内外十余位KOL组成溯源团奔赴荷兰,深入探访佳贝艾特的工厂和牧场,从源头亲鉴了佳贝艾特更好...

股票网上配资平台

TOP
友情链接:

Powered by 炒股杠杆平台是什么_股市配资公司_股票网上配资平台 @2013-2022 RSS地图 HTML地图