亚洲日本欧美日韩高观看_国内精品久久久久久久久_国产成人精品aa毛片_97超级碰在线看视频免费在线看_欧美激情一区二区在线_欧美电影院免费观看_欧美黄色性视频_91在线播放网址_日本在线中文字幕一区二区三区_精品少妇一区二区三区视频免付费

首頁 > 汽車圖文 > 汽車圖文 > 任務級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

任務級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

發布時間:2025-07-20 15:46:06來源: 13566779980

現有Mobile/APP Agent的工作可以適應實時環境,并執行動作,但由于它們大部分都僅依賴于動作級獎勵(SFT或RL)。

而這些獎勵只能引導代理預測每一步中最佳的單一動作,因此難以應對不斷變化的移動環境。

比如一句指令:“打開飛豬,進入酒店套餐,進入熱門直播,找到飛豬超級VIP,并關注主播”。Qwen2.5-VL-3B-Instruct在第二步失敗。

淘天集團算法技術-未來生活實驗室&點淘算法團隊聯合提出,采用多回合、任務導向的學習方式,結合在線學習和軌跡糾錯,也許能提高Agent的適應性和探索能力。

他們提出了個具有任務級獎勵(Task-level Reward)的交互式強化學習框架,即Mobile-R1。

為了確保訓練的穩定性,團隊提出了一個三階段訓練過程:格式微調、動作級訓練和任務級訓練。此外引入新的中文基準和高質量軌跡數據集,證明了該方法在移動代理領域的有效性。

結果Mobile-R1順利地完成了這一任務。

軌跡數據集

團隊使用Qwen2.5-VL-3B執行一系列任務獲得初始軌跡,并人工標注這些初始軌跡,得到了高質量的軌跡數據集。

其構造可以分為數據收集和軌跡標注兩部分,最終得到了4,635條高質量的人工標注軌跡,包含24,521個單步數據。

軌跡數據集構造流程

首先,選擇了28個中國移動應用程序,通過人工設計和自動生成相結合的方法創建了多樣化的任務指令,隨后統一經過人工審核,去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執行這些指令后,成功收集了大量動作執行軌跡,軌跡中的每一步都包含模型輸出的思考,需要執行的動作以及對應的工具調用。

得到軌跡后,針對模型的輸出做了以下三個維度的標注:

  • 邏輯思考:將所有思考修正為“當前狀態+下一步的動作+動作目的”的格式,比如“當前在手機主屏(當前狀態),下一步是點擊淘寶圖標(下一步動作)來進入淘寶(動作目的)”。如果原思考內容錯誤也會人工標注者會按照該格式重寫思考。

  • 清晰動作:清晰動作是單步可執行操作的一句話描述,動作應符合思考的內容并且可推動任務的完成。

  • 準確調用:人工標注者會修正錯誤的操作調用,包括類型錯誤以及參數錯誤。

訓練流程

訓練流程由三個階段構成,基于Qwen2.5-VL-3B。這三個階段分別是初始格式微調、動作級在線訓練和任務級在線訓練。

Stage1:初始格式微調

在第一階段,對模型進行初始格式微調。這一步是通過監督微調(SFT)的方式進行的,使用的是之前人工標注的高質量軌跡數據集。在微調過程中,模型不僅會學習如何將用戶的指令與當前的GUI狀態對應起來,還會調整輸出格式以符合預期的結構,包括邏輯思考、清晰動作和準確調用。

Stage2:動作級在線訓練

在第二階段,模型通過群體相對策略優化(GRPO)進行動作級在線訓練。此階段使用動作級獎勵(Action-level Reward)來評估每個動作的正確性,同時確保輸出格式的完整性。動作級獎勵由可驗證動作獎勵和格式獎勵組成,其中可驗證動作獎勵能夠量化動作的正確性,而格式獎勵則確保模型輸出是結構化、可解釋的。

  • 動作級獎勵。1)對于基于坐標的動作(如點擊、滑動),如果預測的坐標落在目標GUI元素的真實邊界框內,則獎勵為1,否則為0。2)對于非坐標的動作(如輸入文本),如果預測的動作或參數與真實值完全匹配,則獎勵為1,否則為0。

  • 格式獎勵。格式獎勵促使模型生成符合標簽和結構要求的輸出,確保響應的邏輯思考、動作以及工具調用的格式化。

Stage3:任務級在線訓練

在第三階段,通過多步驟任務級在線訓練來提高模型的泛化能力和探索能力。

在動態的移動環境中,模型需要進行自由探索和錯誤糾正,因此我們將問題定義為馬爾可夫決策過程,以允許多回合的互動。

任務級獎勵由格式獎勵和軌跡級獎勵組成,旨在鼓勵模型在整個軌跡中保持對響應格式的遵循,同時評估任務的完成情況。

  • 軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM,GPT-4o來評估整個歷史互動軌跡,確保步驟和動作的一致性以及任務的完成情況。

  • 格式獎勵。格式獎勵在此階段仍然起著重要作用,為整個軌跡計算平均格式獎勵,并通過[-1, 1]的范圍來對錯誤施加更嚴格的懲罰,以增強輸出的精確度。

訓練的部分階段在淘天自研的強化學習框架ROLL上進行實驗。

實驗結果

實驗中,主要評估了模型在自定義benchmark上的性能,并進行了針對模型泛化能力的魯棒性分析,以驗證Mobile-R1的表現。

整體實驗結果,粗體表示最佳結果,下劃線表示次優結果

結果顯示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現類似。

其中,AgentCPM-8B 由于專為中國移動生態系統優化,因此在中文場景中表現優異。更為顯著的是,Mobile-R1在所有基準中表現最佳,任務成功率達到49.40,比最優秀的baseline model高出將近20點。

Stage 3的訓練進一步增強了Mobile-R1的表現,其成功率比只有階段1和階段2訓練的模型高出1.4點,這得益于任務級GRPO的有效應用。

特別值得注意的是,通過階段1和階段2的訓練,Qwen2.5-VL-3B模型的表現超越了其標準版本,并在多項指標上領先于其他基準模型,突顯了動作級和任務級獎勵機制的重要性。

Stage 3訓練的獎勵曲線

此過程中,Stage 3的獎勵分數顯示出在前四個訓練步驟中穩步增長,表明學習過程是有效的。然而,在步驟5到10之間,獎勵有所下降,這可能是由于策略過于激進或探政策的改變導致的不穩定性。最終從步驟11開始,獎勵再次上升,這表明策略得到了有效的優化和改進。

Mobile-R1在處理未見應用時表現出良好的泛化性,而其他模型在泛化能力上存在挑戰。Mobile-R1的優異表現主要歸功于Stage 3的訓練,這一階段有效增強了模型的魯棒性和適應性。

魯棒性分析結果,粗體表示最佳結果

最后總結,在本文中,Mobile-R1通過在動態環境中整合交互式強化學習與任務級獎勵,顯著提升了基于視覺語言模型(VLM)的移動代理的能力。

通過包括格式微調、動作級GRPO訓練和任務級GRPO訓練在內的三階段訓練過程,克服了以往方法僅依賴單一動作預測的局限性。

實驗結果表明,Mobile-R1在所有指標上都超越了所有基準。此外,團隊計劃全面開源相關資源以促進進一步的研究。

汽車圖文更多>>

iCAR 首款增程硬派SUV,外觀大受好評,iCAR V27正式發布 不跟風、不固守!廣汽豐田“油電同強”的實踐啟示 10月售542臺,下滑約45%,奧迪Q6L e-tron銷量又下滑了? 廣州車展專訪212品牌何兆鵬,魏橋智行國際賈海峰 3顆軸向磁通電機 全新AMG GT四門電動轎跑車低偽實車發布 3缸輕混配6速手動 全新菲亞特500混動版信息發布 廣州車展缺席名單曝光,這些車企恐怕真要涼涼? 燃油車不聰明?燃油車不能高速NOA?那都是過去式了! 福特新蒙迪歐實車到店,換新前臉+懸浮島臺,配261馬力+8155芯片 長安汽車旗下啟源A06與深藍L06兩款定位相近、價格區間高度重疊的車型相繼亮相 沃爾沃汽車向歐盟駐華代表團交付載旗公務用車 新款享界S9以科技豪華攪動市場格局,30.98萬元起的價格宣布正式上市 從“國車”到國民車,紅旗叩響未來之門 巧解“國民好車”方程式,埃安i60錨定用戶需求 新款S9上市增配降價,享界的好日子快來了 從番禺行動到新廣汽:三大戰役背后的全鏈條變革 誤用智駕系統導致交通事故同比激增47%,智駕安全公開課破解認知誤區 廣州車展“全是”華為,誰該收手了? 長安馬自達登陸央視“第一發布”,吳旭曦詳解雙方深度契合背后 廣州人中意揸Benz,只是因為“越奔馳,越幸運”? 賈鳴鏑:以“舒服”定義豪華,林肯的差異化生存之道 在借力與自立中尋找平衡,阿維塔的“華系進化論” 華晨寶馬新任CEO寶思齊:對中國市場的信心非短期判斷 系統整合能力是門藝術 新款享界S9繼續死磕“56E”,華為使出旗艦9系大招 廣州車展潮酷集結,坦克煥新越野彰顯中國力量! 智己雙星輝映:9系旗艦與6系爆品搶鏡廣州車展 啟境基本算是開啟了華為智能汽車的下一個時代,這項合作的意義,要比造車本身更大 2025廣州車展:林肯航海家亞特蘭蒂斯四驅尊享版一口價25.99萬元 廣州車展 | 上汽智己:旗艦與爆品齊發,開啟智能電動新篇章 以深藍L06破局之道,窺探深藍汽車流量密碼?
久久精品官网| 日韩午夜在线播放| 国产日韩三级在线| 久久国产生活片100| 欧美韩日一区| 97一区二区国产好的精华液| a√中文在线观看| 国产色在线 com| 国产日韩精品视频| 欧美国产极速在线| 亚洲美女喷白浆| 欧美乱熟臀69xxxxxx| 亚洲精品免费在线观看| www.av亚洲| 麻豆精品视频在线观看视频| 亚洲天堂偷拍| 亚洲成人在线视频播放| 国产精品99久久久久久久vr| 日韩视频一区| 色小子综合网| 久久久久久毛片免费看| 福利一区二区三区视频在线观看| 免费在线国产视频| 在线日本中文字幕| 亚洲男人天堂| 毛片手机在线观看| 日韩免费高清在线观看| 欧美黑人性视频| 日韩最新中文字幕电影免费看| 亚洲电影av在线| 欧美一区二区三区四区久久| 欧美在线视频你懂得| 亚洲电影一区二区三区| 综合分类小说区另类春色亚洲小说欧美| 成人动漫中文字幕| 国产精品18久久久久久久网站| 日韩电影在线一区| 性xx色xx综合久久久xx| 亚洲日本免费| 牛夜精品久久久久久久99黑人| 清纯唯美日韩| 欧美日韩播放| 嫩草国产精品入口| 99精品国产一区二区三区2021 | 日韩写真欧美这视频| 在线影院国内精品| 色综合久久综合网欧美综合网| 亚洲国产成人91porn| 亚洲女与黑人做爰| 亚洲婷婷国产精品电影人久久| 国产欧美一区二区精品性色| 91在线高清观看| 波多野结衣在线一区| 国产盗摄一区二区三区| 国产一区二区三区在线观看免费 | 欧美一级一区| 亚洲自拍另类| 国产精品久久二区| 亚洲国产精品专区久久| 精品久久久久久久久久久久久久久| 欧美日韩综合在线免费观看| 91久久久免费一区二区| 色婷婷狠狠综合| 色8久久精品久久久久久蜜| 欧美性生交xxxxx久久久| 午夜国产精品一区| 午夜精品福利一区二区蜜股av | 中文字幕一区日韩精品欧美| 国产精品高清亚洲| 亚洲日本一区二区| 亚洲女爱视频在线| 悠悠色在线精品| 亚洲综合一区二区三区| 一区二区免费在线| 亚洲午夜免费电影| 精品人伦一区二区三区蜜桃免费| 五月开心婷婷久久| 欧美日韩中文字幕日韩欧美| 日韩欧美精品中文字幕| 色综合天天狠狠| 欧美性生活影院| 欧美日产国产精品| 日韩一区二区三区免费看| 日韩精品一区二区三区四区视频| 精品1区2区在线观看| 亚洲精品国产美女| 夜夜嗨av一区二区三区免费区 | 不卡电影免费在线播放一区| bt欧美亚洲午夜电影天堂| 久久精品男人天堂av| 中文字幕一区二区三区乱码在线| 一区二区三区**美女毛片| 污片在线观看一区二区 | 日韩伦理片在线观看| 免费男女羞羞的视频网站主页在线观看 | 97色伦亚洲国产| 日本a级片电影一区二区| 国产精品日韩欧美综合| 91精品国产一区二区三密臀| 欧美男男同志| 动漫一区在线| 台湾佬中文娱乐网欧美电影| 成人福利一区二区| 在线综合色站| 欧美日韩国产高清电影| 粉嫩tv在线播放| 欧美日韩国产成人| 日本中文字幕久久看| 国产日韩欧美黄色| 你懂的好爽在线观看| 黄色成人在线观看| 久久影院午夜精品| 国产麻豆一区二区三区| 亚洲激情播播| 欧美~级网站不卡| 麻豆久久婷婷| 成人在线一区二区三区| 久久久久99精品国产片| 一区二区三区欧美在线观看| 日本高清不卡aⅴ免费网站| 日韩一区二区三免费高清| 国产亚洲精品久久久| 高清亚洲成在人网站天堂| 国产一区二区丝袜| 都市激情在线视频| 男人久久天堂| 天堂va在线高清一区| 欧美先锋资源| 一本一本久久| 国产成人h网站| 中文字幕中文字幕一区二区| 欧美午夜精品久久久久久人妖| 91精品欧美福利在线观看| 亚洲人成网站777色婷婷| 久久久久久久电影一区| 国产日本欧美一区| 午夜伦理在线| 日韩成人高清| 日韩国产欧美精品一区二区三区| 91精品国产乱| 中国china体内裑精亚洲片| 欧美亚洲成人免费| 中文在线中文字幕| 免费污视频在线| 999久久久国产999久久久| 精品国产美女| 日韩一区精品视频| 久久久91精品国产一区二区三区| 午夜免费久久看| 欧美va亚洲va在线观看蝴蝶网| 日韩专区在线观看| 成人久久一区二区三区| 久热国产在线| 亚洲精品无播放器在线播放| 成人在线亚洲| 九一九一国产精品| 国产精品久久毛片a| 欧美精品日韩一本| 日韩有码视频在线| 国产一区二区在线播放| h片在线播放| 久久99成人| 欧美精品自拍| 成人深夜在线观看| 亚洲伊人伊色伊影伊综合网| 欧美xxxx在线观看| 国语自产精品视频在线看| 午夜影院在线免费观看| 裤袜国产欧美精品一区| 精品国产一区二区三区av片| 欧美aa在线视频| 国产精品久久三| 日韩亚洲欧美在线| 久久免费少妇高潮久久精品99| 久久精品999| 成人免费黄色在线| 欧美日韩综合视频| 亚洲性日韩精品一区二区| 国产日韩欧美另类| 波多野结依一区| 中文精品一区二区| 老司机午夜精品| 亚洲精品国产精华液| 亚洲电影在线看| 国产精品2018| 亚洲资源一区| 亚洲婷婷丁香| 国产综合色在线视频区| 亚洲国产欧美在线人成| 亚洲精品一区在线观看香蕉| 国产精品你懂得| 成人免费一区二区三区牛牛| 亚洲第一论坛sis| 久久精品久久精品| 亚洲亚洲人成综合网络| 亚洲图片在线综合| 免费看的毛片| 日韩成人av电影| 综合天堂久久久久久久| 久久亚洲精品国产精品紫薇| 欧美久久久久久蜜桃| 欧美精品久久久久久久久| 97最新国自产拍视频在线完整在线看| 久久精品九色| 久久精品亚洲| 一二三四社区欧美黄| 亚洲人成电影网站| 视频在线91| 欧美黄色a视频| 亚洲毛片网站| 亚洲欧美激情小说另类| 亚洲欧美综合图区| 色视频www在线播放| 99精品国产九九国产精品| 国产欧美大片| 一区二区三区欧美日韩| 尤物精品国产第一福利三区| 伊人网站在线| 日韩av综合| 蜜臀久久99精品久久久画质超高清| 亚洲一区免费在线观看| 日韩中文字幕国产精品| 国模吧精品人体gogo| 91蝌蚪精品视频| 激情图片小说一区| 日本电影亚洲天堂一区| 91av在线网站| 91在线三级| 正在播放日韩欧美一页| 欧美高清在线精品一区| 亚洲精品中文字| 新欧美整片sss第一页| 亚洲国产精品免费视频| 免费观看一级特黄欧美大片| 色综合久久天天综合网| 久久久久久网站| 手机在线免费看av| 中文字幕一区二区精品区| 中文字幕第一页久久| 国产一区二区免费| 成年人视频在线看| 精品国产乱码久久久| 久久久久久免费毛片精品| 亚洲国产天堂久久国产91| 中文资源在线网| 久久中文字幕导航| 成人免费精品视频| 亚洲成在人线av| 在线看小视频| 欧美黄色网视频| 国产精品一区二区久久不卡| 欧美一区二区三区免费| 特黄国产免费播放| 999国产精品一区| 成人综合激情网| 亚洲国产成人精品女人久久久 | 欧美日韩国产激情| 国模极品一区二区三区| 老牛影视精品| 丝袜诱惑亚洲看片| 在线亚洲一区观看| 国产精品成人av在线| 六九午夜精品视频| 精品在线观看免费| 91精品国产综合久久久久| 啦啦啦啦免费高清视频在线观看1| 亚洲一区二区三区中文字幕在线观看| 国产91丝袜在线播放0| 亚洲国产成人久久综合| 国产在线资源| 97精品视频| 亚洲欧美日韩在线播放| 免费av一区二区| 理论片午夜视频在线观看| 久久久久久久欧美精品| 欧美最猛性xxxxx直播| 国产精品一区二区久久久久| 深夜福利一区| 99国产精品久久久| 国产一区二区三区免费视频| 国产美女在线观看| 亚洲经典在线看| 欧洲在线/亚洲| 女人被爽到呻吟gif动态图下载| 国产精品对白| 国产三级久久久| 欧美猛交免费看| 美女写真久久影院| 九九热在线视频观看这里只有精品| 91精品在线麻豆| 免费在线看v| 综合国产精品| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 欧美国产日韩在线| 经典三级一区二区| 激情欧美一区二区三区在线观看| 精品国产乱码久久久久久蜜臀| 国产毛片av在线| 欧美福利影院| 日韩欧美综合在线视频| 日本三级电影网| 国内精品久久久久久久久电影网| 亚洲欧美日韩国产中文在线| 性欧美视频videos6一9| 亚洲精品乱码日韩| 2021中文字幕一区亚洲| 久久香蕉频线观| 欧美国产日韩电影| 成人av电影在线播放| 日韩最新免费不卡| 欧美gay囗交囗交| 国产成人自拍网| 亚洲欧洲日本专区| 多野结衣av一区| 国产一区二区网址| 亚洲午夜激情免费视频| 免费在线小视频| 国产精品一区二区三区网站| 国产亚洲精品一区二区| 男女羞羞在线观看| 成人综合在线视频| 久久精品美女视频网站| 国产韩日精品| 99国产精品国产精品毛片| 欧美激情videoshd| 精品国产亚洲一区二区在线观看 | 国产精品久久久久久久久影视| 欧美人成在线观看ccc36| 亚洲男女一区二区三区| 国产精品国语对白| 欧美日韩性在线观看| 午夜精品久久久久久久| 久草在线官网| 欧美影视一区| 欧美巨大另类极品videosbest| 爱爱爱免费视频在线观看| 国产一区二区你懂的| 精品福利二区三区| 蜜桃成人365av| 国产成人8x视频一区二区| 北条麻妃久久精品| www.久久久.com| 国产精品久久二区二区| 国产精品丝袜视频| 日韩久久精品| 欧美午夜片在线观看| 成人av电影观看| 首页国产欧美久久| 一区二区三欧美| 99热播精品免费| 中文字幕中文在线不卡住| 国产精品欧美日韩久久| 欧美丰满老妇| 欧美另类久久久品| 性爱视频在线播放| 国产成人精品免费| 性欧美xxxx视频在线观看| 四虎5151久久欧美毛片| 狠狠干狠狠久久| 大乳在线免费观看| 日本一不卡视频| 日韩有码在线播放| 日韩在线观看中文字幕| 亚洲一区中文日韩| 污香蕉视频在线观看| 亚洲一区二区三区免费在线观看| 亚洲精品videossex少妇| 国产精品伦理| 中文字幕欧美激情| 日本搞黄视频| 亚洲久久成人| 亚洲欧美另类中文字幕| 日韩电影精品| 一区二区三区日韩欧美| 日本精品专区| 日本不卡一二三区黄网| 久久精品成人欧美大片古装| 中文字幕一区二区三区四区久久| 亚洲v中文字幕| 国产高清免费av在线| 精品一区二区三区免费视频| 欧美成人精品一区| 久久av导航| 在线免费亚洲电影| 亚洲区欧洲区| 久久一区二区三区四区| 国产伦精品免费视频| 亚洲一级影院| 一区二区三区视频观看| 一本一道久久a久久| 日韩欧美成人免费视频| 欧美三级黄网| 成人av一区二区三区| 国产成人精品在线观看| 欧美日韩精品| 亚洲欧美中文日韩在线v日本| 狂野欧美xxxx韩国少妇| 欧美午夜宅男影院在线观看| www红色一片_亚洲成a人片在线观看_| 成人av在线资源|