免費(fèi)、SOTA、中文,微軟卷出了新高度
出品 | 虎嗅科技組作者 | 杜鈺君編輯 | 王一鵬頭圖 | 攝圖網(wǎng)碾壓谷歌的GeminiPro和阿里的Qwen-VL-Plus,與GPT-4V正面硬剛,這個(gè)有著SOTA級(jí)別性能的多模態(tài)大模型真正做到了“人無(wú)我有,人有我優(yōu)”。繼2023年4月的初級(jí)版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微軟研究院又聯(lián)合威斯康星大學(xué)麥迪遜分校和哥倫比亞大學(xué)的研究者共同發(fā)布了多模態(tài)大模型LLaVa(LargeLanguageandVisionAssistant)的1.6版本。與GPT-4V只提供API接口的閉源經(jīng)營(yíng)理念不同,LLaVA1.6的代碼、模型與訓(xùn)練數(shù)據(jù)全開(kāi)源,且在標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)集上跑出了較為亮眼的成績(jī)。一、LLaVA1.6:卷上加卷LLaVA是一種端到端訓(xùn)練的大型多模態(tài)模型,又被稱為“大型語(yǔ)言和視覺(jué)助手”。LLaVa-1.6是微軟LLaVa系列的第三個(gè)迭代版本。升級(jí)后的LLaVa-1.6可謂buff疊滿:SOTA級(jí)別的性能,低訓(xùn)練花銷,多模態(tài)的內(nèi)容生成能力和再一次將開(kāi)源大模型卷上了新高度。根據(jù)LLaVa-1.6官網(wǎng)的標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)集,該模型的表現(xiàn)超越了Qwen-VL-Plus、CogVLM和Yi-VL等一眾模型,在大部分?jǐn)?shù)據(jù)集上的表現(xiàn)都優(yōu)于GeminiPro,在Math-Vista、MMB-ENG等部分?jǐn)?shù)據(jù)集上的表現(xiàn)甚至勝于GPT-4V,成為了開(kāi)源模型中的“性能王者“。圖片來(lái)源:LLaVA-1.6官網(wǎng)的標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)在不拘泥于單一模態(tài)的內(nèi)容生成,具有Text-to-Text和Image-to-Text兩種模式的同時(shí),LLaVa-1.6的過(guò)人之處還在于更低的訓(xùn)練數(shù)據(jù)成本。LLaVA-1.6能用32個(gè)GPU在一天之內(nèi)完成訓(xùn)練,僅需1.3M條訓(xùn)練數(shù)據(jù),其計(jì)算和訓(xùn)練數(shù)據(jù)比其他模型小100到1000倍。除了通過(guò)對(duì)話式AI生成文本外,LLaVA-1.6還可以識(shí)別圖片信息并轉(zhuǎn)化成文字答案。升級(jí)后的LLaVa-1.6對(duì)輸入圖像的分辨率提升到原來(lái)的4倍以上,使得模型能夠抓住圖片的更多細(xì)節(jié)。目前支持的圖像分辨率有672x672、336x1344以及1344x336三種。LLaVA模型架構(gòu)基于大量的圖像-文本配對(duì)的數(shù)據(jù)集,將預(yù)訓(xùn)練的CLIP視覺(jué)編碼器與大型語(yǔ)言模型(Vicuna)通過(guò)映射矩陣相連接,來(lái)實(shí)現(xiàn)視覺(jué)和語(yǔ)言特征的匹配。根據(jù)該模型的研發(fā)團(tuán)隊(duì)成員HaotianLiu在X平臺(tái)的介紹,此增強(qiáng)版本建立在其前身的簡(jiǎn)約設(shè)計(jì)和數(shù)據(jù)效率基礎(chǔ)上,并通過(guò)改進(jìn)視覺(jué)指令數(shù)據(jù)集和SGLang,提升了“推理、OCR等方面的性能”,意味著人類向AGI(通用人工智能)探索的道路上又邁進(jìn)了一步。LLaVA-1.6的研發(fā)團(tuán)隊(duì)成員HaotianLiu在X平臺(tái)發(fā)文原文二、更適合中國(guó)人體質(zhì)的GPT-4V在奮力追平GPT-4V的同時(shí),LLaVa-1.6也展現(xiàn)出強(qiáng)大的零樣本中文能力。LLaVa-1.6不需要額外訓(xùn)練便具備杰出的中文理解和運(yùn)用能力,其在中文多模態(tài)場(chǎng)景下表現(xiàn)優(yōu)異,使得用戶不必學(xué)習(xí)復(fù)雜的“prompt”便可以輕松上手,這對(duì)于執(zhí)行“免費(fèi)(限制文本長(zhǎng)度、使用次數(shù)等)+付費(fèi)會(huì)員”制的文心一言們而言無(wú)疑提出了新的挑戰(zhàn)。筆者在對(duì)LLaVa-1.6模型的demo進(jìn)行嘗試時(shí)發(fā)現(xiàn),LLaVa-1.6對(duì)古詩(shī)詞等具有中文語(yǔ)言特色的文本內(nèi)容理解也較為到位,且能給出中上水平的答案。因而對(duì)于有圖生文或文生文需求的用戶而言,LLaVa-1.6模型不失為更適合中國(guó)人體質(zhì)的GPT-4V。圖片來(lái)源:筆者在文心一格平臺(tái)的使用截圖更強(qiáng)的視覺(jué)對(duì)話能力使得LLaVa-1.6的智能服務(wù)可以覆蓋更多元的場(chǎng)景、具有更強(qiáng)的常識(shí)和邏輯推理能力。圖片來(lái)源:用戶在X平臺(tái)對(duì)LLaVA-1.6的試用截圖在上圖的應(yīng)用場(chǎng)景中,用戶發(fā)給LLaVA-1.6一張機(jī)票,詢問(wèn)與之相關(guān)的接機(jī)和日程安排。LLaVA-1.6不僅準(zhǔn)確的估計(jì)了駕駛時(shí)間,還考慮到了可能堵車的情況,頗具一個(gè)“智能管家”的自我修養(yǎng)。圖片來(lái)源:用戶在X平臺(tái)對(duì)LLaVA-1.6的試用截圖為了促進(jìn)多模態(tài)大模型社區(qū)的發(fā)展,開(kāi)發(fā)者們開(kāi)源了LLaVa-1.6的全部代碼、訓(xùn)練數(shù)據(jù)和模型。這無(wú)疑有益于人工智能開(kāi)發(fā)的透明度和協(xié)作。在較小訓(xùn)練樣本和開(kāi)源的前提下,如果可以基于本地?cái)?shù)據(jù)訓(xùn)練專業(yè)模型,推動(dòng)解決當(dāng)前大模型基于云的產(chǎn)品的責(zé)任和隱私問(wèn)題。不難發(fā)現(xiàn),輕量化的訓(xùn)練數(shù)據(jù)是LLaVa-1.6與其他多模態(tài)大模型不同的關(guān)鍵一點(diǎn)。一直以來(lái),成本的高企便是橫亙?cè)诖竽P陀?xùn)練面前的一大難題。隨著大模型賽道越來(lái)越卷,研發(fā)者們開(kāi)始將關(guān)注點(diǎn)從性能轉(zhuǎn)向成本,在關(guān)注大規(guī)模參數(shù)量的同時(shí)著力降低模型的運(yùn)算和推理成本,實(shí)現(xiàn)模型壓縮化和計(jì)算高效化。