馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西4月13日消息,剛剛,馬斯克的大模型創企xAI推出了其首款多模態大模型Grok-1.5V。

這是OpenAI的大語言模型勁敵之一。如今,除了文本功能外,Grok現在還可以處理各種各樣的視覺信息,包括文檔、圖表、圖表、屏幕截圖和照片,并能進行多學科推理。

xAI重點展示了Grok-1.5V的7個示例,包括:將手繪圖表轉換成Python代碼、看食品標簽計算卡路里、根據孩子的繪畫講個睡前故事、解釋梗圖、將表格轉換成csv格式、為生活日常問題答疑解惑、解決代碼問題。

至此,xAI正式加入前沿多模態大模型的競賽。

與GPT-4V、Claude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5相比,Grok-1.5V的表現不相上下,在一些基準測試中略勝一籌。

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

尤其是在RealWorld,用于衡量真實世界空間理解能力的QA基準測試中,Grok明顯優于同類模型。xAI團隊對Grok理解物理世界的能力感到特別興奮。對于上面的數據集,該團隊在沒有思維鏈提示的情況下在零樣本設置中評估Grok。

xAI宣布向社區發布RealWorldQA基準測試,計劃隨著其多模態模型的改進而擴展它。RealWorldQA在CC BY-ND 4.0下發布,數據集大小為677MB。

初版RealWorldQA由700多張圖片組成,每張圖片都有一個問題和易于驗證的答案。該數據集包括從汽車上拍攝的匿名圖像,以及其他真實世界的圖像。xAI放出了4個示例,其中有兩張圖都是由汽車前置攝像頭拍攝的。

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

數據集地址:https://creativecommons.org/licenses/by-nd/4.0/?ref=chooser-v1

自2023年11月推出聊天機器人Grok以來,馬斯克xAI一直在追趕OpenAI的步伐。在剛剛過去的1個月內,xAI相繼宣布將Grok-1開源、推出128k長文本Grok-1.5、推出Grok-1.5V多模態大模型三項重要進展。

Grok-1.5V將很快提供給其早期測試者和現有的Grok用戶。

xAI展示了Grok-1.5V的7個示例:

1、看圖表草圖,寫代碼

當用戶拿一張手繪的流程圖,問Grok能否將其轉換成Python代碼。

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

Grok回復:

“當然!您提供的流程圖描述了一個簡單的猜謎游戲,其中計算機生成一個隨機數,用戶必須猜測它。下面是表示流程圖中邏輯的Python代碼:”

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

“這段代碼將運行流程圖中描述的猜謎游戲。用戶將被提示輸入他們的猜測,直到他們猜對了數字?!?/p>

2、計算卡路里

用戶:5片這個有多少卡路里?

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

Grok回復:

“如果一份是3片,含有60卡路里,那么5片就含有大約100卡路里。這是通過首先確定每片的卡路里來計算的:60卡路里/3片=每片20卡路里。然后,將每片的卡路里乘以片數:每片20卡路里*5片= 100卡路里?!?/p>

3、根據繪畫講一個睡前故事

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

根據上圖,Grok講出這樣一個睡前故事:

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

“很久很久以前,在一片充滿冒險和奇跡的土地上,有一個勇敢的小男孩,名叫蒂米。蒂米和他的家人住在一個舒適的小房子里,他最喜歡的就是探索周圍的世界。

在一個陽光明媚的日子,蒂米決定去附近的森林探險。他帶上了他最喜歡的零食、一個指南針,還有他那本可靠的筆記本,用來畫下他將要看到的所有令人興奮的事情。

當蒂米向森林深處冒險時,他發現了一條在陽光下閃閃發光的神奇河流。這條河是如此迷人,以至于蒂米決定造一艘小紙船,作為對森林精靈的特殊信息,順流而下。

蒂米小心翼翼地折起他的紙船,在上面畫了一個笑臉,給森林精靈帶來歡樂。然后,他把船放在河上,看著它漂走,帶著他的友誼和對自然的愛的信息。

當太陽開始下山時,蒂米知道是時候回家了。他很感激在森林里度過的神奇的一天,他知道他會永遠把這次冒險的記憶記在心里。

回到家,蒂米把他的故事告訴了他的家人,他們很高興聽到他在森林里神奇的一天。他們都認為提米的勇敢和善良的精神是一個真正的鼓舞,他們知道他將繼續有更多的奇妙的冒險在未來。

于是,帶著一顆充滿愛的心和一個充滿夢想的頭腦,蒂米慢慢地睡著了,渴望發現在他想象的世界里有什么新的冒險在等著他?!?/p>

4、解釋一個梗圖

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

給Grok上面這張梗圖,它也能“秒懂”:

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

“這張圖片是對初創公司和大公司的幽默比較。在左邊標有‘初創公司’的地方,有一群人在一起挖洞。他們都在積極參與,這個洞已經相當深了。

在右邊標有‘大公司’的地方,有一群人站在一個洞周圍。然而,與創業方不同的是,實際上只有一個人在挖洞,而其他人則在觀看或從事其他活動。

這幅圖中的幽默來自于對初創公司和大公司之間差異的夸大。在創業公司,通常有一種緊迫感,每個人都被期望直接為手頭的任務做出貢獻。相比之下,大公司通常被描述為有更多的官僚主義,并且每個項目中所有團隊成員的直接參與較少?!?/p>

5、將表格轉換成csv

用戶可以要求Grok將這張表格轉換成csv。

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

Grok隨即輸出以純文本格式顯示的CSV。

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

6、幫忙清理甲板上的爛木頭

Grok也能用于解決生活日常問題。當用戶發送一張照片,詢問:“這些洞出現在我甲板上的螺絲周圍。它爛了嗎?我應該換電路板嗎?”

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

Grok回復說:

“看來你甲板上的木頭已經開始腐爛了。螺絲周圍有洞表明了這一點,這是木頭腐爛的常見跡象。

為確保甲板的安全和使用壽命,建議更換受影響的甲板。這將有助于防止甲板進一步受損,并保持其結構完整性。

如果您不確定如何繼續更換板,咨詢專業的甲板建造商或承包商可能會有所幫助。他們將能夠評估損壞的程度,并為您的甲板提供最佳行動方案的專家建議?!?/p>

7、解決代碼問題

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

讓Grok寫Python代碼解決上面的問題,Grok的輸出如下:

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

xAI團隊認為,推進其多模態理解和生成能力是構建能夠理解宇宙的有益AGI的重要步驟。在接下來的幾個月里,xAI預計將在圖像、音頻、視頻等各種模態上對這兩種功能進行重大改進。

同時,xAI還貼出招聘鏈接,邀請更多設計師、工程師、產品、數據、Infra、AI導師加入。

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

值得一提的是,LLaVA一作、美國威斯康星大學麥迪遜分校博士柳昊天今日宣布加入xAI團隊:“我很高興和一個小而專注的團隊一起工作,看看我們能有多快!這僅僅是個開始?!?/p>

馬斯克發布Grok-1.5V!xAI首款多模態大模型,能看圖寫代碼、算熱量

LLaVA是第一個在圖像理解和推理方面具有類似GPT-4V級別能力的開源大模型。結合AI Agent,柳昊天聯合清華大學的劉世隆等人去年11月又提出了LLaVA-Plus,使用插件(視覺工具)提升多模態大語言模型的視覺能力

LLaVA-Plus一作、清華大學計算機系博士生劉世隆將出席下周五(4月19日)在北京舉行的2024中國生成式AI大會并分享觀點。