智東西(公眾號:zhidxcom)
編譯 |? 陳駿達
編輯 |? Panken
智東西7月18日消息,據外媒報道,由于AI算力集群價格高企與大企業訂單擠兌,許多美國高校正面臨算力的嚴重短缺,這導致了高校AI研究的滯后與AI研究人才的流失。
高校的算力荒由來已久,連頂級高校和學術大牛們也被這一問題困擾。今年5月,斯坦福大學教授李飛飛稱學術界正在面臨AI計算資源的嚴重短缺,斯坦福大學的NLP實驗室只有64塊GPU(英偉達A100)。圖靈獎得主杰弗里·辛頓(Geoffery Hinton)更是在學生求助時直言:“我不知道這個問題除了求政府之外還有什么辦法。”
與之產生鮮明對比的是,Facebook母公司Meta預計將在2024年底擁有算力相當于60萬塊英偉達H100的龐大算力集群,幾乎是斯坦福NLP實驗室集群的10000倍。
但斯坦福大學NLP實驗室的這64塊GPU,在不少其它高校的學生看來已是天方夜譚了。實際上除了像普林斯頓大學、德國亞琛工業大學等少數頂尖院校外,不少高校甚至連1塊英偉達A100 GPU也沒有。
在Reddit論壇上的一則相關討論中,有北美高校博士生反映小型高校只能獲得多年前英偉達發布的V100 GPU。而歐洲和亞洲的高校情況則更為嚴峻,有不少高校只能使用英偉達的消費級顯卡做AI研究。即便這樣,算力也極為短缺,有些學生必須自費購買顯卡或者從英偉達、亞馬遜云服務(AWS)等處申請算力補貼。
不少高校也在努力改變現狀,比如通過校際合作建立共享計算集群,或是轉而從事其它對算力要求更低的AI研究方向。
一、算力短缺人才流失,高校的GPU荒有多嚴重?
其實,在過去的很長一段時間里,高校一直處在AI研究的最前沿,有不少突破性的進展都是由高校的研究人員做出的。例如,2015年,斯坦福大學的博士后雅沙·索爾·迪克斯坦(Jascha Sohl-Dickstein)便發明了全世界第一個擴散模型,這成為后續不少圖片和視頻生成模型的基礎。
雖然高校的基礎研究對于技術創新浪潮至關重要,但近期的生成式AI研究一直由私營公司主導。這主要是因為他們能夠獲得構建和訓練類似ChatGPT和Gemini這樣的大模型所需的算力和數據。
生成式AI研究是十分昂貴的。OpenAI首席執行官薩姆·阿爾特曼(Sam Altman)曾估計,訓練GPT-4的成本約為1億美元。而Meta首席執行官馬克·扎克伯格(Mark Zuckerberg)曾在2024年初宣布計劃購買35萬塊英偉達H100 GPU,將Meta的算力擴展到相當于60萬塊英偉達H100 GPU的水平。按照H100近4萬美元的售價來算,這將是一筆百億美元量級的大訂單。
目前,全球沒有任何高校能負擔得起這種量級的AI算力基礎設施。普林斯頓大學作為CS強校,擁有美國高校中最大的幾個單一AI算力集群之一,但這一集群也僅有300塊英偉達H100 GPU,還是今年3月才正式引入的。
普林斯頓大學語言與智能中心主任桑吉夫·阿羅拉(Sanjeev Arora)在談及這一問題時說道,“如果你沒有算力,就沒辦法開展大規模研究,這樣你連參與對話的資格都沒有”。
在Reddit論壇上的一則相關討論中,一位來自美國排名前5的機器學習實驗室的博士生稱,他們迄今為止連1塊英偉達H100都沒有。
▲來自美國排名前5的機器學習實驗室的博士生的提問(圖源:Reddit)
一位來自亞洲的博士生也面臨著同樣的困境。他自己使用的GPU大部分都是消費級的,并且只有一兩塊而非集群。他的學校直到最近才擁有了一個配備8塊H100的的服務器,并且只能限時訪問。這位博士生說,在他有幸使用H100 GPU進行訓練的兩周時間里,他取得的數據比之前半年收集到的數據還要多。
▲一位在亞洲從事CV研究的學生回憶自己曾使用過的一系列GPU(圖源:Reddit)
還有一位學生分享道,自己的學校沒辦法提供任何算力上的支持。他只能通過自己的實習公司獲取1000美元AWS云算力額度,如果用這些額度來跑8塊H100的集群,大概只能用1天,這種量級的算力根本做不出高質量研究。他還稱這是第三世界國家搞AI研究的常態。
▲一位碩士生分享自己通過實習公司獲取計算額度的經歷(圖源:Reddit)
而歐洲高校的算力資源也不容樂觀。有位在德國上學的學生分享道,自己十分幸運,因為他的學校還能提供的16塊A100 GPU和數十塊其它型號的GPU。而在歐洲,許多大學和研究實驗室基本不提供算力支持。
▲一位歐洲學生對自己擁有的計算資源感到慶幸(圖源:Reddit)
另一位來自德國亞琛工業大學的學生分享,他的學校擁有超過200塊英偉達H100 GPU,這引得許多網友的羨慕。但這些資源是所有學院共享的,還要與外部機構共用,如果需要較長的計算時間,需要特別申請。
▲德國亞琛工業大學學生分享學校算力情況(圖源:Reddit)
來自產業界的人士對高校的GPU短缺情況感到意外。一名業界人士稱,自己在一家主要的云計算提供商工作,日常經常接觸H100 GPU,為其開發和修復軟件。還有另一位業界人士稱,H100等需求量較大的尖端GPU在添加到數據中心之前,通常就被大企業客戶大量預訂了,因此H100對大多數研究人員來說是“罕見的”。
▲產業界人士對高校GPU短缺感到意外(圖源:Reddit)
在計算資源不足的情況下,進行長時間的訓練是極為奢侈的。高校的AI算力集群往往需要提前幾天甚至數周申請,即便是用上了,使用時長也有限制。許多較大的訓練任務很難在一個使用周期內完成,研究人員還必須花額外的精力構建checkpoint和恢復代碼。
計算資源的短缺也帶來了高校人才流失的問題,那些有志于做生成式AI研究的學生轉向了大公司。因為大型科技公司普遍擁有比高校多上成百上千倍的算力,這對AI人才來說極具吸引力。
二、建立算力聯盟、轉變研究方向,高校既不甘也不能落后
面臨著AI研究落后和AI人才流失的危機,不少高校正在爭取額外的算力,并將研究重點轉向非算力密集型的AI研究領域。
哥倫比亞大學機械工程系主任霍德·利普森(Hod Lipson)稱:“學術機構正在爭先恐后地獲得算力?!彼€強調,雖然工業界和政府在AI研究中的參與很重要,但為了平衡這兩股力量,學術界、開源開發者等其它人士也應該對這項技術的發展有發言權。
為緩解高校的算力緊缺問題,不少高校讓政府參與到了算力集群的建設過程中。2024年初,包括哥倫比亞大學、康奈爾大學、紐約大學和倫斯勒理工學院在內的7所大學和科研機構,聯合紐約州政府與慈善機構創建了一個名為Empire AI的算力聯盟。
▲Empire AI的聯盟成員(圖源:Empire AI官網)
這一算力聯盟籌集了近4億美元的資金。其中的2.75億美元來自政府,剩余資金則來自參與聯盟的7所高校和研究機構。他們將利用這筆資金建立一個先進的AI計算中心,而聯盟成員間可以共享這些計算資源,同時也有效地分攤了持有成本。
談及建立這一聯盟的理由,紐約州州長辦公室稱,目前AI算力資源越來越集中在大型科技公司手中,他們對AI開發生態系統有巨大的控制權。因此,研究人員、公益組織和小公司被拋在了后面,這對AI安全和整個社會產生了巨大影響。
學術界和產業界也在積極開展合作,這在硅谷、西雅圖和奧斯汀等美國的科技中心城市已經比較常見了。華盛頓大學計算機科學與工程學院副院長丹·格羅斯曼稱,他們有一些項目允許學術研究人員也能在工業界工作。學術人員能獲得更好的資源,而大學也還可以留住這些人才。
其實,有不少具有重要意義的AI研究對算力的要求并不高,比如AI可解釋性研究、AI計劃和推理能力研究等。在算力限制下,大學研究人員開始做更有針對性的研究,確保學界不會完全被業界超越。
康奈爾大學計算與信息科學學院院長卡維塔·巴拉(Kavita Bala)稱,高??梢詼p少對構建和訓練大語言模型的投入,而更多地關注開發基于大語言模型的應用。這樣的應用仍然可以是最前沿的,在獨特的應用領域發揮巨大作用。
麻省理工學院教授阿爾曼多·索拉爾·萊薩馬(Armando Solar-Lezama)的工作重點是利用AI進行代碼開發,他認為從頭開始構建大模型在學術界根本不可行。學生和研究人員可以專注于開發應用程序,甚至創建可用于訓練大語言模型的合成數據。
索拉爾·萊薩馬稱自己學院的教授們也主動出資購買服務器和芯片,但資金并非唯一的問題。即便有資金,獲得頂級的GPU也是十分困難的。
結語:高校AI算力荒持續,多方合作或有破局希望
在目前大型科技企業主導AI研究的現狀下,高校的AI研究是對這些研究的有效補充。高校的研究者不會像企業內部的研究者那樣,受財報、市場需求等短期因素的影響。他們若能獲得更多的計算資源,或許能在那些企業不會關注、不愿關注的領域,做出有重大影響力的成果。
其實在過去幾十年中,AI一直是一個不被看好的研究領域,還不得不披上深度學習、機器學習的馬甲。但正是因為高校中有諸如辛頓、楊立昆(Yann LeCun)和約書亞·本吉奧(Yoshua Bengio)這樣持之以恒的研究者,幾十年如一日地堅持相關研究,如今的AI熱潮才有了實現的基礎。
除了在紐約州有Empire AI這樣的算力聯盟之外,北美的不少高校和研究機構也開展了規模大小各異的跨機構合作,共享算力資源。2023年底,中國的十余所院校也成立了中國高校算力聯盟?;蛟S這種合作能給高校的算力荒帶來破局的希望。
來源:《華爾街日報》、Reddit