5大維度21項細分能力拿下國產大模型首位,文心一言還是那個老大

智東西(公眾號:zhidxcom)
作者 | 徐珊
編輯 | 漠影

智東西3月26日報道,近日,全球增長咨詢公司弗若斯特沙利文發布了《2024年中國大模型能力評測》,評測顯示,百度文心一言穩居國產大模型首位,拿下數理科學、語言能力、道德責任、行業能力及綜合能力等五大評測維度的四項第一。

當下正值文心一言發布一周年,從去年3月文心一言發布到如今的文心大模型4.0版本,用戶們見證了文心一言的迅猛成長,這不僅代表的是搜索平臺、工具的迭代升級,更是人們對信息獲取、理解和應用的一次全面革新。

在過去這一年里,大模型及生成式AI工具爆發式增長,正改變著傳統工作流程,重塑各行各業。百度創始人、CEO李彥宏在今年3月的財報會議上提到,文心大模型的日調用量已超過5000萬次,大約有2.6萬家企業調用文心大模型,每1分鐘企業調用文心大模型的次數超過3.4萬次。

在以文心一言為代表的大模型狂飆的這一年里,我們從最新的成績單中,看到了中國大模型產業發展的新動力。

一、技術扎實可打,文心一言還是國產大模型一哥

近期,沙利文發布的《2024年中國?模型能?評測》對國內主流的15個大模型進行了橫評,從而將中國大模型分成了三個梯隊。

如下圖所示,百度、騰訊、阿里等互聯網大廠旗下大模型位于第一梯隊,綜合表現更為優異。其中,文心一言能力最為全面,五項評測維度均為優勢能力,并取得四項第一。

5大維度21項細分能力拿下國產大模型首位,文心一言還是那個老大

▲沙利文《2024年中國大模型能力評測》:大模型綜合競爭力氣泡圖

評測主打一個全面綜合,維度包括通用基礎能力專業應用能力兩大方面。

具體來說,通用基礎能力重點評估?模型在語言理解、知識儲備、道德風險控制等方面的表現,以揭示其在自然語言理解和交互水平上的能力。而專業應用能力則著重檢驗?模型在實際應用中的效能與價值,通過考察其在任務規劃、超長文本處理、行業內容生成等方面的表現,以衡量?模型在不同應用場景下的實際價值產出能力。

報告顯示,文心一言在通?基礎能?評測中超越部分國際大模型,能夠精確解析?本、捕捉語義,并?成符合語法和語境規則的?本。但我們也能看到國際領先模型在通?基礎能?和專業應?能?上略優于中國領先模型。

整體測評中,文心一言拿下數理科學、語言能力、道德責任、行業能力綜合能力等五大評測維度的四項第一,在21個細化二級維度均表現突出。

5大維度21項細分能力拿下國產大模型首位,文心一言還是那個老大

▲文心一言綜合表現最佳:5大維度取得4項第一

沙利文預測,2024年,大模型的技術發展將趨向多功能與小型化,同時產業端將強調自主研發和行業標準化,而倫理責任和數據標準規范將成為持續發展的關鍵。

二、技術為根,客戶+應用成國產大模型“新考場”

過去一年間,中國大模型如雨后春筍般涌現。

根據國家數據局3月25日發布的最新工作報告,中國10億參數規模以上的大模型數量已超100個,行業大模型深度賦能電子信息、醫療、交通等領域,形成上百種應用模式,賦能千行百業。

千行百業的客戶與應用正成為國產大模型的“新考場”,AI根技術的“試金石”。

以“帶頭大哥”文心一言為例,過去一年,百度基于獨有的四層AI技術架構,分別從芯片、框架、模型和應用層面出發,迭代技術。

尤其是框架和模型的協同優化,讓文心大模型能不斷提升效率。飛槳在過去一年里不斷升級,向上支撐大模型生產,提高模型部署效率和靈活性;向下適配各類硬件,提高硬件適配效率和降低成本。據了解,如今文心大模型不斷降低推理成本,目前已降至去年3月版本的1%。

同時為了讓更多人用起大模型,百度推出了兩款MaaS產品,用于應用開發的千帆AppBuilder和用于專有模型開發精調的千帆ModelBuilder,累計幫助用戶精調1.3萬個大模型,服務8萬企業用戶,幫助用戶開發出16萬個大模型應用。

截至目前,文心大模型的日調用量已超過5000萬次,季度環比增長190%;去年12月,約有2.6萬家企業調用文心大模型,季度環比增長150%。三星、榮耀、汽車之家等知名企業均與百度達成合作。

總的來說,只有技術和客戶應用兩手抓,大模型發展才是抓住了“牛鼻子”。

隨著2024年的“百模大戰”進入深水區,大模型產業將迎來玩家新洗牌。一方面,模型技術迭代和評測比拼將繼續挑戰極限;另一方面,大模型技術與行業應用加深結合,有推動證新的“燈塔式”案例跑出來,從而為產業篩選出更加有實力的選手。

三、用戶生態,大模型未來圖景哺育者

“獨木不成林”,大模型產業的發展需要生態共建。

大語言模型的出現,猶如熱帶雨林里蝴蝶輕輕扇動的翅膀,悄然間引發了一場深刻改變人們生活的“龍卷風”。而掀起這陣龍卷風的,不僅是AI大模型廠商,還有眾多上下游的AI應用開發者、行業從業者及工程商等伙伴。

過去一年里,52歲的虎哥在這場AI“龍卷風”中找到了自己的第一個著陸點——利用AI助力考研。他通過文心一言幫助自己記憶知識點、總結歸納重點,用了100天的時間在考研的初試中取得了398的高分。如今,他稱自己的這套學習方法為“AI學習法”。

“最簡單的就是拿這個題直接去問文心一言,AI就會直接給我答案?!被⒏缁仡欁约旱腁I學習法時說。他還讓文心一言提供“1小時快速回顧高中化學知識的計劃”、“AI解答所有不能夠理解的地方”、“讓AI給出政治題參考答案,并總結成三個關鍵詞背誦”等等。

“AI學習法,我覺得要學、要用就要盡快用,因為大家都會用了以后,你的時間差就沒有了?!被⒏缭谡劦紸I學習的好處時分享道。他還對比了ChatGPT和文心一言4.0,在中文回答上能感受到文心一言有時更勝一籌。

生成式AI不僅成為了虎哥的學習神器,也能成為一些特殊人群的“AI良藥”。95后的李朋程和其團隊也是通過文心一言打造了幫聽障人士學說話的產品“聲橋AI語訓”。

憑借文心大模型的能力,“聲橋AI語訓”能夠有效比對使用者的發音與標準發音之間的差異,并據此以文字形式提供針對性的正確發音指導,幫助用戶改善發音質量。這也讓部分聽障群體能夠在一遍遍的比對之中,聽懂聲音的含義、學會張口說話,糾正發音的偏差,從而節省下高達十幾萬的康復訓練費用。

10后的熠墨小朋友通過文心一言,成功為自己的妹妹復刻出一個“數字爸爸”,讓這個虛擬的陪伴者能夠陪伴妹妹聊天,時刻維持著親情的溫暖。謝菲爾德大學的博士生彭煦潭,借助飛槳AI技術,開發出了一款“漢語-少數民族語言”詞典,實現了漢語與少數民族語言之間的順暢翻譯,讓少數民族語言能夠在更廣闊的范圍內得到應用。

站在國產大模型狂飆突進一周年的節點上,我們看到,大模型的創新已層出不窮,一些有價值的應用也已經陸續出現,同時要真正走到規?;渴鹑杂幸欢ň嚯x。

2024年有望成為大模型落地應用元年。隨著AI進入千行百業,它不僅讓人們的生活和生產更便捷,也能幫人們將愛與善意具象化。隨著用戶生態的發展壯大,我們離大模型的未來圖景將更近一步。