超180個業務接入,騰訊混元大模型中文能力超GPT3.5,首次亮相“文生圖”功能

智東西(公眾號:zhidxcom)
作者 | 徐珊
編輯 | 云鵬

10月26日智東西北京報道,今天騰訊宣布,騰訊混元大模型正式對外開放“文生圖”功能,首次展現其在圖像自動生成領域的能力。在現場,我們看到了騰訊混元大模型“文生圖”功能是如何一步步成長的。

此外,騰訊自研的面向垂直領域的7B和13B模型也首次亮相,騰訊還提及混元大模型的中文能力整體超過GPT3.5,代碼能力大幅提升20%。

超180個業務接入,騰訊混元大模型中文能力超GPT3.5,首次亮相“文生圖”功能

▲騰訊混元大模型

目前,超過180個騰訊內部業務已接入騰訊混元大模型,包括騰訊會議、騰訊文檔、企業微信、騰訊廣告和微信搜一搜等。同時,QQ瀏覽器通過騰訊混元大模型推出了“PDF閱讀助手”,具備智能摘要、智能問答和多輪提問等功能。

此次,溝通會上,騰訊機器學習平臺算法負責人康戰輝詳細介紹了騰訊混元大模型升級后的業務增長情況,騰訊混元大模型文生圖技術負責人蘆清林則具體講述了騰訊混元大模型的“文生圖”功能具體情況,以及在研發“文生圖”功能的過程中,騰訊又是如何攻克技術難關。

在騰訊內部,混元大模型又提高了哪些生產力?智東西和少數媒體對話康戰輝和蘆清林,了解到混元大模型最新的研發進展,以及其大模型落地情況。

一、業務增長達400%,混元大模型重點發力頭部場景

目前,混元大模型已經接入了180+業務,相較于剛剛發布時的混元大模型情況,業務增長翻了三倍左右?,F階段,文檔問答、文本創作、代碼生成以及常識推薦都成為大模型重點發力的頭部場景。比如,通過自然語言,騰訊混元大模型已經可以內置超過250款內置函數,從而形成表格生成,又或者在代碼生成中,用戶可以通過自然語言幫助用戶打造程序。

經過對32種主流語言代碼文件、各類計算機書籍和博客的學習增訓,騰訊混元代碼處理水平提升超過20%,代碼處理效果勝出ChatGPT 6.34%,在HumanEval公開測試集指標上全面超過Starcoder、Codellama等業界頭部開源代碼大模型。在代碼預訓練流程,混元大模型通過接入通用語言自然語言、計算機類論壇和Github代碼等文件,讓大模型可以在預訓練過程中增加代碼填空任務、代碼語言標簽等,并且windows size也從2K增加到8K。

在現場,我們看到康戰輝演示了如何通過自然語言輸入用Python寫一個抽獎程序,并運行,現場展示效果較為流暢?,F在,用戶只需輸入簡單的指令如“幫我用前端語言實現一個貪吃蛇”,騰訊混元便能自動生成可運行的代碼,制作出一個貪吃蛇小游戲的程序。

超180個業務接入,騰訊混元大模型中文能力超GPT3.5,首次亮相“文生圖”功能▲騰訊混元大模型寫的代碼程序順利執行

不僅在寫代碼,混元大模型能夠提高工作效率,同時,工程師們可以使用騰訊混元來進行代碼生成、代碼補全、代碼漏洞檢測和修復、表格數據處理、數據庫查詢等工作。

這些供功能背后是,是騰訊自研一站式機器學習平臺Angel為其提供技術支撐。AngelPTM訓練框架可提供分布式訓練解決方案,訓練速度相比業界主流框架提升1倍。AngelHCF訓練框架具備從蒸餾、微調、壓縮到模型加速的能力,支持多種模型并行,保證模型的最小化部署及最大化吞吐,推理速度相比業界主流框架FasterTransformer快1.3倍。

據康戰輝透露,代碼預訓練的效果在HumanEval公開測試集指標上超過Starcoder領先75%。端對端的效果中,混元大模型Code能力顯著超過ChatGPT,在部分語言如Python等部分語言能力上和GPT-4上差不多。

二、解決“文生圖”三大難題,騰訊瞄準廣告場景

騰訊的流量產品較為豐富,對文生圖的需求能力也較為強烈。目前的文生圖主要是兩種方案,第一類是從0-1的團隊組建技術方案,另一類則是通過接入大模型,從而完成文生圖的應用。

目前混元的文生圖方案主要圍繞算法模型、系統平臺等搭建自己的大模型。

現階段,文生圖算法模型存在三大難點,語義理解、生成合理性以及生成質感?;煸纳鷪D模型正在通過Clip預訓練大模型,保障語義表達,通過基于模型的獨立生成主模型保障圖像結構穩定,以及級聯的超分辨率輔模型,保證圖像細節質感。

超180個業務接入,騰訊混元大模型中文能力超GPT3.5,首次亮相“文生圖”功能

騰訊混元大模型文生圖技術負責人蘆清林提及文生圖的模型中,如何用中文的表義特征轉換成圖片的語義表達一直是業內的一大難點?;煸竽P屯ㄟ^CLIP支持中英文雙語理解,同時加強文本特征在細粒度屬性上的區分度。同時,他們還通過Tokenizer優化并結合中英文訓練,提升中英文了解能力和編碼效率。為了增加語義信息,騰訊也通過輕量級prior模型打造跨模態的橋梁,用小計算量換穩定的生成效果。

在生成合理性上,蘆清林用“人形圖”舉例,如何告訴大模型生成一個人的模型,讓人的組成要合理。騰訊用Transformer實現擴散模型,統一了圖像和文本token實現雙向注意力,文本對圖像控制更加精準。

為了提升畫面的質感細節,騰訊通過多模態融合,讓新模型擬合所有模型在各自數據上均有優先的表現,提升優化效率,從而提高生成圖像更細致的紋理,比如說,可以看到更多的水波紋在湖面上蕩漾。經過模型算法的優化之后,混元文生圖的人像模型,包含發絲、皺紋等細節的效果提升了30%,場景模型,包含草木、波紋等細節的效果提升了25%。

超180個業務接入,騰訊混元大模型中文能力超GPT3.5,首次亮相“文生圖”功能

除了這些以外,在混元文生圖的數據工程中,常出現圖文對數據質量差、訓練周期長、效果弱,并且大模型迭代效率低。目前,混元文生圖通過中文細粒度Caption補充Prompt,提升圖文的相關性等,從而提升數據質量、效果、以及效率的最大化。

混元大模型也逐漸通過旅游、金融等廣告中通過AIGC能力,幫助廣告主獲得合適的圖片。針對圖文廣告場景,騰訊針對人像、游戲畫風等多個環節做了專門的優化。在研發初期,人物和場景的融合,會出現不自然、表情動作僵硬等情況,場景類素材出現缺飯品質感、細節的情況?!癕idjourney生成的酒店看起來像是五星級大酒店,我們的看起來就像廉價的小酒館,但在優化后,我們的酒店至少是個精品民宿了?!碧J清林說。

他說,在經過3個月的攻堅克難后,廣告業務下的多輪測評中,騰訊混元文生圖的案例優秀率和廣告主采納率分別達到86%和26%,均高于同類模型。

結語:發力“文生圖”功能,騰訊加速大模型與內部產品融合

和其他著急推出行業大模型的企業不同,我們看到騰訊正在將混元大模型的底層能力和其公司內容的產品精密融合,試圖和如微信、瀏覽器、騰訊會議、騰訊文檔等多層內容產品,不斷打磨自己的大模型能力??梢钥闯?,騰訊混元大模型團隊,目前仍將大部分精力放在打磨大模型能力上。

據相關負責人透露,騰訊混元大模型正在不斷強化圖片、視頻、音頻等各類模態的處理能力,相關成果也將很快面向外界推出。