國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云

智東西(公眾號:zhidxcom)
作者 |?徐珊
編輯 | 云鵬

智東西11月16日報道,昨日,騰訊在其技術開放日舉辦了AGI時代的“數據樞紐”騰訊云向量數據庫技術&產業峰會。在此次大會上,騰訊云聯合中國信通院聯合發布向量數據庫標準。騰訊云向量數據庫成為首家通過信通院的向量庫標準測試的向量數據庫,最高支持千億級向量規模和500萬QPS峰值能力。

向量是AI理解世界的通用數據形勢,是多模態數據庫的壓縮。向量數據則是由數值向量組成的數據集合,向量數據庫是以向量嵌入式存儲和管理向量數據的數據庫,其主要的來自于對文本、語音、圖像、視屏等非結構化數據,提供向量化的功能。

“向量數據庫不僅是支撐大模型的重要基礎設施,也正在成為企業以數據驅動打造未來競爭力的重要一環?!彬v訊集團高級執行副總裁、騰訊云與智慧產業事業群CEO湯道生說道。他認為,目前企業數據庫內80%的數據都是非結構化的數據,向量數據可以讓AI直接解讀語音、視頻等多模態的數據。

據騰訊云數據庫副總經理羅云介紹,目前騰訊云向量數據庫已經累積服務了騰訊內部40多個業務,日請求量達1600億次,服務了包括博世、銷售易、搜狐、好未來、鏈家等在內的超過1000家外部客戶。

此外,騰訊云向量數據庫和百川智能聯合發布的“AGI啟航計劃”也正式啟動,向量數據庫免費實例及Baichuan2 400萬免費Tokens將限量開放領取,助力用戶快速搭建RAG應用。同時,騰訊云還與硬件廠商、大模型廠商、行業代表等聯合成立了“AGI技術生態聯盟”。

國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云

一、騰訊集團高級執行副總裁湯道生:向量數據庫比傳統數據庫的檢索規模提升數百倍

“向量數據庫可以成為大模型的外部知識庫,給大模型輸入最新,最全面,最有效的信息,讓大模型擁有長記憶,避免聊天時的斷線,是大模型的最佳拍檔?!睖郎ㄟ^視頻說道。他認為,AI驅動產業數據變動的時代正在到來,向量數據庫正在成為數據的樞紐。

國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云

據他介紹,早在2019年,騰訊云向量數據庫已經接入了QQ瀏覽器等多業務場景,每天處理超過1600億次的請求。在向量檢索幫助下,QQ瀏覽器檢索成本38%,QQ音樂的技術支持也較大提升。

今年8月,騰訊云正式推出向量數據庫,如今,騰訊云向量數據庫也成為首個通過信通院標準測試的廠商,該向量庫擁有千億級的向量規模,比傳統數據庫的檢索規模提升數百倍。

湯道生認為,數據在大模型的向量數據庫實現了智能計算、智能存儲,大幅降低客戶的應用門檻和成本。不少用戶基于騰訊云向量數據庫打造相應的應用,讓用戶在模糊的提示詞下,也可以準確的找到答案,幫助客戶節省80%的人工客服成本。

二、騰訊云副總裁陳平:國內擁有130個大模型,向量數據庫是AGI時代大模型的最佳拍檔

“向量數據庫已經被業內公認大模型時代的數據樞紐,因此其建設也尤為重要?!彬v訊云副總裁陳平談到在新的時代,AI行業將會改變千行百業,傳統行業需要及時調整自己的生產方式,以跟上新的時代。

國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云

同時,在新興數據技術集成上,移動互聯網、泛互聯網等數據正呈現指數級成長,傳統處理數據的能力帶來壓力,更高效的數據存儲需要更智能存儲、梳理等。他認為,向量數據庫是AGI時代大模型的最佳拍檔。

企業需要將數據采集和存儲,更多利用大模型的數據和存儲。在數據采集層,騰訊計劃部署各種AI芯片,提供穩定的服務性能,為各種各樣的AI廠商提供服務。在模型層,據他統計,中國已經有130個大模型,接下來需要廠商將大模型沉淀到各個產業中。大模型的應用并不完全看算力,也看生態合作。而應用層,AGI應用需要投入到真實環節,也是其實現價值最重要的一環。

在2018年左右,由于自身業務的需要,騰訊云就已經開始打磨向量數據庫,如今已經成為較為成熟體系?!膀v訊云積極參與向量數據庫相關標準制定,并通過搭建AGI技術生態聯盟,與上下游伙伴一道,加強產業合作,打造更多的行業解決方案,加速大模型落地?!标惼秸f道。

三、中國信通院人工智能創新中心負責人魏凱:國內數據庫仍以關系型為主

中國數據庫產業開始于20世紀末,并在2013年后迎來新的繁榮發展,在2020年后,中國數據庫迎來的真正的爆發?!皵祿焓且粋€生命力比較頑強的產業,幾乎每幾年都有一個熱點。在全球數據庫第二波爆發階段,中國趕上了浪潮?!敝袊磐ㄔ喝斯ぶ悄軇撔轮行呢撠熑?、云計算與大數據研究所副所長魏凱說道。

數據庫上云成為當今產業行業重要的趨勢,2022年,國內的公有云市場首次超過了私有云,市場份額超過一半。

向量數據庫是存儲檢索、多維度向量最關鍵的數據庫。向量數據庫與大模型的結合,成為其當下的產業熱門。向量數據庫與傳統數據庫會協同發展、相互補充。向量數據庫將會通過數據的向量化來滿足特定需求,尤其是傳統關系型數據庫難以處理的大規模數據。

國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云

目前,全球數據庫產品數量整體分布呈現以非關系型數據為主。但國內卻出現關系型數據庫的發展超過非關系型數據庫的現象。從創新看,非關系型數據是熱點,我國創新實力不斷增強。而從標準上看,行業組織正逐步推動我國標準體系完善。從模式來看,開源模式在全球范圍內發展勢頭較猛,目前,我國國內的開源數據庫共有42款,開源數據庫中69%為關系型數據庫。

他提到目前向量數據庫的核心技術有Embedding技術、向量索引技術、分布式系統架構、硬件加速技術等。向量數據庫可以在文本、圖像、視頻、生物制藥等多場景中,發揮其創造性,提供豐富的應用。

四、對話騰訊云向量數據庫負責人羅云:智能化數據平臺的數據要可流通、可對話

隨著AI的發展,整個計算機科學行業的底層基礎設施將會構建全新的方式。

“AGI時代大模型是提供算力、調度的智能平臺,向量數據庫就是這個智能化的數據的調度平臺的中樞”騰訊云創始團隊成員、騰訊云數據庫副總經理兼向量數據庫負責人羅云認為,大模型的本質是帶有智能計算的計算平臺,將會將人們所接觸編程語言才可以觸達的計算體,轉換成人們自然語言就可以接觸的計算體。

他認為AGI時代,智能化數據平臺將會存在兩大特點,第一、底層數據化數據將要可以通過智能化的方式流通;第二則是,能夠和數據庫對話。因此,在AGI時代,向量數據庫是數據的中樞。通過向量這樣中間模式,將會磨平了數據之間的差異。

在會后的采訪環節,羅云提到向量是一種通用的人工智能背后的數據格式,它可能是需要橋接關鍵數據庫、非關鍵數據庫、對象存儲、文件存儲所有的各式各樣結構的數據,把這些數據集中化放在一個數據管理平臺上。而傳統的插件式向量數據庫相比,很難讓某一個數據庫的插件支持到其他的格式?!跋蛄繑祿鞎蔀橹悄芑疉I的一個索引層,它會把底層所有的數據都智能化的管理起來,讓人類通過自然語言,通過向量去做交互?!彼a充道。

國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云▲中間為騰訊云創始團隊成員、騰訊云數據庫副總經理兼向量數據庫負責人羅云

AGI時代的數據中樞及既要有傳統數據路的企業級能力,更需要智能化升級。向量數據庫需要在可用性、分布式、性能、可靠性等六大能力方面,擁有新的要求,實現計算智能化、存儲智能化、接口智能化。

為了加速向量數據庫在企業的大規模應用,騰訊云還推出了國內“首個”端到端的向量數據庫解決方案,通過文本智能化分割、選擇向量化模型、幫助客戶建立索引,再經智能化排序實現端到端的數據接入體驗。將端到端召回率提高30%,縮短數據接入AI的時間。

現階段,騰訊云已經接入了百余項項目,同時,騰訊已經外部接入了千余家企業。例如,在SaaS領域,幫助企業客戶快速構建私域知識庫、智能客服系統;在電商行業,使用向量數據庫來提升推薦、搜索、廣告業務的推薦效果;在出行行業,使用向量數據庫來加速自動駕駛模型訓練,此外,在教育行業以及文創等行業也有廣泛應用。

在產業創新方向上,他提到不少在向量數據庫廠商發力的點集中在在成本層的一些調優,且想要去做AI Native,AI原生的把智能化的東西做成一站式的向量數據庫??蛻粼谙蛄繑祿斓牟少彿矫嬉膊⑽纯ㄔ诔杀经h節,更多在思考怎么樣把自己的行業know-how和AI的整個技術站打通起來。

對于向量數據庫的版本迭代節奏,羅云計劃在未來的一年時間內可能會把向量數據庫升級的節奏控制在三個月到六個月會有一個大的版本,再往后會隨著AI的進展再去看。

結語:騰訊云加速向量數據庫大規模應用

向量數據庫正在成為當下大模型熱潮中底層技術突破重點。通過向量的方式存儲各式各樣的數據,能夠讓大模型更快、更自然的理解相應的數據內容,從而給出更準確、合適的內容,幫助企業提高生產效率。

目前,我國的數據庫正呈多樣、豐富化的組合方式。騰訊云和信通院一起聯合50多家企業共同發布了國內首個向量數據庫標準,推進向量數據庫及大模型相關產業走向大規模應用。