智東西(公眾號:zhidxcom)
編譯 | ?ZeR0
編輯 | ?漠影
智東西7月17日消息,Proof News的一項最新調查發現,從超過48,000個頻道竊取的173,536個YouTube視頻的字幕被Anthropic、英偉達、蘋果、Salesforce等硅谷巨頭使用。
這些一些全球最有錢的AI公司已經使用成千上萬個YouTube視頻中的素材來訓練人工智能(AI)。盡管YouTube規定禁止未經許可從該平臺獲取素材,但這些公司還是這樣做了。
這個名為YouTube字幕(YouTube Subtitles)的數據集包含了來自可汗學院、麻省理工學院和哈佛大學等教育和在線學習頻道的視頻文本?!度A爾街日報》、美國國家公共電臺和英國廣播公司的視頻均被用來訓練AI,《斯蒂芬·科爾伯特深夜秀》、《約翰·奧利弗上周今夜秀》和《吉米·坎摩爾秀》也是如此。
Proof News還發現了來自YouTube巨星的素材,包括MrBeast(2.89億訂閱者,2個視頻被用于訓練)、 Marques Brownlee(1900萬訂閱者,7個視頻被)、 Jacksepticeye(近3100萬訂閱者,377個視頻)和PewDiePie(1.11億訂閱者,337個視頻)。一些用于訓練AI的素材還宣揚了“地平說”等陰謀論。
一、YouTube素材被科技巨頭用于訓練AI,創作者毫不知情
Proof News創建了一個工具來在YouTube AI訓練數據集中搜索創作者。
“沒有人來找我說‘我們想用這個’?!贝笮l·帕克曼(David Pakman)說道?!洞笮l·帕克曼秀》是一個偏左的政治頻道,有200多萬訂閱者和20多億次觀看量。他的近160個視頻被納入YouTube字幕訓練數據集。
帕克曼的企業有4個全職員工,除了制作播客、TikTok視頻和其他平臺的素材外,該公司每天還會發布多個視頻。帕克曼說,如果AI公司獲得報酬,那么他應該因使用自己的數據而獲得補償。此前一些媒體公司最近簽署了協議,同意因使用他們的工作來訓練AI而獲得報酬。
“這是我的生計,我投入了時間、資源、金錢和員工時間來創作這些內容,”帕克曼說,“真的不缺工作?!?/p>
“這是盜竊?!绷髅襟w服務Nebula的首席執行官戴夫·威斯庫斯(Dave Wiskus)認為。Nebula的部分股權由其創造者所有,其中一些創造者的作品被從YouTube上盜用,用來訓練AI。
在他看來,未經創作者同意使用他們的作品是“不尊重”的行為,尤其是工作室可能會“使用生成式AI來盡可能多地取代藝術家”。
“這會被用來剝削和傷害藝術家嗎?是的,絕對會的?!蓖箮焖拐f。
該數據集的創建者EleutherAI的代表沒有回應對Proof調查結果的置評請求,包括對未經許可使用視頻的指控。該公司的網站表示,其總體目標是降低AI開發的門檻,讓那些身處科技巨頭之外的人能夠參與其中,該公司歷來“通過訓練和發布模型,讓大家接觸到尖端的AI技術”。
YouTube字幕不包含視頻圖像,而是由視頻字幕的純文本組成,通常還附帶日語、德語和阿拉伯語等語言的翻譯。
根據EleutherAI發表的研究論文,該數據集是該非營利組織發布的名為Pile的匯編的一部分。Pile的開發者不僅收集了YouTube的材料,還收集了歐洲議會、英語維基百科以及安然公司員工的大量電子郵件,這些電子郵件是聯邦政府對該公司進行調查時發布的。
Pile的大部分數據集都是開放的,任何擁有足夠空間和計算能力的人都可以在互聯網上訪問。學術界和大型科技公司以外的其他開發人員利用了該數據集,但他們并不是唯一的利用者。
市值數千億甚至數萬億美元的蘋果、英偉達、Salesforce等公司在其研究論文和帖子中描述了如何使用Pile訓練AI。
文件還顯示,蘋果使用Pile訓練OpenELM,這是一個備受矚目的模型,于4月發布,幾周后該公司宣布將為iPhone和MacBook添加新AI功能。
相關出版物顯示,彭博和Databricks也在Pile上訓練模型。
明星AI大模型獨角獸Anthropic同樣如此,它從亞馬遜獲得了40億美元的投資,并強調其對“AI安全”的關注。
Anthropic發言人Jennifer Martinez在一份聲明中稱:“The Pile只包含一小部分YouTube字幕?!痹撀暶髯C實Anthropic的生成式AI助手Claude 使用了Pile,“YouTube的條款涵蓋了其平臺的直接使用,這與使用The Pile數據集不同。關于可能違反YouTube服務條款的問題,建議問The Pile的作者?!?/p>
Salesforce證實將使用Pile構建AI模型,用于“學術和研究目的”。Salesforce AI研究副總裁Caiming Xiong在一份聲明中強調,該數據集是“公開可用的”。
Salesforce后來在2022年發布了相同的AI模型供公眾使用,根據其Hugging Face頁面顯示,該模型自發布以來已被下載至少86,000次。
Salesforce開發人員在他們的研究論文中指出,Pile包含褻瀆性語言以及“對性別和某些宗教群體的偏見”,并警告說這可能會導致“漏洞和安全問題”。Proof News在YouTube字幕中發現了數千個褻瀆性語言的例子,以及種族和性別辱罵的例子。
Salesforce的代表沒有回應有關安全問題。英偉達的一位代表拒絕發表評論。蘋果、Databricks、彭博社的代表均未回應置評請求。
二、YouTube數據“金礦”
巴西里約熱內盧熱圖利奧·巴爾加斯基金會法學院人工智能政策研究員兼CyberBRICS研究員杰·維普拉(Jai Vipra)認為,AI公司相互競爭,部分原因在于獲取更高質量的數據。這是公司對數據來源保密的原因之一。
今年早些時候,《紐約時報》報道稱,YouTube母公司谷歌利用該平臺上的視頻作為文本來訓練其模型。對此一位發言人告訴該報,根據與YouTube創作者的協議,谷歌被允許使用這些文本。
《紐約時報》的調查還發現,OpenAI未經授權使用了YouTube視頻。該公司代表既沒有證實也沒有否認該論文的調查結果。
OpenAI高管曾多次拒絕公開回答有關其是否使用YouTube視頻來訓練其AI產品Sora(該產品可根據文本提示制作視頻)的問題。今年早些時候,《華爾街日報》向OpenAI首席技術官米拉·穆拉蒂提出了這個問題,穆拉蒂回答說:“我實際上并不確定?!?/p>
在維普拉看來,YouTube字幕和其他類型的語音轉文本數據可能是一座“金礦”,因為它們可以幫助訓練模型來復制人們說話和交流的方式。
“這仍然是純粹的原理問題?!薄洞鞣蚪淌谥v解》的主持人戴夫·法里納(Dave Farina)說。他的頻道展示化學和其他科學教程,擁有 300萬訂閱者,并有140個視頻被盜用YouTube字幕。
他說:“如果你從我所做的工作(制造產品)中獲利,而這卻會讓我失業或讓我這樣的人失業,那么就需要就補償或某種監管進行討論?!?/p>
YouTube字幕數據集于2020年發布,其中還收錄了12,000多個視頻的字幕,這些視頻現已從YouTube上刪除。至少有一個案例中,創作者刪除了他們的整個在線信息,但這項工作已被納入了數量不詳的 AI 模型中。
Proof News嘗試聯系本報道中提到的頻道所有者。許多人沒有回應置評請求。在其采訪的創作者中,沒有人意識到他們的信息被竊取了,更不用說這些信息是如何被使用的了。
令人驚訝的是:Crash Course(近1600萬訂閱者,871個視頻)和SciShow(800萬訂閱者,228個視頻)的制作人,它們是漢克和約翰·格林兄弟的教育視頻帝國的支柱。該節目制作公司Complexly的首席執行官朱莉·沃爾什·史密斯(Julie Walsh Smith)在一份聲明中稱:“我們精心制作的教育內容在未經我們同意的情況下被以這種方式使用,我們對此感到非常沮喪?!?/p>
YouTube字幕并不是第一組給創意產業帶來麻煩的AI訓練數據。
Proof News撰稿人亞歷克斯·賴斯納(Alex Reisner)獲得了Pile的另一個數據集Books3的副本,并于去年在《大西洋月刊》上發表了一篇文章,報告了他的發現:超過18萬本書被竊取,其中包括瑪格麗特·阿特伍德、邁克爾·波倫和扎迪·史密斯的作品。
此后,許多作家起訴AI公司未經授權使用他們的作品并涉嫌侵犯版權。類似案件如滾雪球般越滾越大,托管Books3的平臺已將其下架。
針對這些訴訟,Meta、OpenAI、彭博社等被告辯稱,他們的行為構成了合理使用。原告主動撤回了針對最初抓取書籍并公開的EleutherAI的訴訟。
其余案件的訴訟仍處于早期階段,許可和付款問題尚未解決。The Pile已從其官方下載網站刪除,但仍可在文件共享服務上獲取。
“科技公司一直粗暴地對待我們?!毕M者保護律師、DiCello Levitt律師事務所合伙人艾米·凱勒(Amy Keller)說,她曾代表創意人士提起訴訟,指控他們的作品在未經同意的情況下被AI公司竊取。
“人們擔心自己在這件事上別無選擇,”凱勒談道,“我認為這才是真正的問題所在?!?/p>
三、“鸚鵡學舌”
許多創作者對于未來的道路感到迷茫。
全職YouTube博主會巡查其作品是否被未經授權使用,并定期發送刪除通知,有些人擔心,AI生成與他們的作品類似的內容只是時間問題。
《大衛·帕克曼秀》的創作者帕克曼最近在瀏覽TikTok時看到了AI的威力。他偶然發現了一段被標記為塔克·卡爾森剪輯的視頻,但當帕克曼觀看時,他大吃一驚——這段視頻聽起來像卡爾森的,但逐字逐句都和帕克曼在YouTube節目上說的一樣,甚至連節奏都一樣。
同樣讓他感到震驚的是,只有一位視頻評論者似乎意識到這是假的——一個語音克隆的卡爾森聲音讀了帕克曼的劇本。
“這會是個問題,”帕克曼在一段有關假貨的YouTube視頻中說,“基本上你可以對任何人這樣做?!?/p>
EleutherAI創始人希德·布萊克(Sid Black)在GitHub上寫道,他使用腳本創建了YouTube字幕。該腳本從YouTube的API下載字幕,方式與YouTube觀眾在觀看視頻時瀏覽器下載字幕的方式相同。
根據GitHub上的文檔,布萊克使用了495個搜索詞來篩選視頻,包括“搞笑視頻博主”、“愛因斯坦”、“黑人新教徒”、“保護性社會服務”、“信息戰爭”、“量子色動力學”、“本·夏皮羅”、“維吾爾族”、“果食主義者”、“蛋糕食譜”、“納斯卡線條”和“地球是平的”。
盡管YouTube的服務條款禁止通過“自動方式”訪問其視頻,但超過2000名GitHub用戶已收藏或認可該代碼。
機器學習工程師喬納斯·德泊伊克斯(Jonas Depoix)在GitHub上的討論中寫道:“如果YouTube想要阻止該模塊運行,他們有很多方法可以做到?!彼贕itHub上發布了布萊克用來訪問YouTube字幕的代碼,“到目前為止,這種情況還沒有發生?!?/p>
在給Proof News的一封電子郵件中,德泊伊克斯稱,自從幾年前他在大學期間為一個項目編寫了這段代碼后,他就再也沒有使用過它,他很驚訝人們竟然覺得它很有用。他拒絕回答有關YouTube規則的問題。
谷歌發言人杰克·馬龍(Jack Malon)在回復置評請求的電子郵件中表示,該公司“多年來一直采取行動,防止未經授權的濫用數據抓取行為”。他沒有回答有關其他公司使用這些材料作為訓練數據的問題。
AI公司使用的視頻中,有146個來自“愛因斯坦鸚鵡”頻道,該頻道擁有近15萬訂閱者。非洲灰鸚鵡的飼養員瑪西婭不愿透露自己的姓氏,因為擔心會危及這只著名鳥類的安全。她說,起初她覺得AI模型竟然能記住一只模仿鸚鵡的話語很有趣。
“誰會想用鸚鵡的聲音?”瑪西婭說,“但我知道他說得很好。他用我的聲音說話。所以他在模仿我,然后AI在模仿鸚鵡?!?/p>
一旦被AI吸收,數據就無法被遺忘?,斘鲖I擔心她的鸚鵡信息可能會被以各種未知方式利用,包括創建一只數字復制鸚鵡,她擔心的是,這只鸚鵡可能會罵人。
“我們正在踏入未知領域?!爆斘鲖I說道。
來源:Proof