當(dāng)前位置:主頁(yè) > 最新文章 > 正文
    實(shí)錘!村上春樹(shù)、史蒂芬·金盜版書(shū)成訓(xùn)練數(shù)據(jù),AI 巨頭無(wú)一幸免
    來(lái)源:金融界作者:洞察網(wǎng)2023-08-22 12:15:22

    AI 的狂飆突進(jìn),背后站著「數(shù)據(jù)原罪」的幽靈。


    【資料圖】

    為了訓(xùn)練大型語(yǔ)言模型,OpenAI、Meta、谷歌、微軟等公司未經(jīng)許可,從互聯(lián)網(wǎng)上收割了數(shù)百萬(wàn)受版權(quán)保護(hù)的作品,在版權(quán)法的灰色地帶中游弋。

    如今,OpenAI 目前正面臨大量的官司,原告稱該公司訓(xùn)練數(shù)據(jù)集中的大多數(shù)書(shū)籍來(lái)自盜版來(lái)源和非授權(quán)網(wǎng)站。一旦被判侵權(quán),公司有可能將面臨巨額罰款或重構(gòu)算法的局面。這也導(dǎo)致,如今 AI 公司越來(lái)越不愿意分享 AI 訓(xùn)練數(shù)據(jù)的詳細(xì)信息。

    但一些公開(kāi)的盜版語(yǔ)料庫(kù)已經(jīng)被盯上。

    近日,有人發(fā)現(xiàn)一個(gè)叫 Book3 的數(shù)據(jù)集,包含近 20 萬(wàn)本書(shū)籍,囊括村上春樹(shù)、史蒂芬·金等暢銷書(shū)作家的著作,這個(gè)數(shù)據(jù)集被用在了訓(xùn)練 AI 模型上,最近遭到反盜版組織的反復(fù)攻擊。

    版權(quán)問(wèn)題這把利刃,正懸在 AI 公司們的頭上,有搖搖欲墜之勢(shì)。

    01

    Books3,

    AI 公司的秘密

    一直以來(lái),對(duì)于 AI 模型的訓(xùn)練數(shù)據(jù)并不完全透明。今年,多名美國(guó)作家針對(duì) OpenAI 提起了集體訴訟,指控其使用盜版書(shū)籍來(lái)訓(xùn)練其語(yǔ)言模型,侵犯版權(quán)并違反了多項(xiàng)法律。

    這些作家主張的證據(jù)很簡(jiǎn)單,因?yàn)樾┧麄儚奈赐?OpenAI 使用他們的作品,然而 ChatGPT 卻能提供他們作品的準(zhǔn)確摘要,這讓他們認(rèn)為這些信息肯定是從某個(gè)地方獲取的。

    根據(jù)早期 GPT 版本的研究論文,訓(xùn)練數(shù)據(jù)集有部分來(lái)自于「兩個(gè)基于互聯(lián)網(wǎng)的書(shū)籍語(yǔ)料庫(kù)」,它們被簡(jiǎn)單地稱為「Books1」和「Books2」,這些數(shù)據(jù)集具體包含哪些作品比較含糊。Books1 似乎是 bookcorpus,里面有數(shù)百本書(shū)明確聲明「不得以商業(yè)或非商業(yè)目的復(fù)制和分發(fā)」。Book2 則成為一個(gè)謎團(tuán),大多人猜測(cè)它們來(lái)自于「臭名昭著的影子圖書(shū)館網(wǎng)站」,如 Library Genesis、Z-Library、Sci-Hub 和 Bibliotik。

    其中,Z-Library 成立于 2008 年,是互聯(lián)網(wǎng)最大的盜版電子書(shū)庫(kù)之一。2022 年 11 月,美國(guó)政府起訴兩名運(yùn)營(yíng)該網(wǎng)站的俄羅斯公民,這兩人在阿根廷被逮捕。

    至于 GPT-4 的 45TB 訓(xùn)練數(shù)據(jù),其中包含什么內(nèi)容的信息更加有限,OpenAI 多年來(lái)逐漸減少了其訓(xùn)練數(shù)據(jù)的披露。

    盡管目前沒(méi)有直接證據(jù)表明 OpenAI 使用盜版網(wǎng)站來(lái)培訓(xùn) ChatGPT,但一些 AI 模型此前已經(jīng)明確在盜版書(shū)籍上進(jìn)行了訓(xùn)練,包括使用「Books3」數(shù)據(jù)集的 AI 模型。

    EleutherAI 的 Pythia 研究論文中提到,Pythia 是使用 Pile 數(shù)據(jù)集進(jìn)行訓(xùn)練的,而 Pile 數(shù)據(jù)集包含多個(gè)英語(yǔ)文本集,其中之一就是名為「Books3」的數(shù)據(jù)集。

    Books3 是用于訓(xùn)練 AI 的最著名的盜版書(shū)籍庫(kù)之一,最初是由 AI 開(kāi)發(fā)人員和知名開(kāi)源 AI 支持者 Shawn Presser 于 2020 年上傳。它包含 37 GB 的文本,包括 196640 本純文本格式的書(shū)籍,并在盜版網(wǎng)站 bibliotik 上托管

    「假設(shè)你想訓(xùn)練一個(gè)世界級(jí)的 GPT 模型,就像 OpenAI 一樣。怎么做?你沒(méi)有數(shù)據(jù)。現(xiàn)在你可以做到,現(xiàn)在每個(gè)人都這樣做。為你呈現(xiàn)「books3」,又名「all of bibliotik」。」Shawn Presser 最早在社交平臺(tái)上寫(xiě)道。

    開(kāi)源 AI 支持者 Shawn Presser 于 2020 年上傳「books3」| X

    然而,反盜版組織也在采取行動(dòng),代表相關(guān)利益群體,試圖限制未經(jīng)授權(quán)的 AI 訓(xùn)練數(shù)據(jù)的使用。

    這段時(shí)間,反盜版組織 Rights Alliance 向相關(guān)站點(diǎn)發(fā)送刪除通知后,相關(guān)站點(diǎn)已將 Books3 數(shù)據(jù)集下線,導(dǎo)致嘗試訪問(wèn)該數(shù)據(jù)集的用戶會(huì)看到 404 錯(cuò)誤。Rights Alliance 還聯(lián)系了 AI 模型托管平臺(tái) Hugging Face(該站點(diǎn)托管了 Books3 下載鏈接)以及 EleutherAI。然而,盡管一些鏈接被下架,該數(shù)據(jù)集的副本并未消失,仍然在其他地方出現(xiàn)。

    遭到針對(duì)后,Shawn Presser 繼續(xù)發(fā)布新的下載鏈接,他稱,除非反對(duì)者打算讓 ChatGPT 下線,或者通過(guò)訴訟將其告到滅亡,否則,他希望每個(gè)人都能夠制作自己的 ChatGPT,他還稱自己「很樂(lè)意入獄 10 個(gè)月(海盜灣創(chuàng)始人服過(guò)的最高刑期),因?yàn)槲彝苿?dòng)了科學(xué)進(jìn)步并賦予了你們復(fù)制 ChatGPT 的能力。」

    復(fù)制ChatGPT這樣的模型的唯一方法,是創(chuàng)建像 Books3 這樣的數(shù)據(jù)集。」Shawn Presser 稱:「每個(gè)營(yíng)利性公司都會(huì)秘密地這樣做,不會(huì)將數(shù)據(jù)集發(fā)布給公眾。」「沒(méi)有 Books3,我們就生活在一個(gè)只有 OpenAI 和其他億萬(wàn)美元公司才能訪問(wèn)這些書(shū)籍的世界中,這意味著你不能制作自己的 ChatGPT。沒(méi)有人能。只有億萬(wàn)美元的公司才有資源做到這一點(diǎn)。」

    包括 Meta 在內(nèi)的一些公司曾經(jīng)使用過(guò) Book3,另外,Meta、谷歌都使用過(guò)的 C4 訓(xùn)練數(shù)據(jù)集也被詬病過(guò),現(xiàn)在這些公司對(duì)其語(yǔ)言模型中的內(nèi)容更為保密。

    Meta 的 Llama 2 增加了 40% 的數(shù)據(jù),但在其白皮書(shū)中,該公司對(duì)其最新的 大語(yǔ)言模型使用了什么數(shù)據(jù)更為猶豫,唯一提到的是「一個(gè)新的混合的公開(kāi)可用在線數(shù)據(jù)」。隨著 AI 和版權(quán)之間的摩擦升溫,公司越來(lái)越不愿意分享 AI 訓(xùn)練數(shù)據(jù)的詳細(xì)信息。

    02

    萬(wàn)名作家聯(lián)名反對(duì)

    超一萬(wàn)名作家已經(jīng)在敦促 AI 公司停止未經(jīng)許可使用其作品,他們不希望 AI 模仿其作品并學(xué)會(huì)寫(xiě)作,除非科技公司為此付費(fèi)。

    美國(guó)的作家協(xié)會(huì)已經(jīng)向巨頭們發(fā)了一封公開(kāi)信,包括 OpenAI、谷歌、Meta、Stability AI、IBM 和微軟公司的各大 CEO,要求他們停止未經(jīng)許可使用他們的作品,或?qū)κ褂米髌愤M(jìn)行補(bǔ)償

    其中包括《達(dá)芬奇密碼》作者丹·布朗、《饑餓游戲》作者蘇珊·柯林斯、《使女的故事》作者瑪格麗特·阿特伍德、《自由》作者喬納森·弗蘭岑等人都簽署了這封公開(kāi)信,簽署的作家名單長(zhǎng)達(dá) 100 多頁(yè)。

    一萬(wàn)名作家簽署公開(kāi)信 |美國(guó)作家協(xié)會(huì)

    目前,該作家協(xié)會(huì)正嘗試先在不提起訴訟的情況下解決爭(zhēng)端,因?yàn)椤冈V訟需要大量的資金,而且需要很長(zhǎng)時(shí)間。」

    但也有一些文學(xué)界人士愿意直接在法庭上與科技公司對(duì)抗,控訴 Meta 或 OpenAI 等使用盜版來(lái)訓(xùn)練他們的 AI。此外,文學(xué)經(jīng)紀(jì)人們正在與出版商商討,要更新出版合同條款,禁止未經(jīng)授權(quán)的 AI 訓(xùn)練用途,大部分出版商都愿意限制 AI 使用他們的出版物。

    根據(jù)美國(guó)作家協(xié)會(huì)的調(diào)查,90% 的作家認(rèn)為,作家應(yīng)該獲得對(duì)其作品用于訓(xùn)練生成式人工智能的補(bǔ)償,65% 的作家支持建立一個(gè)集體授權(quán)制度,以補(bǔ)償作者的作品被用于訓(xùn)練生成式 AI。

    此外,69% 的作家認(rèn)為他們的職業(yè)受到生成式 AI 的威脅,70% 的作家認(rèn)為出版商將開(kāi)始使用 AI 來(lái)完全或部分生成書(shū)籍,取代人類作者。

    除了發(fā)公開(kāi)信、打官司、完善合同,出版業(yè)還在進(jìn)一步尋求立法。

    美國(guó)作家協(xié)會(huì)的人正在游說(shuō)制定相關(guān)法律、法規(guī)和政策:在同意方面,要求在生成式人工智能中使用作家作品時(shí)獲得許可;在補(bǔ)償方面,為那些希望允許其作品用于生成式人工智能培訓(xùn)的作家提供補(bǔ)償;在透明度方面,要求人工智能開(kāi)發(fā)者透明披露他們用于培訓(xùn)其人工智能的作品

    他們也期望,生成式 AI 的輸出使用到作家的作品時(shí),要獲得許可并建立相應(yīng)的補(bǔ)償機(jī)制,或者當(dāng)在提示中使用作家的姓名、身份或作品標(biāo)題時(shí),也應(yīng)獲得許可。此外,他們要求作者、出版商、平臺(tái)和市場(chǎng)標(biāo)明 AI 生成的作品,并在作品很大一部分(例如超過(guò) 10-20%)由 AI 生成時(shí)進(jìn)行標(biāo)識(shí)。

    「我們需要確保人類創(chuàng)作者得到補(bǔ)償,這不僅是為了創(chuàng)作者本身,而是為了確保我們的書(shū)籍和藝術(shù)繼續(xù)反映出我們的真實(shí)和想象的經(jīng)驗(yàn),開(kāi)拓我們的思維方式,教導(dǎo)我們新的思維方式,并推動(dòng)我們社會(huì)的發(fā)展,而不是重復(fù)舊觀念。」該作家協(xié)會(huì)在官方聲明中稱。

    03

    NYT VS OpenAI

    除了作家和藝術(shù)家,其他類型的內(nèi)容創(chuàng)作者,也紛紛加入起訴 AI 公司的行列,一些新聞機(jī)構(gòu)批評(píng)科技公司未經(jīng)授權(quán)或補(bǔ)償就使用他們的內(nèi)容。

    比如,紐約時(shí)報(bào)正在考慮對(duì) OpenAI 提起訴訟,稱 OpenAI 的ChatGPT使用了該報(bào)的數(shù)據(jù)進(jìn)行訓(xùn)練,而未經(jīng)紐約時(shí)報(bào)許可。在過(guò)去的幾個(gè)月里,OpenAI 和紐約時(shí)報(bào)一直在試圖達(dá)成一項(xiàng)有關(guān)紐約時(shí)報(bào)內(nèi)容的許可協(xié)議。但談判還未有結(jié)果,存在破裂的可能。

    紐約時(shí)報(bào)大樓 | The New York Times

    在最近對(duì)其服務(wù)條款政策的更改中,紐約時(shí)報(bào)明確禁止將其龐大的媒體檔案用于訓(xùn)練「任何軟件程序,包括但不限于訓(xùn)練機(jī)器學(xué)習(xí)或人工智能(AI)系統(tǒng)」的目的。該政策適用于紐約時(shí)報(bào)的文本內(nèi)容、照片、視頻和元數(shù)據(jù),并明確禁止網(wǎng)絡(luò)爬蟲(chóng)訪問(wèn)這些數(shù)據(jù)來(lái)訓(xùn)練專有產(chǎn)品。

    這里做一個(gè)假設(shè),如果法院判定 OpenAI 等 AI 公司的訓(xùn)練行為屬于侵權(quán),OpenAI 可能會(huì)被迫停止使用受版權(quán)保護(hù)的數(shù)據(jù),并在不使用受版權(quán)保護(hù)的數(shù)據(jù)的前提下,重新構(gòu)建其算法,這會(huì)引發(fā)多大的麻煩?

    科技公司也試圖與新聞媒體建立關(guān)系。谷歌曾試圖爭(zhēng)取像紐約時(shí)報(bào)、華盛頓郵報(bào)等新聞機(jī)構(gòu)的支持,試圖向他們推銷 AI 工具。還有 AI 公司向新聞非營(yíng)利機(jī)構(gòu)提供微薄的慈善捐款。

    期間,也有新聞機(jī)構(gòu)不那么強(qiáng)硬。美聯(lián)社今年就與OpenAI達(dá)成了一項(xiàng)為期兩年的許可協(xié)議,同意將美聯(lián)社的內(nèi)容授權(quán)給 OpenAI 使用訓(xùn)練。作為回報(bào),OpenAI 提供了美聯(lián)社訪問(wèn)「OpenAI 的技術(shù)和產(chǎn)品專業(yè)知識(shí)」的權(quán)利。

    04

    懸在AI 公司頭上的劍

    AI 公司抓取海量互聯(lián)網(wǎng)數(shù)據(jù),已經(jīng)導(dǎo)致法律問(wèn)題的出現(xiàn),起訴 AI 公司的人正在變得越來(lái)越多。

    今年,美國(guó)一律所相繼對(duì) OpenAI、Meta 等巨頭提起訴訟,指控他們未經(jīng)同意、未經(jīng)授權(quán)或未經(jīng)補(bǔ)償?shù)卣加贸汕先f(wàn)名作家的作品,來(lái)訓(xùn)練他們的大語(yǔ)言模型。行業(yè)預(yù)計(jì)訴訟規(guī)模將很龐大,因?yàn)槠渌麅?nèi)容創(chuàng)作者也有可能受此啟發(fā)采取法律行動(dòng)。

    其他生成 AI 公司,如 AI 圖像生成工具 Stable Diffusion 背后的 Stability AI,也惹上版權(quán)官司。Stable Diffusion 是在 LAION-5B 數(shù)據(jù)集上進(jìn)行訓(xùn)練的,數(shù)據(jù)集包含 58.5 億個(gè)圖像文本對(duì),大多數(shù)都受版權(quán)保護(hù)。Getty Images 正在起訴 Stability AI,指控其未經(jīng)授權(quán)在超過(guò) 1200 萬(wàn)張 Getty Images 上訓(xùn)練 AI 圖像生成模型

    許多藝術(shù)家和利益相關(guān)者也表示不滿,對(duì) Stability AI、DeviantArt 和 Midjourney 等公司提起訴訟,指控他們侵犯版權(quán)、侵犯肖像權(quán)、不正當(dāng)競(jìng)爭(zhēng)和不正當(dāng)獲利,尋求賠償和禁令。

    微軟推出的編程工具 Copilot 也面臨集體訴訟。Copilot 是 GitHub 與 OpenAI 合作開(kāi)發(fā)的基于人工智能的自動(dòng)編程產(chǎn)品,主要利用 GitHub 上的公共代碼庫(kù),在數(shù)十億行公開(kāi)可用的代碼上進(jìn)行了訓(xùn)練,能通過(guò)簡(jiǎn)單提示替用戶編寫(xiě)代碼。開(kāi)源程序員和律師指控他們從事開(kāi)源軟件盜版,被告包括 GitHub、微軟及其人工智能技術(shù)合作伙伴 OpenAI。

    如果要打官司,AI公司可能會(huì)援引所謂的「公平使用原則」來(lái)為其辯護(hù),該原則允許在某些情況下無(wú)需許可即可使用作品,包括教學(xué)、批評(píng)、研究和新聞報(bào)道。問(wèn)題是,AI 訓(xùn)練是否適用「公平使用原則」。

    幾年前,美國(guó)作家協(xié)會(huì)也曾起訴谷歌,理由是谷歌未購(gòu)買其圖書(shū)館項(xiàng)目中收錄的書(shū)籍,當(dāng)時(shí),聯(lián)邦上訴法院判決認(rèn)為,谷歌為其圖書(shū)館項(xiàng)目掃描了數(shù)百萬(wàn)本書(shū)的數(shù)字副本是合法的「公平使用」,而非侵犯版權(quán)。關(guān)鍵在于,谷歌的數(shù)字圖書(shū)館并沒(méi)有為這些書(shū)創(chuàng)造出「重大市場(chǎng)替代品」,這意味著它與原作并無(wú)競(jìng)爭(zhēng)關(guān)系

    目前,各國(guó)政府正努力將生成式 AI 納入立法范疇。歐盟也在制定一項(xiàng) AI 法案,該法案將迫使公司將訓(xùn)練模型信息透明化。上半年,美國(guó)作家協(xié)會(huì)已兩次訪問(wèn)國(guó)會(huì)山,討論生成式 AI 和作家保護(hù)措施的問(wèn)題,涉及的問(wèn)題包括集體授權(quán)和版權(quán)保護(hù)、反壟斷豁免權(quán)以及 AI 標(biāo)簽和透明度要求。

    「除非國(guó)會(huì)采取干預(yù)措施,以確保生成式人工智能技術(shù)的開(kāi)發(fā)和使用受到監(jiān)管,否則驅(qū)動(dòng)原創(chuàng)表達(dá)并豐富我們文化交流的重要版權(quán)激勵(lì)將變得毫無(wú)意義。」該作家協(xié)會(huì)在官方聲明中稱。

    從現(xiàn)有輿論看,雖然一些人擔(dān)心訓(xùn)練 AI 可能會(huì)引發(fā)版權(quán)問(wèn)題,但也有人認(rèn)為,OpenAI 等 AI 公司不需要特別的許可協(xié)議來(lái)訓(xùn)練模型,版權(quán)擔(dān)憂不利于 AI 發(fā)展進(jìn)步;有人則認(rèn)為,取得作者的同意是至關(guān)重要的,創(chuàng)作者應(yīng)該有拒絕的權(quán)利,或者,AI 公司至少應(yīng)該購(gòu)買訓(xùn)練數(shù)據(jù)的書(shū)籍。

    技術(shù)正在做人類歷史上從未發(fā)生過(guò)的事情,AI 訓(xùn)練數(shù)據(jù)方面的開(kāi)源精神應(yīng)該有底線嗎?未來(lái)的法律是掣肘還是保護(hù)?如何平衡 AI 的發(fā)展與尊重人類創(chuàng)作權(quán)益,可能是和「通用人工智能何時(shí)到來(lái)」同樣重要的問(wèn)題。

    [責(zé)任編輯:linlin]

    標(biāo)簽:

    相關(guān)文章

    評(píng)論排行
    熱門(mén)話題
    最近更新
    亚洲成a∧人片在线观看无码| 亚洲AV无码成人精品区蜜桃 | 久久久久亚洲AV成人网| 亚洲第一街区偷拍街拍| 欧洲 亚洲 国产图片综合| 亚洲一卡2卡4卡5卡6卡在线99| 久久综合亚洲色HEZYO社区 | 亚洲成av人片天堂网老年人| 国产精品亚洲专区无码唯爱网 | 久久久久久亚洲av成人无码国产| 亚洲日韩乱码中文无码蜜桃臀网站 | 精品亚洲成A人在线观看青青| 亚洲国产区男人本色| 亚洲国产一区二区三区在线观看| 亚洲爆乳成av人在线视菜奈实 | 亚洲国产成人精品无码区在线观看 | 亚洲精品无码Av人在线观看国产| 日韩亚洲变态另类中文| 亚洲一区二区三区自拍公司| 亚洲精品成人无码中文毛片不卡 | 亚洲日韩一区二区一无码| 亚洲中文字幕无码日韩| 亚洲人成图片小说网站| 国产亚洲3p无码一区二区| 亚洲av无码一区二区乱子伦as| 亚洲AV美女一区二区三区| 久久精品国产亚洲av水果派| 亚洲特级aaaaaa毛片| 亚洲午夜国产精品| 亚洲中文无码mv| 亚洲免费闲人蜜桃| 国产AV旡码专区亚洲AV苍井空 | 亚洲成在人线aⅴ免费毛片 | www亚洲一级视频com| 亚洲国产成人资源在线软件 | 国产亚洲精品久久久久秋霞 | 亚洲日韩在线中文字幕综合| 亚洲人成无码久久电影网站| 亚洲区小说区图片区QVOD| 亚洲国产综合91精品麻豆| 亚洲人成精品久久久久|