Nvidia, Anthropic, nebo dokonce Apple učí své AI modely na videích z YouTube – pololegálně získaných přes třetí osobu

18. 7. 2024

Máte povolení? A mohla bych ho vidět? Velké společnosti údajně využívaly bez patřičného povolení dataset přepisů z více než 173 tisíc YouTube videí.

Vzestup umělé inteligence je hlavním tématem aktuální doby. Společně s neustálým zdokonalováním AI přichází také řada problémů, které nemusejí být na první pohled vidět. Jedním takovým může být i etický problém s ochranou osobních údajů nebo trénování na datech uživatelů bez jejich souhlasu.

Druhý problém právě vyšetřovala společnost ProofNews. Ta podle magazínu Engadget zjistila, že některé z největších technologických společností na světě trénovaly své modely umělé inteligence na datových souborech obsahujících přepisy z více než 173 tisíc YouTube videí. Společnosti jako Nvidia, Anthropic nebo Apple trénovaly své AI modely na datech, na která neměly od autorů povolení.

Datový soubor s přepisy YouTube videi vytvořila nezisková organizace EleutherAI a obsahuje přepisy z více než 48 tisíc kanálů. Ačkoliv datový soubor neobsahuje samotná videa ani obrázky, ukrývá přepisy videí od největších tvůrců této platformy (MrBeast, Marques Brownlee, The New York Times, BBC, ABC News a tisíce dalších).

Marques Brownlee na svém Xkovém účtu na toto téma napsal: „Apple získal data pro svou AI od několika společností. Jedna z nich vytáhla tuny dat/přepisů z YouTube videí, včetně těch mých. Apple se tímto technicky vyhýbá „chybě“, protože to nejsou oni, kteří -scrapují- data. Tento problém se bude vyvíjet dlouho.“

Trénování dat bez souhlasu porušuje podmínky platformy, tvrdí Google

Reakce na toto odhalení byla různorodá. Mluvčí Google zdůraznil, že využívání dat YouTube pro trénování AI bez souhlasu porušuje podmínky platformy. To samé v minulosti řekl generální ředitel YouTube Neal Mohan. Společnosti jako Apple, Nvidia, Anthropic a EleutherAI však na žádost o komentář od magazínu Engadget zatím nereagovaly.

Nedostatek transparentnosti ohledně zdrojů dat používaných k trénování AI vyvolal kritiku nejen ze strany tvůrců na YouTube, ale i od umělců a fotografů. Začátkem tohoto měsíce se snesla vlna kritiky na Apple, protože neodhalil zdroj školicích dat pro jejich Apple Intelligence.

Technologická ředitelka OpenAI Mira Murati se začátkem tohoto roku vyhnula otázkám deníku The Wall Street Journal na téma, zda společnost používala videa z YouTube k trénování jejich generátoru Sora. V obou případech je tak původ školicích dat zahalen tajemstvím, což jen vzbuzuje obavy z nekalého nakládání s veřejně přístupnými daty.

Pokud sami chcete zjistit, zda je váš (nebo jakýkoliv jiný) kanál součástí datové sady přepisů od EleutherAI, pomocí vyhledávacího nástroje na webu Proof News to můžete sami zjistit.

Zdroje: Engadget (1, 2), X účet Marques Brownlee, Bloomerg, YouTube kanál The Wall Street Journal, Proof News