Kupię, kupię dane, każdą ilość, mogą być stare!
Sztuczna inteligencja przetrawiła już łatwo dostępne zasoby tekstu, video, obrazu i głosu, ciągle jest niezaspokojona, ciągle jej za mało, aby nabyła biegłości, jakiej po przyzwoitej inteligencji należałoby się spodziewać. Chociaż twórcy modelu AI udostępniają informacje o sposobie trenowania modelu, nie podają szczegółowych informacji o pochodzeniu źródeł danych szkoleniowych. Bo to sprawa drażliwa.
Modele generatywnej sztucznej inteligencji były szkolone na ogromnych bezpłatnych danych przesyłanych do Internetu. Na przykład dane szkoleniowe dla GPT-3 OpenAI obejmowały Common Crawl, publicznie dostępne repozytorium danych indeksowania sieci, a także Wikipedię, książki internetowe, czaty, blogi. Korzystanie ze zbiorów danych takich jak Common Crawl oznacza, że w procesie szkolenia pobrano dane z wielu witryn internetowych, takich jak New York Times czy Politico.
W związku z tą praktyką grożą im pozwy właścicieli praw autorskich, już jest wiele procesów sądowych, a także naruszenia praw do ochrony danych. Ponadto wydawcy dodają kod do swoich witrym internetowych, aby zablokować scraping. Właściciele modeli AI zostali więc zmuszeni do zawierania umowy z właścicielami treści, np. Thompson Reuters czy Associated Press.
Firmy technologiczne po cichu zaczęły więc płacić za treści zamknięte koniecznością zapłaty lub logowania, powodując ukryty handel wszystkim, od dzienników czatów po dawno zapomniane osobiste zdjęcia z mediów społecznościowych.
Firmy technologiczne twierdzą, że technologia AI byłaby zbyt kosztowna, gdyby nie mogły korzystać z ogromnych archiwów bezpłatnych”. Wydaje się oczywiste, że dorobek niematerialny pokoleń minionych powinien słuzyć pokoleniom następnym jako dobro wspólne, pytanie jednak czy wynikające z tego korzyści z nowych narzędzi będą już prywatną własnością firm czy ciągle dobrem wspólnym. Pytanie jest chyba retoryczne.
Powstają łańcuchy dostaw danych oraz branża brokerów danych.
Ile kosztują dane?
Oficjalnie nikt nie powie, ale w branży wiadomo. Mówi się, że Shutterstock i Freepik sprzedają obrazy 2-4 centy, a posiadają jakieś 200 milionów zdjęć. Powstają firmy wyspecjalizowane w tworzeniu materiałów wizualnych i głosowych, które biorą po 1-2 dolary za obraz, 2-4 dolary za krótki film, 100-300 dolarów za godzinę dłuższych filmów. Rynkowa stawka za tekst wynosi 0,0001 dolara za słowo.
Najdroższe są obrazy, na których AI uczy się co blokować, np. przemoc. Kupuje się je od policji, ale też studentów medycyny, w Ameryce Płd. czy Afryce. Ogromnym powodzeniem cieszą aktualnie zdjęcia z Izraela i Gazy.
Zdjęcia nagości też są w cenie – 5-7 dolarów od sztuki.
Wg mediów Adobe wycenia video do uczenia modelu następująco: 120 dolarów za film, 2,60-7,3 dolara za minutę. Adobe planuje konkurować z modelem wideo Sora OpenAI. W tym celu oferuje fotografom i kamerzystom zapłatę (przecietnie 3 dol) za filmóy przedstawiające ludzi wykonujących codzienne czynności, takie jak chodzenie lub siedzenie, lub prostych ujęć dłoni, stóp lub oczu w celu wytrenowania nowego, generatywnego modelu sztucznej inteligencji. Jest to kosztowne, ale ostrożne podejście, mające na celu zbudowanie kompleksowej bazy danych, przy jednoczesnym przestrzeganiu prawa autorskiego i unikaniu potencjalnych zamieszań, takich jak te, z którymi boryka się OpenAI w związku z wykorzystywaniem filmów z YouTube do szkolenia swoich modeli
Można pomyśleć, że niedługo firmom technologicznym będzie się opłacało kupowanie całych wydawnictw oraz dawno martwych portali społecznościowych. Nie są bezpieczne dane firm, urzędów skarbowych i innych agend państwowych. Wszystko się przyda do uczenia AI.
Business Research Insights szacuje, że rynek ten jest obecnie wart około 2,5 miliarda dolarów i prognozuje, że w ciągu dekady może on wzrosnąć do blisko 30 miliardów dolarów.