Aby zrozumieć świat, potrzeba ciała – dlaczego ChatGPT i inne AI nie wiedzą, co mówią

27 grudnia, 2023

Kiedy zapytaliśmy GPT-3 , niezwykle potężny i popularny system językowy sztucznej inteligencji, czy bardziej prawdopodobne byłoby użycie papierowej mapy czy kamienia do wdmuchiwania życia w węgiel na grilla, woleliśmy kamień.

Aby wygładzić pomarszczoną spódnicę, wzięłabyś ciepły termos lub spinkę do włosów? GPT-3 zasugerował spinkę do włosów.

A jeśli do pracy w restauracji typu fast food musisz zakryć włosy, co sprawdzi się lepiej: papierowe opakowanie po kanapce czy bułka do hamburgera? GPT-3 poszedł po bułkę.

Dlaczego GPT-3 dokonuje takich wyborów, podczas gdy większość ludzi wybiera alternatywę? Ponieważ GPT-3 nie rozumie języka tak jak ludzie.

Bezcielesne słowa

Jeden z nas jest badaczem psychologii , który ponad 20 lat temu przedstawił serię scenariuszy podobnych do powyższych, aby sprawdzić zrozumienie ówczesnego komputerowego modelu języka. Model nie dokonał dokładnego wyboru pomiędzy użyciem skał i map do rozpalania węgli, podczas gdy ludzie robili to z łatwością.

Drugi z nas jest doktorantem nauk kognitywnych i należał do zespołu badaczy, który ostatnio wykorzystał te same scenariusze do przetestowania GPT-3 . Chociaż GPT-3 radził sobie lepiej niż starszy model, był znacznie gorszy od ludzi. Trzy scenariusze wymienione powyżej były całkowicie błędne.

GPT-3, silnik, który napędzał pierwszą wersję ChatGPT, uczy się języka, zapisując na podstawie bilionów wystąpień, które słowa zwykle następują po innych. Silne prawidłowości statystyczne w sekwencjach językowych pozwalają GPT-3 dowiedzieć się wiele o języku. Ta wiedza sekwencyjna często pozwala ChatGPT tworzyć rozsądne zdania, eseje, wiersze i kod komputerowy.

Chociaż GPT-3 jest niezwykle dobry w uczeniu się zasad tego, co następuje w ludzkim języku, nie ma zielonego pojęcia, co którekolwiek z tych słów oznacza dla człowieka. I jak to możliwe?

Ludzie to istoty biologiczne, które wyewoluowały z ciałami, które muszą działać w świecie fizycznym i społecznym, aby wykonywać zadania. Język jest narzędziem, które pomaga ludziom to robić. GPT-3 to sztuczny system oprogramowania, który przewiduje następne słowo. Nie trzeba nic robić z tymi przewidywaniami w prawdziwym świecie.

Jestem, więc rozumiem

Znaczenie słowa lub zdania jest ściśle związane z ludzkim ciałem : zdolnościami człowieka do działania, postrzegania i przeżywania emocji. Ludzkie poznanie wzmacnia się dzięki ucieleśnieniu. Na przykład rozumienie przez ludzi terminu „papierowe opakowanie na kanapkę” obejmuje wygląd opakowania, jego dotyk, wagę, a co za tym idzie, sposób jego wykorzystania: do zawijania kanapki. Ludzkie zrozumienie obejmuje także to, w jaki sposób można go używać do niezliczonych innych możliwości, jakie zapewnia, takich jak zgniatanie go w kłębek podczas gry w obręcz lub zakrywanie włosów.

Wszystkie te zastosowania wynikają z natury ludzkich ciał i potrzeb: ludzie mają ręce, które mogą złożyć papier, czubek włosów mniej więcej tej samej wielkości co opakowanie po kanapce i muszą być zatrudnieni, a zatem przestrzegać zasad, takich jak zakrywanie włosy. Oznacza to, że ludzie rozumieją, jak korzystać z rzeczy w sposób, który nie jest ujęty w statystykach użycia języka .

GPT-3, jego następca, GPT-4 i jego kuzyni Bard , Chinchilla i LLaMA nie mają ciał, w związku z czym nie mogą samodzielnie określić, które obiekty można złożyć, ani też wielu innych właściwości, które psycholog JJ Gibson nazwał afordancje . Biorąc pod uwagę ludzkie ręce i ramiona, papierowe mapy pozwalają na podsycenie płomienia, a termos pozwala na powstawanie zmarszczek.

Bez rąk i dłoni, nie mówiąc już o konieczności noszenia niepogniecionych ubrań w pracy, GPT-3 nie jest w stanie określić tych afordancji. Może je sfałszować tylko wtedy, gdy natknie się na coś podobnego w strumieniu słów w Internecie.

Czy wielkojęzykowa sztuczna inteligencja kiedykolwiek zrozumie język tak, jak ludzie? Naszym zdaniem nie bez posiadania ludzkiego ciała, zmysłów, celów i sposobów życia.

W stronę poczucia świata

GPT-4 był szkolony na obrazach i tekście, co pozwoliło mu poznać statystyczne powiązania między słowami i pikselami. Chociaż nie możemy przeprowadzić naszej oryginalnej analizy na GPT-4, ponieważ obecnie nie podaje ona prawdopodobieństwa przypisanego słowom, gdy zadaliśmy GPT-4 trzy pytania, odpowiedział na nie poprawnie. Może to być spowodowane uczeniem się modelu na podstawie poprzednich danych wejściowych lub jego zwiększonym rozmiarem i danymi wizualnymi.

Można jednak w dalszym ciągu konstruować nowe przykłady, myśląc o obiektach o zaskakujących afordancjach, których model prawdopodobnie nie napotkał. Na przykład GPT-4 mówi, że kubek z odciętym dołem będzie lepiej trzymał wodę niż żarówka z odciętym dołem.

Modelem mającym dostęp do obrazów może być coś w rodzaju dziecka, które uczy się języka – i świata – z telewizji: jest to łatwiejsze niż nauka z radia, ale ludzkie zrozumienie będzie wymagało kluczowej możliwości interakcji ze światem .

W niedawnych badaniach przyjęto to podejście, ucząc modele językowe generowania symulacji fizycznych , interakcji ze środowiskami fizycznymi , a nawet generowania planów działania robotów . Do zrozumienia języka ucieleśnionego może jeszcze być daleko, ale tego rodzaju wielozmysłowe, interaktywne projekty stanowią kluczowy krok na tej drodze.

ChatGPT to fascynujące narzędzie, które niewątpliwie zostanie wykorzystane w dobrych – i niezbyt dobrych – celach. Ale nie dajcie się zwieść myśleniu, że rozumie słowa, które wypowiada, nie mówiąc już o tym, że jest świadomy .

Arthura Glenberga

Emerytowany profesor psychologii na Uniwersytecie Stanowym w Arizonie

Camerona Roberta Jonesa

Doktorant nauk kognitywnych na Uniwersytecie Kalifornijskim w San Diego

Artykuł publikujemy – na licencji CC – za The Conversation