BiznesITSpołeczeństwo

Chatboty AI dodadzą rozsądku samochodom autonomicznym

Technologia stojąca za chatbotami, takimi jak ChatGPT, może pomóc samochodom autonomicznym w rozumowaniu i zachowaniu bardziej przypominającym kierowców-ludzi.

Szybkie przeszukanie Internetu dostarczy wielu filmów pokazujących wypadki samochodów autonomicznych, często wywołujących uśmiech lub śmiech. Ale dlaczego uważamy te zachowania za zabawne? Być może dlatego, że mocno kontrastują z tym, jak człowiek-kierowca poradziłby sobie w podobnych sytuacjach.

Codzienne sytuacje, które wydają się nam trywialne, mogą nadal stanowić poważne wyzwanie dla samochodów autonomicznych. Dzieje się tak, ponieważ są one projektowane przy użyciu metod inżynieryjnych, które zasadniczo różnią się od sposobu działania ludzkiego umysłu. Jednak ostatnie postępy w dziedzinie sztucznej inteligencji otworzyły nowe możliwości.

Nowe systemy sztucznej inteligencji z możliwością posługiwania się językiem – takie jak technologia stojąca za chatbotami, takimi jak ChatGPT – mogą odegrać kluczową rolę w tym, aby samochody autonomiczne rozumowały i zachowywały się bardziej jak ludzie prowadzący samochód.

Badania nad autonomiczną jazdą nabrały znacznego rozpędu pod koniec lat 2010. wraz z pojawieniem się głębokich sieci neuronowych (DNN), formy sztucznej inteligencji (AI), która obejmuje przetwarzanie danych w sposób inspirowany ludzkim mózgiem. Umożliwia to przetwarzanie obrazów i filmów scenariuszy ruchu drogowego w celu identyfikacji „elementów krytycznych”, takich jak przeszkody.

Wykrywanie ich często wiąże się z obliczaniem pola 3D w celu określenia rozmiarów, orientacji i pozycji przeszkód. Proces ten, stosowany na przykład do pojazdów, pieszych i rowerzystów, tworzy reprezentację świata opartą na klasach i właściwościach przestrzennych, w tym odległości i prędkości względem samochodu autonomicznego.

To podstawa najszerzej przyjętego podejścia inżynieryjnego do autonomicznej jazdy, znanego jako „sense-think-act”. W tym podejściu dane z czujników są najpierw przetwarzane przez DNN. Następnie dane z czujników są wykorzystywane do przewidywania trajektorii przeszkód. Na koniec systemy planują kolejne działania samochodu.

Choć takie podejście oferuje korzyści takie jak łatwe debugowanie, model „czuj-myśl-działaj” ma jedno istotne ograniczenie: zasadniczo różni się od mechanizmów mózgowych stojących za ludzkim prowadzeniem pojazdu.

Lekcje z mózgu

Wiele na temat funkcji mózgu pozostaje nieznanych, co utrudnia zastosowanie intuicji pochodzącej z ludzkiego mózgu do pojazdów autonomicznych. Niemniej jednak różne wysiłki badawcze mają na celu czerpanie inspiracji z neuronauki, nauk kognitywnych i psychologii w celu poprawy autonomicznej jazdy.

Ugruntowana teoria sugeruje , że „czucie” i „działanie” nie są sekwencyjnymi, ale ściśle powiązanymi procesami. Ludzie postrzegają swoje otoczenie w kategoriach swojej zdolności do działania na nie.

Na przykład, przygotowując się do skrętu w lewo na skrzyżowaniu, kierowca skupia się na konkretnych częściach otoczenia i przeszkodach istotnych dla skrętu. Natomiast podejście „czuj-myśl-działaj” przetwarza cały scenariusz niezależnie od bieżących intencji działania.

Inną istotną różnicą w stosunku do ludzi jest to, że DNN opierają się głównie na danych, na których zostały wytrenowane. Gdy zostaną wystawione na niewielką nietypową odmianę scenariusza, mogą zawieść lub przegapić ważne informacje.

Takie rzadkie, niedoreprezentowane scenariusze, znane jako „ przypadki długiego ogona ”, stanowią poważne wyzwanie. Obecne obejścia obejmują tworzenie coraz większych zestawów danych szkoleniowych, ale złożoność i zmienność sytuacji z życia rzeczywistego uniemożliwiają uwzględnienie wszystkich możliwości.

W rezultacie podejścia oparte na danych, takie jak sense-think-act, mają trudności z uogólnianiem na niewidziane sytuacje. Ludzie z kolei świetnie radzą sobie z nowymi sytuacjami.

Dzięki ogólnej wiedzy o świecie jesteśmy w stanie oceniać nowe scenariusze, korzystając ze „zdrowego rozsądku” : połączenia wiedzy praktycznej, rozumowania i intuicyjnego zrozumienia, jak ludzie zazwyczaj się zachowują, opartego na doświadczeniach całego życia.

W rzeczywistości prowadzenie samochodu przez ludzi jest inną formą interakcji społecznej, a zdrowy rozsądek jest kluczem do interpretacji zachowań użytkowników dróg (innych kierowców, pieszych, rowerzystów). Ta umiejętność pozwala nam podejmować trafne osądy i decyzje w nieoczekiwanych sytuacjach.

Kopiowanie zdrowego rozsądku

Powielanie zdrowego rozsądku w DNN było poważnym wyzwaniem w ciągu ostatniej dekady, co skłoniło naukowców do wezwania do radykalnej zmiany podejścia. Ostatnie osiągnięcia w dziedzinie sztucznej inteligencji w końcu oferują rozwiązanie.

Duże modele językowe (LLM) to technologia stojąca za chatbotami, takimi jak ChatGPT, które wykazały się niezwykłą biegłością w rozumieniu i generowaniu języka ludzkiego. Ich imponujące umiejętności wynikają z przeszkolenia na ogromnych ilościach informacji w różnych domenach, co pozwoliło im rozwinąć formę zdrowego rozsądku podobną do naszej.

Ostatnio opracowano multimodalne systemy LLM (mogące reagować na żądania użytkowników w formie tekstu, obrazu i wideo), takie jak GPT-4o i GPT-4o-mini, które łączą język z obrazem, integrując rozległą wiedzę o świecie ze zdolnością do rozumowania na podstawie bodźców wizualnych.

Modele te potrafią zrozumieć złożone, nieprzewidziane scenariusze, dostarczać wyjaśnień w języku naturalnym i rekomendować odpowiednie działania, oferując obiecujące rozwiązanie problemu długiego ogona.

W robotyce pojawiają się modele wizji-języka-działania (VLAM) , łączące przetwarzanie językowe i wizualne z działaniami robota. VLAM wykazują imponujące wczesne wyniki w sterowaniu ramionami robota za pomocą instrukcji językowych.

W autonomicznej jeździe początkowe badania koncentrują się na wykorzystaniu modeli multimodalnych w celu zapewnienia komentarza dotyczącego jazdy i wyjaśnień decyzji dotyczących planowania motorycznego. Na przykład model może wskazywać: „Przed mną jest rowerzysta, który zaczyna zwalniać”, dostarczając wglądu w proces podejmowania decyzji i zwiększając przejrzystość.

Firma Wayve osiągnęła obiecujące wstępne wyniki w stosowaniu sterowanych językiem samochodów autonomicznych na poziomie komercyjnym.

Przyszłość jazdy

Chociaż LLM mogą rozwiązywać przypadki długiego ogona, stanowią nowe wyzwania. Ocena ich niezawodności i bezpieczeństwa jest bardziej złożona niż w przypadku podejść modułowych, takich jak sense-think-act. Każdy komponent pojazdu autonomicznego, w tym zintegrowane LLM, musi zostać zweryfikowany, co wymaga nowych metodologii testowania dostosowanych do tych systemów.

Ponadto multimodalne systemy LLM są duże i wymagają dużych zasobów komputera , co powoduje duże opóźnienia (opóźnienia w działaniu lub komunikacji z komputerem).

Samochody autonomiczne wymagają działania w czasie rzeczywistym, a obecne modele nie są w stanie generować odpowiedzi wystarczająco szybko. Uruchomienie LLM wymaga również znacznej mocy przetwarzania i pamięci, co koliduje z ograniczonymi ograniczeniami sprzętowymi pojazdów.

Wiele wysiłków badawczych koncentruje się obecnie na optymalizacji LLM do wykorzystania w pojazdach. Minie kilka lat, zanim zobaczymy komercyjne pojazdy autonomiczne ze zdrowym rozsądkiem na ulicach.

Jednak przyszłość autonomicznej jazdy jest świetlana. W modelach AI z możliwościami językowymi mamy solidną alternatywę dla paradygmatu zmysł-myśl-działaj, który zbliża się do swoich granic.

LLM są powszechnie uważane za klucz do osiągnięcia pojazdów, które mogą rozumować i zachowywać się bardziej jak ludzie. Ten postęp jest kluczowy, biorąc pod uwagę, że około 1,19 miliona ludzi ginie każdego roku w wypadkach drogowych.

Obrażenia w ruchu drogowym są główną przyczyną śmierci dzieci i młodych dorosłych w wieku 5-29 lat. Rozwój autonomicznych pojazdów z ludzkim rozumowaniem mógłby potencjalnie znacznie zmniejszyć te liczby, ratując niezliczone życia.

Alice Plebe jest pracownikiem naukowym w dziedzinie sztucznej inteligencji na UCL

Ten artykuł jest przedrukowany z The Conversation na licencji Creative Commons.