Dane – tworzywo dla inteligencji, również sztucznej
Wszystkie produkty w końcu zostaną oparte na sztucznej inteligencji. Tym, którzy ociągają się z jej stosowaniem, trudno będzie nadrobić zaległości. Sztuczna inteligencja jest możliwa nie tylko dlatego, że jest dostępna odpowiednia technologia przetwarzania danych, ale przede wszystkim dlatego, że tych danych jest już tak wielka liczba, że można zastosować z sukcesem te technologie.
Ta tabelka dobrze pokazuje dlaczego sztuczna inteligencja jest dzisiaj możliwa:
Średnio 80% czasu, który większość zespołów spędza w AI z projektami ML, polega na pobieraniu i przygotowywaniu danych. Badanie Capgemini wykazało, że tylko 27% projektów dotyczących danych jest uznawanych za udane, a tylko 8% projektów dotyczących dużych zbiorów danych jest uważanych za bardzo pomyślne.
W większości przypadków obsługa danych oznacza:
Zidentyfikowanie danych, które będą wymagane dla projektu (np. możesz indeksować zdjęcia samochodów, aby wyszkolić algorytmy do rozpoznawania marek samochodów)
Określenie dostępności danych i źródeł z których mogą one pochodzić (np. możesz zbudować partnerstwo strategiczne i uzyskać dane od partnerów)
Profilowanie danych
Integracja danych
Czyszczenie danych
Przygotowanie danych do nauki algorytmu
Trzy najczęstsze wyzwania związane z uzyskaniem dobrego zestawu danych:
Dane są zarządzane w silosach w różnych jednostkach biznesowych lub działach – gromadzone w wielu formatach i przechowywane w różnych typach baz danych. Trudność polega na braku jednego ujednoliconego kontenera, z którego można uzyskać te dane.
Brak kategoryzacji sprawia, że dane są nieistotne dla uczenia maszynowego. Jeśli nie ma wzorców, których algorytm ML miałby nauczyć się z tych danych, nie ma rozwiązania do zbudowania; Oczywiście algorytm może znaleźć wzorce, ale zawsze lepiej pierwsze projekty ML prowadzić na bazach dobrze strukturyzowanych.
Brakujące lub niekompletne dane, które w niektórych przypadkach nie oferują informacji dostępnych dla wszystkich parametrów. Dla przykładu, posiadamy bazę opon samochodowych, ale nie każdy typ opony posiada rozmiar. Te niespójności prowadzą do błędnego uczenia się, co ostatecznie prowadzi do nieudanych rozwiązań lub niespójnych wyników.
Co robić?
Dbaj o dane. Dobrze je kategoryzuj i spraw, aby były czyste. Wyobraź sobie, że masz szufladę a w niej spinacze. Każdy typ spinacza leży w swoim pudełku, na którym jest żółta karteczka z rozmiarem. To dobra analogia do porządku w danych.
Burz wewnętrzne mury organizacyjne, aby nie cementowały się silosy w strukturze organizacyjnej.
Regularnie dyskutuj nad tym, jakich danych nie masz i miał nie będziesz, aby w porę budować partnerstwa z innymi firmami. Dobrej, sztucznej inteligencji nie postawisz sam.
Arkadiusz Skuza jest partnerem Volta Venture, strategiem biznesu, ekspertem rozwoju produktów, doradcą wdrażania sztucznej inteligencji w produktach i organizacjach, współpracownikiem Business Dialog, www.arekskuza.com www.szkolainnowacji.com