System analizujący wiele danych zastąpił ludzką intuicję

System analizujący wiele danych zastąpił ludzką intuicję

Analiza dużych zbiorów danych (Big Data) polega na poszukiwaniu ukrytych wzorców, które mogą być w jakimś stopniu wykorzystane do tworzenia prognoz. Wybierając które „cechy” danych warto analizować zwykle potrzeba nieco ludzkiej intuicji. W bazie danych zawierającej, powiedzmy, daty początkowe i końcowe różnych promocji sprzedaży wraz zyskami, kluczowe mogą się okazać nie same terminy ale rozpiętości czasowe między nimi.

Naukowcy z MIT dążą do odwzorowania czynnika ludzkiego w systemie analizy wielkich zbiorów danych tak, aby poszukiwał charakterystycznych wzorców danych ale także ich kluczowych cech. Aby przetestować prototyp swojego systemu, przeprowadzono trzy konkursy, w których system rywalizował z zespołami złożonymi z ludzi w szybkości znajdowania wzorców o dużym potencjale prognostycznym w w nieznanych zestawach. Spośród 906 zespołów biorących udział w trzech konkursach, system analizy danych skończył pokonał 615 z nich.

W dwóch z trzech konkursów, prognozy wykonane przez system dane były od 94 do 96 procentach tak dokładne, jak najlepsze prognozy zrobione przez ludzi. W trzecim, liczba ta była bardziej skromna i wynosiła „tylko” 87 proc. W niektórych przypadkach, gdy ludziom stworzenie prognozy zajęło około miesiąca, system wygenerował ją w ciągu maksymalnie 12 godzin.

– Uważamy, że system maszynowej analizy danych jest naturalnym uzupełnieniem ludzkiej inteligencji – mówi Max Kanter, którego praca magisterska z informatyki jest podstawą całego systemu. – Jest tak wiele danych, które obecnie nie mogą być analizowane. Zamiast po prostu siedzieć i nic nie robić, możemy teraz przynajmniej spróbować znaleźć rozwiązanie, a przynajmniej zacząć go szukać.

Między wierszami

Kanter i jego promotor Kalyan Veeramachaneni, naukowiec z MIT używają kilku trików do wyodrębnienia cech, które będą później analizowane.
Jedna z nich jest wykorzystanie relacji, które normalnie stosuje się w projektowaniu baz danych. Bazy danych zwykle przechowują różne rodzaje danych w różnych tabelach, które są połączone relacją za pomocą identyfikatorów numerycznych. System śledzi te relacje, wykorzystując je do odnajdowania kluczowych cech.

Na przykład, jedna tabela może zawierać listę towarów z cenami detalicznymi i kosztami; inna może zawierać towary zamówione przez indywidualnych klientów. System jest w stanie znaleźć relację między tymi tabelami (będzie to z pewnością numeryczny identyfikator towaru) i na jej podstawie stworzyć np. nową cechę, którą moglibyśmy nazwać całkowity koszt zamówienia. Idąc dalej możliwe jest wyodrębnienie kolejnych cech takich jak: średni zysk na zamówieniu, wartość zamówionych stołów itd. Badając np. korelacje czasowe między takimi cechami można znaleźć te które są kluczowe aby wytworzyć jakiś model prognostyczny. Normalnie do znajdowania takich cech niezbędna jest ludzka intuicja. Algorytm oparty na korelacjach zastępuje w tym wypadku tę intuicję z powodzeniem.

Odpowiedz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *