W poszukiwaniu „czarnego łabędzia”

Gdyby trzeba było zgadywać, co najprawdopodobniej zakończy całe życie na Ziemi: uderzenie meteoru, zmiana klimatu czy rozbłysk słoneczny, bylibyśmy zupełnie bezsilni. Wszystkie te zdarzenia są tak rzadkie, że określenie które z nich jest bardziej prawdopodobne jest zadaniem beznadziejnym. Takie mało prawdopodobne wydarzenia są w popkulturze nazywane „czarnym łabędziem”, który z oczywistych wględów jest niezwykle rzadkim ptakiem.

Nowa metoda statystyczna może pomóc w dokładnej analizie ryzyka najgorszych (lub najlepszych) scenariuszy. Naukowcy ogłosili nowy sposób zdobywanie informacji o zdarzeniach, które są rzadkie, ale mają bardzo duże konsekwencje.

Odkrycie pomaga statystykom używać matematyki do określenia kształtu tzw. dystrybucji zbioru danych. Może to pomóc wszystkim, od inwestorów po urzędników państwowych, w podejmowaniu świadomych decyzji — i jest szczególnie pomocne, gdy dane są nieliczne, jak w przypadku poważnych trzęsień ziemi, tsunami, wybuchów superwulkanów itp.

O co chodzi?

Statystyka to nauka o wykorzystywaniu ograniczonych danych do poznawania świata — i przyszłości. Odpowiada na różne pytania takie, jak: Kiedy jest najlepsza pora roku na spryskiwanie pestycydami pola uprawnego; jak prawdopodobne jest, że globalna pandemia zmieni diametralnie życie publiczne.

W wieku stu lat teoria statystyczna rzadkich, ale ekstremalnych zdarzeń jest stosunkowo nową dziedziną, a naukowcy wciąż katalogują najlepsze sposoby analizowania różnych rodzajów danych. Metody obliczeniowe mogą znacząco wpłynąć na wnioski, dlatego badacze muszą dokładnie dostroić swoje podejście do danych.

Dwa potężne narzędzia w statystykach to średnia i wariancja. Prawdopodobnie nie ma problemu ze zrozumieniem czym jest średnia: jeśli jeden uczeń uzyskał 80 punktów na teście, a jeden 82 punkty, jego średni wynik wynosi 81. Z drugiej strony wariancja mierzy, jak daleko odbiegają te wyniki od średniej:Trzymając się poprzedniego przykładu , jeśli jeden uczeń uzyskał 62 punkty, a drugi zdobył ich 100, to średnia wyniesie też 81, ale implikacje są zupełnie inne.

Wariancja jest niczym innym jak średnią kwadratów odchyleń wyników od ich średniej. Można to wyrazić wzrorem:

W większości sytuacji zarówno średnia, jak i wariancja są liczbami skończonymi, tak jak w powyższej sytuacji. Ale rzeczy stają się dziwniejsze, gdy spojrzysz na wydarzenia, które są bardzo rzadkie, ale mają ogromne znaczenie, gdy się zdarzają. Przez większość lat nie ma gigantycznego wybuchu aktywności na powierzchni Słońca, który byłby wystarczająco duży, aby usmażyć całą ziemską elektronikę – ale gdyby tak się stało w tym roku, wyniki mogłyby być katastrofalne. Podobnie, chociaż większość start-upów technologicznych kończy się fiaskiem, od czasu do czasu pojawia się Google lub Facebook.

Możliwa jest sytuacja,  w której wydarzenia o wielkim znaczeniu zdarzają się bardzo rzadko, ale wystarczająco często, aby doprowadzić średnią i/lub wariancję do nieskończoności

Sytuacje, w których średnia i wariancja zbliżają się do nieskończoności w miarę gromadzenia coraz większej ilości danych, wymagają własnych specjalnych narzędzi. A zrozumienie ryzyka tego typu zdarzeń (znanych w żargonie statystycznym jako zdarzenia o „rozkładzie ciężkim”) jest ważne dla wielu osób. Urzędnicy rządowi muszą wiedzieć, ile wysiłku i pieniędzy powinni zainwestować w przygotowanie na wypadek katastrofy, a inwestorzy chcą wiedzieć, jak zmaksymalizować zwroty.

Biolog matematyczny Joel Cohen, i jego koledzy przyjrzeli się ostatnio zastosowanej metodzie matematycznej do obliczania ryzyka, która dzieli wariancję na dwie części i oblicza wariancję poniżej średniej i powyżej średniej, co może dostarczyć więcej informacji na temat ryzyka w dół i w górę. Na przykład, firma technologiczna może być znacznie bardziej skłonna do porażki (wyniki – poniżej średniej), niż do sukcesu (wyniki – powyżej średniej), co inwestor może chcieć wiedzieć, ponieważ zastanawia się, czy zainwestować. Jednak metody nie zbadano pod kątem rozkładów zdarzeń o niskim prawdopodobieństwie i bardzo dużym wpływie z nieskończoną średnią i wariancją.

Przeprowadzając testy, naukowcy odkryli, że standardowe sposoby pracy z tymi liczbami, zwane semiwariancjami, nie dostarczają wielu informacji. Ale znaleźli inne sposoby, które zadziałały. Na przykład mogliby wydobyć przydatne informacje, obliczając stosunek logarytmu średniej do logarytmu semiwariancji. „Bezlogarytmów otrzymuje mniej przydatne informacje” – powiedział Cohen. „Ale w przypadku użycia logarytmów zachowanie naprawdę dużych próbek danych dostarcza informacji o kształcie podstawowej dystrybucji, co jest bardzo przydatne”. Takie informacje mogą pomóc w podjęciu decyzji.

Być moż badania rozkładów prawdopodobieństwa dla małoprawdopodobnych wydarzeń znajdą praktyczne zastosowania w matematyce finansowej, ekonomice rolnictwa, a potencjalnie nawet w określaniu skutków epidemii. Ponieważ metody są nowe, nie jesteśmy nawet pewni, jakie mogą być najbardziej przydatne obszary – powiedział Cohen.