Dane kupię, hurtowo

18-04-2009 komentarzy 7

Dotychczas głównym źródłem obiektywnych informacji o ludziach były wszelkiego rodzaju eksperymenty. Tworzona hipoteza, kontrolowane warunki, kontrolowane zmienne, statystycznie istotne wyniki. Wchodzimy jednak powoli w okres, gdzie badania można przeprowadzać szybciej, wygodniej, na bardziej masową skalę. A hipoteza badawcza nie musi być nawet obecna…

Normalny eksperyment, dajmy na to mający udowodnić korelację między jedzeniem ryby a inteligencją, rozpoczynałby się od dwóch grup – podział względem ilości jedzonych morskich stworzeń. Obie grupy, zawierające po 20 osób (bo więcej się ludzi nie dało namówić do badania) wykonują test inteligencji, sprawdzenie istotności statystycznej i wynik. Nie dość, że całość trwała miesiąc, istnieje wiele zmiennych niezmierzonych, to pewnie i wyniki oscylowałyby na granicy istotności. Przy próbie 40 osób z populacji różnice indywidualne mogą zakłócić wszystko. A co, gdybyśmy przebadali 1.000.000 osób?

Tak masowymi badaniami zajmowało się już BBC przy projekcie “Sex ID”, o którym pisałem już wcześniej.

“Nie było nigdy badań psychologicznych o takiej skali. Opracowanie wyników zajmie nam z pewnością co najmniej kilka lat” – ocenia doradca zespołu BBC dr Stian Reimers z Uniwersytetu College London. Jednak jest kilka wyników które wybijają się z gąszczu informacji. Stereotypy postrzegania takich cech jak wyobraźnia przestrzenna jako męskich czy empatii jako damskich się potwierdziły. Dodatkowo stwierdzono, że lepiej od heteroseksualnych z zadaniami z wyobraźnią przestrzenną radzą sobie kobiety biseksualne oraz homoseksualne. Identycznie było w sytuacji odwrotnej – lepiej od hetero z zadaniami językowymi radzili sobie mężczyźni bi i homoseksualni. Stworzyła się więc polaryzacja cech typowo męskich i damskich. Statystyka ujawniła też ciekawy fakt mieszania się płci mózgu z płcią biologiczną. Aż 17 procent ankietowanych mężczyzn miała mózgi typowo kobiece. Taki sam odsetek pań posiada mózg mężczyzny.

Narzędzia statystyczne stały się jedynym potrzebnym narzędziem badaczy gdy danych było tak dużo. A to, co zrobiło BBC to dopiero początek. Informacje o nas będą zbierane w coraz większym stopniu i będą coraz lepszej jakości. Magazyn Wired nazwał nadchodzący czas erą petabajtu – 1 petabajt to ilość danych które przetwarzają serwery google co każde 72 minuty (dane z 2008 roku). Przy tak dużej ilości informacji żadna hipoteza nie jest potrzebna – liczy się tylko korelacja. Statystyka zastępuje eksperyment. Chris Anderson przekonuje w swoim artykule we wspomnianym Wired, że nauki takie jak psychologia czy socjologia muszą skupić się matematyce, nie filozofii czy wgłębianiu się w powody ludzkich zachowań. Ważne jest, że zachowanie zaistniało, a nie dlaczego zaistniało. „Przy odpowiedniej ilości danych liczby mówią same za siebie” – znając odpowiednio wiele zmiennych modele zachowań zaczną pojawiać się samoistnie. Teraz tylko trudnością wydają się możliwości obliczeniowe komputerów – ale i ten problem jest tylko chwilową drobnostką. Olbrzymie hurtownie danych pozwalają już dzisiaj opracować najbardziej optymalne systemy i miejsca do hodowania soi, kukurydzy czy pszenicy, wygrywać procesy przez prawników, którzy bez nich nie znaleźliby potrzebnych informacji, ujawniać i przeciwdziałać zagrożeniom w strefach społecznych utarć, wydajnie kontrolować ruch uliczny… „Ale tylko człowiek jest w stanie znaleźć w tym szaleństwie metodę! Tylko człowiek nadal potwierdzi wszystko eksperymentalnym badaniem!” zakrzykną niektórzy. A zakrzykną nieprawdę.

Adam powstał na walijskim Uniwersytecie Aberystwyth. Jego ojcem jest Ross King a matką współpracownicy Kinga. Robot ten, bo o robocie mowa, potrafi sam formułować hipotezy, sprawdzać je eksperymentalnie, wnioskować na wynikach, przyswajać wiedzę… Zaprogramowana metodologiczna ciekawość. Adam może pochwalić się już odkryciem nieznanych dotąd informacji w dziedzinie genetyki drożdży piekarskich. Tak zaprojektowany badacz mógłby samodzielnie przeprowadzać badania w warunkach dla człowieka niedostępnych. Ewa, następczyni Adama, ma się zająć wymyślaniem nowych leków.

Hurtownie danych, statystyka i roboty. Już chyba zostało tylko miejsce na naukową kreatywność…

Tak w tym temacie proszę Was o wypełnienie bardzo krótkiej ankiety: PYK!

Dzięki z góry ;)

Więcej:
Adam
The Petabyte Age, Chris Anderson, Wired, Jul/2008

Strzałka do ikon

7 Odpowiedzi do : Dane kupię, hurtowo

  1. Walker pisze:

    Chciałem Ci pomóc, ale ankieta nie uwzględnia niepijących. :)

  2. MuKuL pisze:

    Aż mnie dreszcz przeszedł. A jeszcze kilka lat wstecz telefony jak cegły wyglądały :< Chyba sobie udokumentuję rok 2010 i spojrzę na moje notatki i zdjęcia 20 lat później.

    PS. ankieta wypełniona ;-)

  3. Bardzo ciekawy news. Ku scislosci metodologicznej – badanie, ktore opisuje Pan we wstepie nie jest eksperymentem a quasi-eksperymentem lub badaniem roznicowym poniewaz badacze nie manipuluja zmienna niezalezna (trudno byloby przekonac naszych ochotnikow aby przez zmienili swoje nawyki zywieniowe) a jedynie roznicuja grupy pod wzgledem nasilenia danej cechy (jedzenia ryb). Eksperyment tez z reguly nie ma na celu odnalezienia korelacji a wykazania roznic miedzy porownywanymi grupami (najmniej dwoma) w zakresie sredniego poziomu zmiennej zaleznej.

    pozdrawiam,

    Michal

  4. Teloch pisze:

    No tak, zapominam podstawy statystyki i pracy empirycznej… Dziękuję za zwrócenie uwagi ;)

  5. BB pisze:

    Jeśli wszystkie inne hurtowe badania są tak nierzetelne, jak ta ankieta to żadnej wiedzy człowiek dzięki nim nie zdobędzie.
    Ankieta jest mocno „skrzywiona” i zupełnie nie uwzględnia niepicia alkoholu, co oznacza, że a wynikach wyjdzie, że wszyscy piją!!!!!!
    moje kondolencje dla autora

  6. Teloch pisze:

    To była pierwsza w życiu ankieta studenta wydziału ETI robiona na zaliczenie przedmiotu. Musisz wybaczyć drobne błędy metodologiczne ;)

  7. Jacek Buczny pisze:

    Nie wszystkie tezy zawarte w artykule rozumiem. Dla przykładu, co oznacza stwierdzenie: „(…) nauki takie jak psychologia czy socjologia muszą skupić się matematyce, nie filozofii czy wgłębianiu się w powody ludzkich zachowań (…)” albo to jaka jest relacja między modelowaniem genetycznym a modelowaniem psychiki (mechanizmów zachowań). Zachłystując się potęgą techniki trzeba mieć na uwadze, że zbiór informacji przechowywanych w systemach komputerowych jest ograniczony, tj. dane na wyjściu ograniczone są nie tylko złożonością algorytmów czy heurystyk, którymi posługują się systemy elektroniczne, ale także przechowywanymi danymi – nawet jeśli systemy są w stanie generować hipotezy dotyczące zachowania, to nie są w stanie ich testować, a jeśli to robią to bazują na modelach, więc uogólnianie nie musi być trafne. Ponadto w statystyce często mówi się o sile efektu. Istnieją odpowiednie miary, które umożliwiają jakościową ocenę obserwowanych zależności. Owszem, Beta równa 0,01 może być istotna, ale jeśli model wyjaśnia 0,03% wariancji jakiejś zmiennej, to tak naprawdę, w sensie jakościowym, prawie nic nie wnosi do rozumienia zjawiska.

Zostaw odpowiedź

Adres nie będzie opublikowany. Wymagane pola oznaczone *

*

Możesz użyć poniższych znaczników: HTML <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>