Metody statystyczne są kluczową częścią nauki o danych, jednak niewielu analityków danych posiada formalne przeszkolenie w zakresie statystyki. Kursy i książki na temat podstawowych statystyk rzadko omawiają ten temat z perspektywy nauki o danych. Drugie wydanie tego popularnego przewodnika dodaje wyczerpujące przykłady w Pythonie, dostarcza praktycznych wskazówek dotyczących stosowania metod statystycznych w nauce o danych, mówi, jak unikać ich niewłaściwego użycia, i daje porady, co jest ważne, a co nie.
Wiele zasobów związanych z nauką o danych obejmuje metody statystyczne, ale brakuje im głębszej perspektywy statystycznej. Jeśli znasz języki programowania R lub Python i masz pewne podstawy statystyki, ten szybki przewodnik wypełnia luki w przystępnym, czytelnym formacie.
Dzięki tej książce nauczysz się:
Dlaczego eksploracyjna analiza danych jest kluczowym krokiem wstępnym w nauce danych
Jak losowe próbkowanie może zmniejszyć błąd systematycznego i zapewnić zbiór danych wyższej jakości, nawet w przypadku dużych zbiorów danych
Jak zasady projektowania eksperymentalnego dają ostateczne odpowiedzi na pytania
Jak używać regresji do szacowania wyników i wykrywania anomalii
Kluczowe techniki klasyfikacji umożliwiające przewidywanie, do jakich kategorii należy rekord
Statystyczne metody uczenia maszynowego, które „uczą się” na danych
Metody uczenia bez nadzoru do wydobywania znaczenia z nieoznaczonych danych
o autorze
Peter Bruce jest Założycielem i Dyrektorem Akademickim Instytutu Edukacji Statystycznej przy Statistics.com, który oferuje około 80 kursów ze statystyki i analizy, z których mniej więcej połowa jest skierowana do data scientists.. Jest autorem lub współautorem kilku książek z zakresu statystyki i analizy danych, a tytuł licencjata uzyskał na Princeton, a tytuły magistra na Harvardzie i Uniwersytecie Maryland.
^
Andrew Bruce, główny naukowiec badawczy w Amazonie, ma ponad 30 lat doświadczenia w statystyce i nauce o danych w środowisku akademickim, rządowym i biznesowym. Współautor książki Applied Wavelet Analysis with S-PLUS, uzyskał tytuł licencjata na Princeton oraz doktorat ze statystyki na University of Washington
^
Peter Gedeck, Starszy Naukowiec ds. Danych w Collaborative Drug Discovery, specjalizuje się w opracowywaniu algorytmów uczenia maszynowego do przewidywania właściwości biologicznych i fizykochemicznych kandydatów na leki.. Współautor książki Data Mining for Business Analytics, uzyskał doktoraty z chemii na Uniwersytecie Erlangen-Norymberga w Niemczech oraz z matematyki na Fernuniversität Hagen w Niemczech.