Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2,...
Regressionsmodelle sind nach wie vor sehr populär in der Statistik, dem Data Mining, Data Science und Machine Learning – das belegen aktuelle Zahlen, die KDNuggets kürzlich via Twitter präsentierte:...
View ArticleMachine Learning-Algorithmen verstehen: Interaktionseffekte
Machine Learning-Algorithmen zu verstehen ist eine Herausforderung. Mit dem folgenden Text möchte ich einen Beitrag dazu leisten, indem ich ein Spezialthema betrachte: Wie gehen verschiedene Machine...
View ArticleElegante R-Programmierung mit purrr::map und genisteten Datensätzen
2016 machte Hadley Wickham eine Idee populär, von der er zunächst selbst nicht sicher war, ob sie gut ist: genistete Datensätze (nested data frames). Das Prinzip ist einfach: Eine Spalte eines...
View ArticleGroße Datenmengen visualisieren mit R, ggplot2 und trelliscopejs
Wie kann man große Datenmengen in R so darstellen, dass sie gut lesbar sind und viele Informationen preisgeben? „Große Datenmengen“ verstehen wir hier im Sinne von „viele Untergruppen“, nicht unbedingt...
View ArticleR-Code parallelisieren mit parallel::clusterApply()
R-Code ist oft schnell zu schreiben, aber nicht immer schnell genug in der Ausführung. Eine Methode, dem abzuhelfen, besteht darin, R-Code zu parallelisieren, d. h. mehrere Prozessorkerne oder mehrere...
View ArticleSchleifen parallelisieren in R mit foreach
Schleifen haben einen schlechten Ruf in R: Sie gelten nicht zu unrecht als langsam. Oft ist es möglich, Schleifen zu vermeiden, etwa durch vektorisierte Funktionen, mit Funktionen aus der apply-Familie...
View ArticleScheinkorrelationen aufdecken in R mit linearen Regressionsmodellen
Störche bringen Babies – das wohl bekannteste Beispiel der Statistik für eine klassische Scheinkorrelation. Der Zusammenhang ist tatsächlich statistisch nachweisbar – es handelt sich jedoch (nach...
View ArticleVerdeckte Korrelationen sichtbar machen in R mit linearen Modellen
Nach meinem Eindruck erhalten verdeckte Korrelationen weniger Aufmerksamkeit als ihre bekannteren Kollegen, die Scheinkorrelationen. Dabei stellen beide Phänomene ähnliche Herausforderungen für die...
View ArticleFlaschenhälse (langsame Code-Abschnitte) in R finden mit Profiling: profvis
Wenn R-Code zu langsam läuft, sind es oft nur ganz bestimmte Stellen, die optimiert werden müssen. Nicht immer ist sofort klar, welche Codezeilen das sind. Daher ist es sinnvoll zu wissen, wie man...
View ArticleDecathlon: Zehnkampf aus statistischer Sicht unter Corona-Bedingungen
Der Zehnkampf gilt als die Königsdisziplin der Leichtathletik. Die Internationale Leichtathletik-Mehrkampfwertung der IAAF (International Amateur Athletics Federation) bewertet jede Leistung in den...
View Article
More Pages to Explore .....