Eine Organisationsentwicklungsabteilung möchte herausfinden, was die Ursachen für Unterschiede in der Motivation ihrer Mitarbeiter sind. Dazu berechnet ein Mitarbeiter den Zusammenhang von der Zufriedenheit mit der direkten Führungskraft (Variable: zuf
) und der Arbeitsmotivation (engagement
); der Datensatz mit den Daten heiße d
(keine echte Daten; es ist ein theoretische Aufgabe).
LÖSUNG
# DO NOT RUN THIS CODE
h0_vert1 <- do(1000) * cor(zuf ~ engagement, data = resample(d))
gf_histogram(~ cor, data = h0_vert1)
quantile(~ cor, probs = c(0.025, 0.975), data = h0_vert1)
“Möchte man nur Aussagen treffen über eine Stichprobe, braucht man keine Inferenzstatistik. Möchte man von einer Stichprobe auf eine Grundgesamtheit schließen, so quantifiziert die Inferenzstatistik die Ungewissheit dieses Schlusses”.
Ein Business-Development-Abteilung untersucht, ob die neue Version des Webshops ihrer Firma mehr Vertriebserfolg bringt als die alte Version (version
). Vertriebserfolg wird gemessen als der Anteil der Besucher der Seite, die etwas kaufen beim aktuellen Besuch (buyer
). (Der Datensatz heiße d
; keine echte Daten; es ist ein theoretische Aufgabe).
Korrigieren Sie die Syntax ggf.
Was würde ein Konfidenzintervall hier aussagen?
LÖSUNG
Nein.
Korrekte Syntax:
# DO NOT RUN THIS CODE
h0_vert2 <- do(1000) * diffprop(buyer ~ shuffle(version),
data = d)
gf_histogram(~ diffprop, data = h0_vert2)
Die Personalabteilung einer technisch orientierten Firma möchte einen Wissenstest zur Diagnose der Berufseignung implementieren. Der zuständige Facharbeiter entwirft 20 Wissensitems (Aussagen) zu einem IT-technischen Wissensgebiet, die jeweils mit Richtig bzw. Falsch zu beantworten sind (d.h. jede Aussage ist entweder richtig oder falsch). Jetzt überlegt sie: “Hm, wie viele Items muss eine Bewerberin richtig beantworten, damit wir sicher genug sind, dass sie nicht bloß geraten hat?”.
LÖSUNG
gf_bar(~ heads, data = h0_vert3) %>% # schaut hier schöner aus als das Histogramm
gf_labs(x = "Anzahl Treffer", y = "Häufigkeit für eine Trefferzahl")
Jetzt ausprobieren:
## prop_TRUE
## 0.128
## prop_TRUE
## 0.05
## prop_TRUE
## 0.019
Antwort: 15 Treffer. Bei 15 Treffern ist die Wahrscheinlichkeit <5% (für so ein oder noch extremeres Ereignis), wenn man bloß rät. MaW: Der p-Wert ist kleiner als 5%.
Eleganter:
## 95%
## 13.05
Man könnte die Münzwurfverteilung (sog. Binominalverteilung) durch die Normalverteilung approximieren. Berechnen wir dazu zunächst die Streuung (sd) und den Mittelwert (M) unserer Stichprobenverteilung der Münzwürfe:
## [1] 9.995
Dann können wir uns das Quantil (d.h. den Cutoff-Wert, X-Achse) bequem ausgeben lassen (unter Annahme einer Normalverteilung, was hier ausreichend gegeben ist).
##
## If X ~ N(10, 2.218535), then
## P(X <= 13.64917) = 0.95
## P(X > 13.64917) = 0.05
##
## [1] 13.64917
Antwort: Etwa 14 Treffer sind nötig, um einen Fehlalarm mit mind. 95% Wahrscheinlichkeit auszuschließen.
Die Facharbeiterin spricht den p-Wert an. Der p-Wert ist der Anteil der Stichprobenergebnisse in der H0-Verteilung, die mind. so extrem sind wie das echte (empirische) Ergebnis. Das istn nicht genau das, was die Facharbeiterin gesagt hat, aber es geht in eine ähnliche Richtung und der p-Wert ist das beste Maß zur Entscheidung über eine Hypothese, das wir in diesem Kurs kennenlernen.
\(p = 13\%\)
\(p = 2\%\)
Es handelt sich um einen Alphafehler oder Fehler 1. Art
Recherchieren Sie einen Datensatz, der zu ihrem (angestrebten) Berufsbild passt und importieren Sie ihn in Ihr RStudio. Treffen Sie ggf. Annahmen für den weiteren Verlauf der Aufgabe wo nötig.