Innerhalb der Soziolinguistik werden u. a. Variationen des Sprachgebrauchs analysiert. Unter anderem liegen hier demographische Unterschiede vor, siehe z. B. (Schwartz 2013).
Nicht nur im Marketing werden dazu auch Wortassoziationen untersucht. Im Kontext des Behavioral Finance steht dabei auch der Begriff “Risiko” im Fokus, siehe z. B. (Hirshleifer 2015).
Daher soll hier untersucht werden, ob es geschlechtsspezifische Unterschiede in der Assoziation des Begriffs “Risiko” bei berufstätig Studierenden gibt, d. h., ob zwischen den Variablen ein Zusammenhang vorliegt.
Die Operationalisierung der Assoziationen für das Wort “Risiko” erfolgte nach (Grable and Lytton 1999) Die Frage lautet:
Wenn Sie an das Wort “Risiko” denken, welches der folgenden Wörter fällt Ihnen zuerst ein?
Als Stichprobenverfahren wurde hier eine Gelegenheitsstichprobe verwendet: eine anonyme, freiwillige Online Umfrage in verschiedenen Vorlesungen.
Die Datenerhebung erfolgte Ende 2017, Anfang 2018 in verschiedenen Statistikvorlesungen. Der exportierte Datei ist im xlsx
(Excel) Format. Aus Datenschutz und Datensparsamkeitsgründen sind in den Rohdaten nur die hier relevanten Daten enthalten.
# Ggfs. Paket readxl installieren
# install.packages("readxl")
# Paket laden
library(readxl)
# Daten einlesen
risiko <- read_excel("Risikoaversion.xlsx")
Vorbereitung:
# Ggfs. Paket mosaic installieren
# install.packages("mosaic")
# Paket laden
library(mosaic)
# Erste Datenübersicht
inspect(risiko)
##
## quantitative variables:
## name class min Q1 median Q3 max mean sd n missing
## 1 Geschlecht numeric 1 1 1 2 2 1.479167 0.5021882 96 0
## 2 Alter numeric 19 23 24 26 37 24.968750 3.5376267 96 0
## 3 RA4 numeric 1 2 2 3 4 2.568421 0.9068607 95 1
Die kategorial-nominalen Variablen Geschlecht
und RA4
(Wortassoziation Risiko) wurden numerisch kodiert und werden zunächst als solche interpretiert.
Umcodieren der Variable Geschlecht
:
risiko <- risiko %>%
mutate(Geschlecht = case_when(Geschlecht == 1 ~ "maennlich",
Geschlecht == 2 ~ "weiblich"))
Benennen der Antwortmöglichkeiten auf die Frage RA4
: Wenn Sie an das Wort “Risiko” denken, welches der folgenden Wörter fällt Ihnen zuerst ein?
risiko <- risiko %>%
mutate(RA4 = case_when(RA4 == 1 ~ "1: Verlust",
RA4 == 2 ~ "2: Unsicherheit",
RA4 == 3 ~ "3: Chance",
RA4 == 4 ~ "4: Nervenkitzel"))
Außerdem gibt es \(1\) fehlenden Wert bei RA4
. Diese Beobachtung wird entfernt.
risiko <- risiko %>%
na.omit()
Kontrolle:
inspect(risiko)
##
## categorical variables:
## name class levels n missing
## 1 Geschlecht character 2 95 0
## 2 RA4 character 4 95 0
## distribution
## 1 maennlich (51.6%), weiblich (48.4%)
## 2 2: Unsicherheit (43.2%) ...
##
## quantitative variables:
## name class min Q1 median Q3 max mean sd n missing
## 1 Alter numeric 19 23 24 26 37 24.96842 3.556393 95 0
Es liegen \(n=95\) Beobachtungen von 3 Variablen vor. Als kategoriale Variablen “Geschlecht, RA4” und als numerische “Alter”.
Eine erste Analyse erfolgt über verschiedene Säulendiagramme:
gf_bar( ~ RA4 | Geschlecht, data = risiko)
gf_bar( ~ RA4, fill=~Geschlecht, data = risiko)
gf_bar( ~ RA4, fill=~Geschlecht, position = "fill", data = risiko)
Es sind Unterschiede zwischen den Geschlechtern zu erkennen: Männer verbinden überwiegend den Begriff “Chance” mit dem Begriff “Risiko”, während eine deutliche Mehrheit der Frauen mit “Risiko” den Begriff “Unsicherheit” verbindet.
Die graphisch sichtbaren Zusammenhänge werden auch anhand der relativen Häufigkeiten sichtbar:
tally(RA4 ~ Geschlecht, data = risiko, format = "proportion")
## Geschlecht
## RA4 maennlich weiblich
## 1: Verlust 0.16326531 0.02173913
## 2: Unsicherheit 0.30612245 0.56521739
## 3: Chance 0.38775510 0.17391304
## 4: Nervenkitzel 0.14285714 0.23913043
Während z. B. 39% der Männer mit dem Begriff “Risiko” den Begriff “Chance” verbinden sind es nur 17% der Frauen.
Anders herum betrachtet:
tally(Geschlecht ~ RA4, data = risiko, format = "proportion")
## RA4
## Geschlecht 1: Verlust 2: Unsicherheit 3: Chance 4: Nervenkitzel
## maennlich 0.8888889 0.3658537 0.7037037 0.3888889
## weiblich 0.1111111 0.6341463 0.2962963 0.6111111
Z. B.: 0.61 derjenigen, die mit “Risiko” den Begriff “Nervenkitzel” verbinden, sind Frauen.
Die Nullhypothese lautet: Es gibt keinen Zusammenhang zwischen Wortassoziation und Geschlecht, die (kategorial-nominalen) Variablen sind unabhängig voneinander. Die Alternativhypothese ist dementsprechend, dass es einen Zusammenhang gibt.
Für zwei kategoriale Merkmale kann ein Chi-Quadrat Unabhängigkeitstest angewendet werden.
xchisq.test(RA4 ~ Geschlecht, data = risiko)
## Warning in chisq.test(x, correct = correct, p = p, rescale.p = rescale.p, :
## Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: x
## X-squared = 13.685, df = 3, p-value = 0.003367
##
## 8 1
## ( 4.64) ( 4.36)
## [2.43] [2.59]
## < 1.56> <-1.61>
##
## 15 26
## (21.15) (19.85)
## [1.79] [1.90]
## <-1.34> < 1.38>
##
## 19 8
## (13.93) (13.07)
## [1.85] [1.97]
## < 1.36> <-1.40>
##
## 7 11
## ( 9.28) ( 8.72)
## [0.56] [0.60]
## <-0.75> < 0.77>
##
## key:
## observed
## (expected)
## [contribution to X-squared]
## <Pearson residual>
Mit einem p-Wert von 0.0034 wird \(H_0\) zum Signifikanzniveau \(\alpha=0.05\) verworfen.
Allerdings gibt es eine Warnung, dass die Approximation über die \(\chi^2\)-Verteilung hier ungenau sein kann. Eine Alternative ist ein Permutationstest1:
# Wert der Teststastistik
chi.quadrat <- chisq.test(tally(RA4 ~ Geschlecht, data = risiko))$statistic
chi.quadrat
## X-squared
## 13.68494
# Reproduzierbarkeit
set.seed(1896)
# Simulation H_0
Nullvtlg <- do(10000) *
chisq.test(tally(RA4 ~ shuffle(Geschlecht), data = risiko))$statistic
# Verteilung unter H_0
gf_histogram( ~ X.squared, data = Nullvtlg) %>%
gf_vline(xintercept = ~ chi.quadrat)
# p-Wert simuliert
prop( ~ (X.squared >= chi.quadrat), data = Nullvtlg)
## prop_TRUE
## 0.0027
Ein Effektstärkemaß für nominale Assoziationen ist z. B. Cramer’s V. Dieses liegt zwischen \(0\) und \(1\) und ist je größer, je größer der Zusammenhang ist.
# Ggfs. Paket vcd installieren
# install.packages("vcd")
library(vcd)
tally(Geschlecht ~ RA4, data = risiko) %>%
assocstats()
## X^2 df P(> X^2)
## Likelihood Ratio 14.601 3 0.0021909
## Pearson 13.685 3 0.0033669
##
## Phi-Coefficient : NA
## Contingency Coeff.: 0.355
## Cramer's V : 0.38
Mit einem \(V=0.38\) liegt ein mittlerer Zusammenhang vor.
Gibt es Unterschiede zwischen den Geschlechtern in den Wortassoziationen?
Anhand der vorliegenden Daten lautet die Antwort: Ja, die beobachteten Daten sind unter der Nullhypothese der Unabhängigkeit von Geschlecht und Wortassoziation eher unwahrscheinlich (p-Wert=0.0034 bei mittlerem Effekt (\(V=0.38\)) .
Aber es liegt eine Gelegenheitsstichprobe vor, Kovariablen wurden nicht berücksichtigt. Interne und externe Validität sind eingeschränkt, auch ist der Stichprobenumfang mit \(n=95\) nicht besonders groß. So gibt es z. B. in dieser Gelegenheitsstichprobe einerseits Unterschiede in der Altersverteilung der Geschlechter, andererseits scheint es auch Unterschiede in der Altersverteilung der Assoziationen zu geben:
gf_boxplot(Alter ~ Geschlecht, data = risiko)
gf_boxplot(Alter ~ RA4, data = risiko)
Bzw. als Estimation Plot (Ho et al. 2019):
# Ggfs. Paket dabestr installieren
# install.packages("dabestr")
# Paket laden
library(dabestr)
dabest(risiko, Geschlecht, Alter,
idx = c("maennlich", "weiblich"),
paired = FALSE) %>%
plot()
dabest(risiko, RA4, Alter,
idx = c("1: Verlust", "2: Unsicherheit", "3: Chance", "4: Nervenkitzel"),
paired = FALSE) %>%
plot()
Eine solche, gemeinsame Modellierung von Wortassoziation, zusammen mit Geschlecht und Alter kann z. B. über Loglineare Modelle (bei klassiertem Alter) oder Multinomiale logistische Regression erfolgen.
Die Daten wurden innerhalb der Master Thesis zum Thema “Behavioral Finance: Einfluss von Geschlecht und Narzissmus auf die Risikoaversion von Anlegern” erhoben.
Verwendete Pakte:
mosaic
Version: 1.5.0ggformula
Version: 0.9.1readxl
Version: 1.3.1vcd
Version: 1.4.4dabestr
Version: 0.2.0Grable, John, and Ruth H. Lytton. 1999. “Financial Risk Tolerance Revisited: The Development of a Risk Assessment Instrument.” Financial Services Review 8 (3): 163–81. https://doi.org/https://doi.org/10.1016/S1057-0810(99)00041-4.
Hirshleifer, David. 2015. “Behavioral Finance.” Annual Review of Financial Economics 7 (1): 133–59. https://doi.org/10.1146/annurev-financial-092214-043752.
Ho, Joses, Tayfun Tumkaya, Sameer Aryal, Hyungwon Choi, and Adam Claridge-Chang. 2019. “Moving Beyond P Values: Everyday Data Analysis with Estimation Plots.” bioRxiv. https://doi.org/10.1101/377978.
Schwartz, Johannes C. AND Kern, H. Andrew AND Eichstaedt. 2013. “Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach.” PLOS ONE 8 (9): 1–16. https://doi.org/10.1371/journal.pone.0073791.
Vgl. auch Exakte Fisher-Test fisher.test()
.↩