"Wir können die Effektgrösse mit Hilfe von Cohens'd Wert berechnen:"
"### Cohen's $d$ Wert"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Eine gängige Art, die Effektgrösse des Gruppenunterschieds zu quantifizieren, ist mit Hilfe von Cohen's $d$ Wert, welcher wie folgt definiert ist:\n",
"Dieser Ausdruck besagt, dass die Effektgrösse die Differenz zwischen den Gruppenmittelwerten dividiert durch die gepoolte Standardabweichung beider Gruppen ist. Indem wir die gepoolte Standardabweichung nehmen, standardisieren wir die Differenzen der Gruppenmittelwerte. \n",
"\n",
"\n",
"Nehmen wir an, wir haben eine Differenz von 1 zwischen den Gruppenmittelwerten und eine gepoolte Standardabweichung von 0.1, dann ist die Effektgrösse grösser als bei der gleichen Differenz der Gruppenmittelwerte und einer gepoolten Standardabweichung von 10. \n",
"\n",
"Cohen's $d$ Wert kann demzufolge als $z$-Score interpretiert werden. Ein $z$-Score ist die Anzahl Standardabweichungen, die der Gruppenmittelwert der ersten Gruppe vom Gruppenmittelwert der zweiten Gruppe abweicht. \n",
"\n",
"Eine weitere Möglichkeit, eine Kennzahl für die Effektgrösse anzugeben, ist die _\\\"Uberlegenheits-Wahrscheinlichkeit_(englisch _probability of superiority_). Diese ist definiert als die Wahhrscheinlichkeit, dass ein zufällig gewählter Datenpunkt der ersten Gruppe einen grösseren Wert als ein zufällig gewählter Wert der zweiten Gruppe hat. Wenn wir annehmen können, dass die Daten normalverteilt sind, können wir die \\\"Uberlegenheits-Wahrscheinlichkeit mit Hilfe von Cohen's $d$ Wert berechnen:\n",
Wir betrachten also die Körpergrösse von Frauen, von welcher wir annehmen, dass diese normalverteilt ist. Zur Ueberprüfung dieser Annahme wollen wir den Q-Q-Plot der Körpergrösse der Studentinnen im Datensatz erstellen.
Wir betrachten also die Körpergrösse von Frauen, von welcher wir annehmen, dass diese normalverteilt ist. Zur Ueberprüfung dieser Annahme wollen wir den Q-Q-Plot der Körpergrösse der Studentinnen im Datensatz erstellen.
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
st.probplot(female_height,plot=plt)
st.probplot(female_height,plot=plt)
plt.title("Grösse Frauen")
plt.title("Grösse Frauen")
#plt.savefig('qq_students.png', dpi=300)
#plt.savefig('qq_students.png', dpi=300)
```
```
%% Output
%% Output
Text(0.5, 1.0, 'Grösse Frauen')
Text(0.5, 1.0, 'Grösse Frauen')
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Aufgrund des QQ-Plots schliessen wir, dass die Körpergrösse von Frauen normalverteilt ist. Wir bezeichnen mit $ X $ die Körpergrösse einer zufällig ausgewählten Studentin, wobei
Aufgrund des QQ-Plots schliessen wir, dass die Körpergrösse von Frauen normalverteilt ist. Wir bezeichnen mit $ X $ die Körpergrösse einer zufällig ausgewählten Studentin, wobei
$$
$$
X
X
\sim \mathcal{N}(\mu, \sigma^{2})
\sim \mathcal{N}(\mu, \sigma^{2})
$$
$$
Wir wollen nun eine Aussage über $ \mu $ treffen. Zunächst gehen wir davon aus, dass $ \sigma $ bekannt ist, sagen wir $ \sigma=10 $.
Wir wollen nun eine Aussage über $ \mu $ treffen. Zunächst gehen wir davon aus, dass $ \sigma $ bekannt ist, sagen wir $ \sigma=10 $.
Es stellt sich nun die Frage, wie wir die Prior-Verteilung für $ \mu $ wählen. Eine
Es stellt sich nun die Frage, wie wir die Prior-Verteilung für $ \mu $ wählen. Eine
Beta-Verteilung ist für diese Situation nicht passend, da deren Parameterwerte $ \theta $ nur Werte
Beta-Verteilung ist für diese Situation nicht passend, da deren Parameterwerte $ \theta $ nur Werte
von $ 0 $ bis $ 1 $ annimmt. Viele Verteilungen sind in diesem Fall denkbar. Wir gehen der Einfachheit halber vorläufig von einer gleichförmigen Verteilung aus. Wir gehen hier von grossem Unwissen aus, nämlich dass $ \mu $ zwischen 100 und 250cm liegen kann , d.h. alle Werte in diesem Bereich können mit der gleichen 'Wahrscheinlichkeit' vorkommen. Natürlich könnten wir hier mehr Vorwissen einfliessen lassen, was wir später auch machen werden.
von $ 0 $ bis $ 1 $ annimmt. Viele Verteilungen sind in diesem Fall denkbar. Wir gehen der Einfachheit halber vorläufig von einer gleichförmigen Verteilung aus. Wir gehen hier von grossem Unwissen aus, nämlich dass $ \mu $ zwischen 100 und 250cm liegen kann , d.h. alle Werte in diesem Bereich können mit der gleichen 'Wahrscheinlichkeit' vorkommen. Natürlich könnten wir hier mehr Vorwissen einfliessen lassen, was wir später auch machen werden.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Als Likelihood-Funktion wählen wir eine Normalverteilungsfunktion mit dem Datensatz `female_height`, der aus 50 Messungen der Körpergrösse von Frauen besteht. Falls $ \sigma=10 $ und $ x=\{x_{1},x_{2},\dots,x_{50} \} =\{160,\ldots, 155\}$, so lautet die Likelihood-Funktion
Als Likelihood-Funktion wählen wir eine Normalverteilungsfunktion mit dem Datensatz `female_height`, der aus 50 Messungen der Körpergrösse von Frauen besteht. Falls $ \sigma=10 $ und $ x=\{x_{1},x_{2},\dots,x_{50} \} =\{160,\ldots, 155\}$, so lautet die Likelihood-Funktion
Diese Likelihood-Funktion betrachten wir nun als abhängig von $ \mu $ und können nun zusammen mit der Prior-Verteilung die Posterior-Verteilung bestimmen. Dies machen wir nun natürlich mit `pymc3`.
Diese Likelihood-Funktion betrachten wir nun als abhängig von $ \mu $ und können nun zusammen mit der Prior-Verteilung die Posterior-Verteilung bestimmen. Dies machen wir nun natürlich mit `pymc3`.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Der Input ist sehr ähnlich wie beim Beta-Prior, aber wir müssen hier 2 Parameter spezifizieren, nämlich $ \mu $ und $ \sigma $, da die Likelihood-Funktion von zwei Parametern abhängig ist. Wir wollen zunächst nur einen Parameter, nämlich $ \mu $, mit MCMC bestimmen.
Der Input ist sehr ähnlich wie beim Beta-Prior, aber wir müssen hier 2 Parameter spezifizieren, nämlich $ \mu $ und $ \sigma $, da die Likelihood-Funktion von zwei Parametern abhängig ist. Wir wollen zunächst nur einen Parameter, nämlich $ \mu $, mit MCMC bestimmen.
Sampling 4 chains for 1_000 tune and 1_000 draw iterations (4_000 + 4_000 draws total) took 1 seconds.
Sampling 4 chains for 1_000 tune and 1_000 draw iterations (4_000 + 4_000 draws total) took 1 seconds.
<Axes: title={'center': 'μ'}>
<Axes: title={'center': 'μ'}>
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Wir stellen also fest, dass der Mittelwert der Posterior-Verteilung bei 163cm liegt und dass 94\% der wahrscheinlichsten $ \mu $'s im Bereich von 160 bis 165cm liegen.
Wir stellen also fest, dass der Mittelwert der Posterior-Verteilung bei 163cm liegt und dass 94\% der wahrscheinlichsten $ \mu $'s im Bereich von 160 bis 165cm liegen.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Nehmen wir an, eine Zeitung schreibt, dass die durchschnittliche Körpergrösse von Frauen in der Schweiz bei 175cm liegt. Passt diese Angabe zu unseren Daten und zu unserer Prior-Verteilung?
Nehmen wir an, eine Zeitung schreibt, dass die durchschnittliche Körpergrösse von Frauen in der Schweiz bei 175cm liegt. Passt diese Angabe zu unseren Daten und zu unserer Prior-Verteilung?
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Männer sind durchschnittlich eher grösser als Frauen. Aber ist dieser Unterschied auch statistisch relevant? Dazu wählen wir 65 Studenten aus und führen dieselbe Untersuchung durch. Wir stellen fest, dass die Körpergrösse dieser 65 Studenten annähernd einer Normalverteilung folgt.
Männer sind durchschnittlich eher grösser als Frauen. Aber ist dieser Unterschied auch statistisch relevant? Dazu wählen wir 65 Studenten aus und führen dieselbe Untersuchung durch. Wir stellen fest, dass die Körpergrösse dieser 65 Studenten annähernd einer Normalverteilung folgt.
Die Berechnung der Posterior-Verteilung der Körpergrösse von Studenten einerseits und die Berechnung der Posterior-Verteilung Körpergrösse von Studentinnen andererseits kann mittels `pymc3`
Die Berechnung der Posterior-Verteilung der Körpergrösse von Studenten einerseits und die Berechnung der Posterior-Verteilung Körpergrösse von Studentinnen andererseits kann mittels `pymc3`
beides in einem Schritt durchgeführt werden.
beides in einem Schritt durchgeführt werden.
Dazu müssen wir aber zwei $ \mu$'s spezifizieren, $ \mu_{1} $ für die Frauen und $ \mu_{2} $ für die Männer. In Abbildung unten sehen wir die beiden Posterior-Plots.
Dazu müssen wir aber zwei $ \mu$'s spezifizieren, $ \mu_{1} $ für die Frauen und $ \mu_{2} $ für die Männer. In Abbildung unten sehen wir die beiden Posterior-Plots.
Der 94\%-HDI von $ \mu_{1} $ ist $ [160,165] $ und für $ \mu_{2} $ ist es $ [175,180] $. Das heisst, die wahrscheinlichsten Werte für $ \mu_{1} $ und $ \mu_{2} $ überschneiden sich nicht. Wir ziehen daraus den Schluss, dass Männer statistisch relevant grösser sind als Frauen.
Der 94\%-HDI von $ \mu_{1} $ ist $ [160,165] $ und für $ \mu_{2} $ ist es $ [175,180] $. Das heisst, die wahrscheinlichsten Werte für $ \mu_{1} $ und $ \mu_{2} $ überschneiden sich nicht. Wir ziehen daraus den Schluss, dass Männer statistisch relevant grösser sind als Frauen.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Wir können die Effektgrösse mit Hilfe von Cohens'd Wert berechnen:
### Cohen's $d$ Wert
%% Cell type:markdown id: tags:
Eine gängige Art, die Effektgrösse des Gruppenunterschieds zu quantifizieren, ist mit Hilfe von Cohen's $d$ Wert, welcher wie folgt definiert ist:
Dieser Ausdruck besagt, dass die Effektgrösse die Differenz zwischen den Gruppenmittelwerten dividiert durch die gepoolte Standardabweichung beider Gruppen ist. Indem wir die gepoolte Standardabweichung nehmen, standardisieren wir die Differenzen der Gruppenmittelwerte.
Nehmen wir an, wir haben eine Differenz von 1 zwischen den Gruppenmittelwerten und eine gepoolte Standardabweichung von 0.1, dann ist die Effektgrösse grösser als bei der gleichen Differenz der Gruppenmittelwerte und einer gepoolten Standardabweichung von 10.
Cohen's $d$ Wert kann demzufolge als $z$-Score interpretiert werden. Ein $z$-Score ist die Anzahl Standardabweichungen, die der Gruppenmittelwert der ersten Gruppe vom Gruppenmittelwert der zweiten Gruppe abweicht.
Eine weitere Möglichkeit, eine Kennzahl für die Effektgrösse anzugeben, ist die _\"Uberlegenheits-Wahrscheinlichkeit_(englisch _probability of superiority_). Diese ist definiert als die Wahhrscheinlichkeit, dass ein zufällig gewählter Datenpunkt der ersten Gruppe einen grösseren Wert als ein zufällig gewählter Wert der zweiten Gruppe hat. Wenn wir annehmen können, dass die Daten normalverteilt sind, können wir die \"Uberlegenheits-Wahrscheinlichkeit mit Hilfe von Cohen's $d$ Wert berechnen: