Statistiques - 1e L
Classe:
Première
1. Concepts de bases
$$\begin{array}{|c|c|c|c|c|c|c|c|c|c|} \hline \text{Notes }X_{i}&4&7&8&9&11&12&14&15&18\\ \hline \text{Effectifs }n_{i}&1&2&2&2&3&4&2&3&1\\ \hline \text{Fréquences }f_{i}&0.05&0.1&0.1&0.1&0.15&0.2&0.1&0.15&0.05\\ \hline FCC&0.05&0.15&0.25&0.35&0.50&0.7&0.8&0.95&1\\ \hline \end{array}$$
2. Les Caractéristiques
Mode : le mode est la modalité qui a le plus grand effectif $12$ est le mode de cette série
Médiane : la médiane est la modalité dont sa fréquence cumulée croissante dépasse pour la première fois $0.5$ $11$ est la médiane de cette série
Fréquence : La fréquence de la modalité $X_{i}$ est le nombre $f_{i}=\dfrac{n_{i}}{N}$ ou $n_{i}$ est l'effectif de la modalité $X_{i}$ et $N$ l'effectif total $N=n_{1}+n_{2}+\ldots+n_{p}=\sum\limits_{i-1}^{p}n_{i}$
Remarque :
$\sum\limits_{i-1}^{p}f_{i}=\dfrac{n_{1}+n_{2}+\ldots n_{p}}{N}=1$
Moyenne : la moyenne de cette série est réel noté $\overline{x}$ définie par :
$\overline{x}=\dfrac{n_{1}x_{1}+n_{2}x_{2}+\ldots+n_{p}x_{p}}{N}=\dfrac{\sum\limits_{i-1}^{p}n_{i}x_{i}}{N}\text{ et }\overline{x}=f_{1}X_{1}+f_{2}X_{2}+\ldots f_{p}X_{p}=\sum\limits_{i-1}^{p}f_{i}x_{i}.$
Variance : La variance de cette série est réel positif $V(X)$ définie par :
$V(X)=\dfrac{n_{1}(x_{1}-\overline{x})^{2}+n_{2}(x_{2}-\overline{x})^{2}+\ldots+n_{p}(x_{p}-\overline{x})^{2}}{N}=\dfrac{1}{N}\sum\limits n_{i}(x_{i}-\overline{x})^{2}\quad(1)$
ou
$V(X)=f_{1}(x_{1-\overline{x}})^{2}+f_{2}(x_{2}-\overline{x})^{2}=\sum\limits_{i-1}^{p}f_{i}(x_{1}-\overline{x})^{2}\quad(2)$
ou
$V(x)=\dfrac{1}{N}\left(n_{1}X_{1}^{2}+n_{2}X_{2}^{2}+\ldots n_{p}X_{p}^{2}\right)-\overline{x}^{2}\quad(3)\text{ moyenne des carrés-le carré de la moyenne}$
Remarque :
Pour effectuer un calcul de la variance, la formule $(3)$ qui porte le nom de formule de Kônig est en général plus simple à utiliser.
Écart type l'écart type d'une série statistique est la racine carrée de la variance on le note $\theta x=\sqrt{V(x)}$
Exercice d'application
On donne les notes de $20$ élèves à un devoir de mathématiques: $12$ ; $9$ ; $11$ ; $14$ ; $9$ ; $8$ ; $15$ ; $7$ ; $4$ ; $18$ ; $12$ ; $7$ ; $14$ ; $12$ ; $15$ ; $8$ ; $15$ ; $11$ ; $12$ ; $11$
1. Dresser e tableau des effectifs et des fréquences de cette série notée $X.$
2. Calculer la moyenne, la variance et l'écart type de cette série.
3. regrouper les notes par classe d'amplitude $4$ puis calculer la moyenne, la variance et l'écart type correspondant.
Solution :
1. Tableau des effectifs et des fréquences
$$\begin{array}{|c|c|c|c|c|c|c|c|c|c|} \hline \text{Notes }n_{i}&4&7&8&9&11&12&14&15& 18\\ \hline \text{Efectifs }n_{i}&1&2&2&2&3&4&2&3&1\\ \hline \text{Fréquence}f_{i}&0.05&0.1&0.1&0.1&0.15&0.2&0.1&0.15&0.05\\ \hline \end{array}$$
2. la moyenne de cette série est
Soit $\overline{x}=\dfrac{224}{20}=11.2$
Calcule de la variance
$V(X)=\dfrac{1}{20}\left(4^{2}\times1+7^{2}\times2+8^{2}\times2+9^{2}\times2+11^{2}\times3+12^{2}\times4+14^{2}\times2+15^{2}\times3+18^{2}\times1\right)-11.2^{2}$
Soit $V(x)=\dfrac{2734}{20}-11.2^{2}=11.26$
L'écart type est $\sigma(X)=\sqrt{11.26}$ soit $\sigma(X)=3.33.$
$$\begin{array}{|l|c|c|c|c|} \hline \text{Classe }&[4\;,\ 8[&[8\;,\ 12[&[12\;,\ 16[&[16\;,\ 20[\\ \hline \text{effectif }&3&7&9&1\\ \hline \text{centre }&6&10&14&18\\ \hline \end{array}$$
Rappel :
Le centre de l'intervalle $[a\;,\ b[$ est le nombre $\dfrac{a+b}{2}$
Les centres des intervalles seront considérés comme les modalités
On trouve $\overline{x}=\dfrac{232}{20}=11.6$
$V(x)=\dfrac{2896}{20}-(11.6)^{2}$
Soit V(X)=$10.24$ et $\sigma(x)=3.2$
II. Série Statistique à deux variables
1. Définition
On appelle série statistique double d'une population pour les caractères $X$ et $Y$ l'application qui à chaque élément de p associe le couple $\left(X_{i}\;,\ Y_{i}\right)$ ou $X_{i}$ et $Y_{i}$ sont des valeurs des caractères $X$ et $Y$
Le résultat de cette observation peut être présenté sous deux formes
$\bullet\ $Données non groupés
$$\begin{array}{|l|c|c|c|c|} \hline \text{individu}&1&2&&n\\ \hline \text{Valeur de}X&X_{1}&X_{2}&&X_{n}\\ \hline \text{Valeur de}Y&Y_{1}&Y_{2}&&Y_{n}\\ \hline \end{array}$$
2. Nuage des points
Un nuage de points est un type de graphique utilisé pour représenter des données bivariées (deux variables). Chaque point du nuage correspond à une paire de valeurs (x, y), où :
- x est la valeur de la première variable (généralement représentée sur l'axe horizontal, l'axe des abscisses),
- y est la valeur de la deuxième variable (généralement représentée sur l'axe vertical, l'axe des ordonnées).
Ce type de représentation permet d'observer la relation ou la corrélation éventuelle entre les deux variables.
Étapes pour construire un nuage de points
Collecter les données : Les données doivent être organisées sous forme de paires (xi,yi)(xi,yi) correspondant aux observations des deux variables.
Tracer les axes :
L'axe horizontal représente les valeurs de x (variable explicative ou indépendante),
L'axe vertical représente les valeurs de y (variable dépendante).
Placer les points : Chaque paire (xi,yi) est représentée par un point dans le plan.
Étapes pour construire un nuage de points
- Collecter les données : Les données doivent être organisées sous forme de paires (xi,yi)(xi,yi) correspondant aux observations des deux variables.
2. Tracer les axes :
- L'axe horizontal représente les valeurs de xx (variable explicative ou indépendante),
- L'axe vertical représente les valeurs de yy (variable dépendante).
3. Placer les points : Chaque paire (xi,yi) est représentée par un point dans le plan.
3. Point moyen
$\overline{x}=\dfrac{1}{n}\sum\limits^{n}_{i-1}x_{i}$
$\overline{y}=\dfrac{1}{n}\sum\limits^{n}_{i-1}y_{i}$
4. Covariance
La covariance d'une série double $(X,Y)$ est réel noté cov $(X,Y)$ ou $\sigma_{xy}$ défini par :
$\sigma_{xy}=\dfrac{1}{N}(x_1-\overline{x})(y_1-\overline{y})+ ...+(x_n-\overline{x})(y_n-\overline{y})$
5. Droite de régression $y$ en $x$ et de $x$ en $y$
a. La droite de régression de $y$ en $x$
Il existe une droite qui minimise la somme des carrés des distance verticales des points du nuage à la courbe:
c'est la dernière droites des moindres carrés ou droite de régression de $y$ en $x .$
Elle a pour équation
$$\boxed{D^{y}/x:y-\overline{y}=a\left(x-\overline{x}\right)}$$
$a=\dfrac{\text{cov }(x\;,\ y)}{V(x)}$
b. La droite de régression de $x$ en $y$
Il existe une autre droite qui minimise la somme des carrés des distances horizontales des points du nuage à la courbe.
C'est la deuxième droite des moindres carrés ou droite de régression de $x$ en $y$
$$\boxed{D^{X}/y:x-\overline{x}=a\left(y-\overline{Y}\right)}$$
$\alpha=\dfrac{V(x)}{\text{cov }(x\;,\ y)}$
Remarque :
i. $D^{x}/y: \text{ pour coefficient directeur }\dfrac{1}{\alpha}$
ii. $D^{y}/x:\text{ pour coefficient directeur }\alpha$
Le point $G\left(\overline{x}\;,\ \overline{Y}\right)$ appartient aux deux droites de régression est le point moyen du nuage ou barycentre du nuage
III. Corrélation Linéaire
Il existe un nombre qui permet de mesurer de mesurer la proximité entre les droites de régression : c'est le coefficient de corrélation linéaire qui permet donc de mesurer la liaison entre les deux variable $x$ et $y$ il est noté $r_{xy}$ et on $\alpha$
$r_{xy}=\dfrac{(\text{cov }x\;,\ y)}{\sigma(x)\sigma(y)}$
Propriétés
i. $r^{2}=\alpha\times\alpha^{\prime}$
ii. $^{2}\leq1\leftrightarrow|r|<1\leftrightarrow-1\leq r\leq1$
Interprétation
$\bullet\ $Si $|r|<1$ on a une liaison fonctionnelle entre $x$ et $y$ ceci est un idéal
$\bullet\ $Si $r=0$ on a une indépendance totale (exceptionnelle)
$\bullet\ $Si $0.87<|r|<1$ on a une forte corrélation
Ajouter un commentaire