Statistiques - 1e L

Classe: 
Première
 

1. Concepts de bases

$$\begin{array}{|c|c|c|c|c|c|c|c|c|c|} \hline \text{Notes }X_{i}&4&7&8&9&11&12&14&15&18\\ \hline \text{Effectifs }n_{i}&1&2&2&2&3&4&2&3&1\\ \hline \text{Fréquences }f_{i}&0.05&0.1&0.1&0.1&0.15&0.2&0.1&0.15&0.05\\ \hline FCC&0.05&0.15&0.25&0.35&0.50&0.7&0.8&0.95&1\\ \hline \end{array}$$

2. Les Caractéristiques

Mode : le mode est la modalité qui a le plus grand effectif $12$ est le mode de cette série
 
Médiane : la médiane est la modalité dont sa fréquence cumulée croissante dépasse pour la première fois $0.5$ $11$ est la médiane de cette série
 
Fréquence : La fréquence de la modalité $X_{i}$ est le nombre $f_{i}=\dfrac{n_{i}}{N}$ ou $n_{i}$ est l'effectif de la modalité $X_{i}$ et $N$ l'effectif total $N=n_{1}+n_{2}+\ldots+n_{p}=\sum\limits_{i-1}^{p}n_{i}$

Remarque : 

$\sum\limits_{i-1}^{p}f_{i}=\dfrac{n_{1}+n_{2}+\ldots n_{p}}{N}=1$
 
Moyenne : la moyenne de cette série est réel noté $\overline{x}$ définie par :
 
$\overline{x}=\dfrac{n_{1}x_{1}+n_{2}x_{2}+\ldots+n_{p}x_{p}}{N}=\dfrac{\sum\limits_{i-1}^{p}n_{i}x_{i}}{N}\text{ et }\overline{x}=f_{1}X_{1}+f_{2}X_{2}+\ldots f_{p}X_{p}=\sum\limits_{i-1}^{p}f_{i}x_{i}.$
 
Variance : La variance de cette série est réel positif $V(X)$ définie par :
 
$V(X)=\dfrac{n_{1}(x_{1}-\overline{x})^{2}+n_{2}(x_{2}-\overline{x})^{2}+\ldots+n_{p}(x_{p}-\overline{x}^{2}}{N}=\dfrac{1}{N}\sum\limits n_{i}(x_{i}-\overline{x})^{2}\quad(1)$
 
ou
 
$V(X)=f_{1}(x_{1-\overline{x}})^{2}+f_{2}(x_{2}-\overline{x})^{2}=\sum\limits_{i-1}^{p}f_{i}(x_{1}-\overline{x})^{2}\quad(2)$
 
ou
 
$V(x)=\dfrac{1}{N}\left(n_{1}X_{1}^{2}+n_{2}X_{2}^{2}+\ldots n_{p}X_{p}^{2}\right)-\overline{x}^{2}\quad(3)\text{ moyenne des carrés-le carré de la moyenne}$

Remarque : 

Pour effectuer un calcul de la variance, la formule $(3)$ qui porte le nom de formule de Kônig est en général plus simple à utiliser.
 
Écart type l'écart type d'une série statistique est la racine carrée de la variance on le note $\theta x=\sqrt{V(x)}$ 

Exercice d'application

On donne les notes de $20$ élèves à un devoir de mathématiques: $12$ ; $9$ ; $11$ ; $14$ ; $9$ ; $8$ ; $15$ ; $7$ ; $4$ ; $18$ ; $12$ ; $7$ ; $14$ ; $12$ ; $15$ ; $8$ ; $15$ ; $11$ ; $12$ ; $11$ 
 
1. Dresser e tableau des effectifs et des fréquences de cette série notée $X.$ 
 
2. Calculer la moyenne, la variance et l'écart type de cette série.
 
3. regrouper les notes par classe d'amplitude $4$ puis calculer la moyenne, la variance et l'écart type correspondant.

Solution :

1. Tableau des effectifs et des fréquences                                                                                                                                                                                                                              
$$\begin{array}{|c|c|c|c|c|c|c|c|c|c|} \hline \text{Notes }n_{i}&4&7&&9&11&12&14&15& 18\\ \hline \text{Efectifs }n_{i}&1&2&2&2&&3&4&2&3&1\\ \hline \text{Fréquence}f_{i}&0.05&0.1&0.1&0.1&0.15&0.2&0.1&0.15&0.05\\ \hline \end{array}$$
 
2. la moyenne de cette série est 
 
Soit $\overline{x}=\dfrac{224}{20}=11.2$
 
Calcule de la variance
 
$V(X)=\dfrac{1}{20}\left(4^{2}\times1+7^{2}\times2+8^{2}\times2+9^{2}\times2+11^{2}\times3+12^{2}\times4+14^{2}\times2+15^{2}\times3+18^{2}\times1\right)-11.2^{2}$
 
Soit $V(x)=\dfrac{2734}{20}-11.2^{2}=11.26$
 
L'écart type est $\sigma(X)=\sqrt{11.26}$ soit $\sigma(X)=3.33.$
 
$$\begin{array}{|l|c|c|c|c|} \hline \text{Classe }&[4\;,\ 8[&[8\;,\ 12[&[12\;,\ 16[&[16\;,\ 20[\\ \hline \text{effectif }&3&7&9&1\\ \hline \text{centre }&6&10&14&18\\ \hline \end{array}$$

Rappel : 

Le centre de l'intervalle $[a\;,\ b[$ est le nombre $\dfrac{a+b}{2}$
 
Les centres des intervalles seront considérés comme les modalités
 
On trouve $\overline{x}=\dfrac{232}{20}=11.6$
 
$V(x)=\dfrac{2896}{20}-(11.6)^{2}$
 
Soit V(X)=$10.24$ et $\sigma(x)=3.2$

II. Série Statistique à deux variables

1. Définition

On appelle série statistique double d'une population pour les caractères  $X$ et $Y$ l'application qui à chaque élément de p associe le couple $\left(X_{i}\;,\ Y_{i}\right)$ ou $X_{i}$ et $Y_{i}$ sont des valeurs des caractères $X$ et $Y$
 
Le résultat de cette observation peut être présenté sous deux formes
 
$\bullet\ $Données non groupés
$$\begin{array}{|l|c|c|c|c|} \hline \text{individu}&1&2&&n\\ \hline \text{Valeur de}X&X_{1}&X_{2}&&X_{n}\\ \hline \text{Valeur de}Y&Y_{1}&Y_{2}&&Y_{n}\\ \hline \end{array}$$

2. Nuage des points

Voir cours

3. Point moyen

$\overline{x}=\dfrac{1}{n}\sum\limits^{n}_{i-1}x_{i}$
 
$\overline{y}=\dfrac{1}{n}\sum\limits^{n}_{i-1}y_{i}$

4. Covariance

La covariance d'une série double $(X,Y)$ est réel noté cov $(X,Y)$ ou $\sigma\omega_{xy}$ défini par : 
 
$\sigma_{xy}=\dfrac{n_{11}x_{1}y_{1}+n_{12}x_{1}y_{2}+\ldots}{N}\dfrac{1}{N}\Sigma n_{ij}x_{i}y_{j}-\overline{x}\overline{y}$

5. Droite de régression $y$ en $x$ et de $x$ en $y$

a. La droite de régression de $y$ en $x$

Il existe une droite qui minimise la somme des carrés des distance verticales des points du nuage à la courbe: 
 
c'est la dernière droites des moindres carrés ou droite de régression de $y$ en $x .$ 
 
Elle a pour équation
$$\boxed{D^{y}/x:y-\overline{y}=a\left(x-\overline{x}\right)}$$
 
$a\dfrac{\text{cov }(x\;,\ y)}{V(x)}$

b. La droite de régression de $x$ en $y$

Il existe une autre droite qui minimise la somme des carrés des distances horizontales des points du nuage à la courbe.
 
C'est la deuxième droite des moindres carrés ou droite de régression de $x$ en $y$
$$\boxed{D^{X}/y:x-\overline{x}=a\left(y-\overline{Y}\right)}$$
 
$\alpha=\dfrac{\text{cov }(x\;,\ y)}{V((x)}$

Remarque :

i. $D^{x}/y:\alpha\text{pour coefficient directeur }\dfrac{1}{\alpha}$
 
ii. $D^{y}/x:\alpha\text{pour coefficient directeur}\alpha$
 
Le point $G\left(\overline{x}\;,\ \overline{Y}\right)$ appartient aux deux droites de régression est le point moyen du nuage ou barycentre du nuage

III. Corrélation Linéaire

Il existe un nombre qui permet de mesurer de mesurer la proximité entre les droites de régression : c'est le coefficient de corrélation linéaire qui permet donc de mesurer la liaison entre les deux variable $x$ et $y$ il est noté $r_{xy}$ et on $\alpha$
 
$r_{xy}=\dfrac{(\text{cov }x\;,\ y)}{\sigma(x)\sigma(y)}$
 
Propriétés
 
i. $r^{2}=\alpha\times\alpha^{\prime}$
 
ii. $^{2}\leq1\leftrightarrow|r|<1\leftrightarrow-1\leq r\leq1$
 
Interprétation
 
$\bullet\ $Si $|r|<1$ on a une liaison fonctionnelle entre $x$ et $y$ ceci est un idéal
 
$\bullet\ $Si $r=0$ on a une indépendance totale (exceptionnelle)
 
$\bullet\ $Si $0.87<|r|<1$ on a une forte corrélation
 

Ajouter un commentaire