Glossaire principal à UEF111 - Probabilités et statistiques
Glossaire de statistique pour les professeurs de
mathématiques de collège
Glossaire à
l'usage des professeurs (ou futurs professeurs) de mathématiques ; c'est sur
des exemples que les notions seront introduites auprès des élèves.
Nous
définissons tout d'abord le vocabulaire statistique concernant les données observées sur une population finie (une
classe d'élèves par exemple), puis le vocabulaire supplémentaire concernant les
données observées sur un échantillon extrait
d'une population finie, enfin, nous reprenons l'interprétation des mêmes termes
dans le contexte de données
expérimentales (durée d'un même trajet chaque jour ouvrable de huit
semaines consécutives, même moyen de locomotion, départ à la même heure, …).
Les données observées sur une population finie
01 |
étude statistique |
C'est dans le but de rechercher de l'information sur une question donnée que l'on peut entreprendre une étude statistique ; il s'agit alors de définir la population et les différents caractères (appelés aussi variables) définis sur cette population qui pourront apporter l'information cherchée. |
02 |
population (statistique) |
ensemble fini et homogène auprès duquel on recherche l'information, noté E = {e1,..., en}. Ce peut être une population humaine ou une population d'entreprises ou de pays, … Cet ensemble n'est pas ordonné. Lorsque l'ensemble est ordonné, les douze mois d'une année donnée par exemple, les données observées sont appelées séries chronologiques ; le questionnement, et donc le traitement statistique, diffèrent en général de ce qui est présenté ici. |
03 |
individus (statistiques) |
ou unités statistiques : éléments de la population |
04 |
caractère (ou variable) |
application définie sur la population ; si on note X le caractère, il peut être identifié au n-uple ( X (e1),..., X (en)) des observations de X sur E. Dans le cadre d'une enquête par questionnaire, pour une question autorisant plusieurs réponses (sports pratiqués par exemple), on construit autant de caractères dichotomiques (oui, non) que de réponses possibles |
05 |
série statistique (à 1 variable) de taille n |
n-uple de valeurs pouvant être considéré comme le n-uple des observations d'un caractère sur une population de taille n |
06 |
observations |
images par un caractère X des individus statistiques, termes de la série statistique |
07 |
caractère qualitatif (ou variable catégorielle) |
caractère à valeurs dans un ensemble fini dont les éléments sont appelés modalités |
08 |
caractère quantitatif (ou variable réelle) |
caractère à valeurs dans l'ensemble des nombres réels |
09 |
caractère quantitatif discret |
caractère quantitatif dont l'ensemble des valeurs possibles est discret |
10 |
caractère quantitatif continu |
caractère quantitatif dont l'ensemble des valeurs possibles est un intervalle ; les valeurs sont alors bien souvent regroupées en classes |
11 |
codage |
numérotation (de 1 à r des r modalités d'un caractère qualitatif) Un caractère qualitatif codé apparaît comme un caractère quantitatif discret mais faire des calculs sur les codes n'a aucun sens. Un caractère quantitatif peut être considéré comme caractère qualitatif tant que l'on ne fait aucun calcul sur les valeurs prises par le caractère. Lorsque le caractère a deux modalités (caractère dichotomique), on préfère souvent les coder 0 et 1. |
12 |
caractère dichotomique |
caractère qualitatif à deux modalités ; lorsque ces modalités sont codées 0 et 1, alors le caractère qualitatif codé est un caractère quantitatif appelé indicatrice |
13 |
indicatrice |
caractère quantitatif ne prenant que deux valeurs 0 et 1. Il s'agit donc de la fonction caractéristique du sous-ensemble A de la population prenant la valeur 1 (on parle alors de l'indicatrice de A). La moyenne de l'indicatrice de A est la proportion p de A dans la population et sa variance est égale à p(1- p). |
14 |
classes |
intervalles de l'ensemble des réels ; deux à deux disjoints, la réunion est un intervalle recouvrant l'ensemble des valeurs d'un caractère quantitatif continu. Notation : [xi−1, xi[ ; i ∈ {1,...r} avec x0 < x1 < ... < xr et X (E) Ì [x0 , xr ]. on suppose que, pour chaque classe, les observations de la classe sont uniformément réparties dans la classe ; le regroupement des valeurs en classes fait perdre de l'information pour davantage de lisibilité (histogramme) |
15 |
catégorie |
sous-ensemble d'une population de tous les individus prenant une même modalité d'un caractère qualitatif. L'ensemble des catégories associées à un caractère qualitatif est la partition de la population engendrée par le caractère qualitatif. On définira de même la partition engendrée par un caractère quantitatif discret ou un caractère quantitatif continu dont les valeurs sont regroupées en classes. |
16 |
effectif |
nombre d'éléments d'un sous-ensemble de la population (effectif ou "fréquence" ou "fréquence absolue" dans quelques ouvrages français "frequence" en anglais, "frecuencia absoluta" en espagnol) |
17 |
fréquence (relative) |
rapport de l'effectif d'un sous-ensemble de la population sur l'effectif de la population ("relative frequence" en anglais, "frecuencia relativa" en espagnol) |
18 |
effectifs cumulés |
pour un caractère quantitatif (ou un caractère qualitatif dont les modalités sont ordonnées)
|
19 |
fréquences cumulées |
pour un caractère quantitatif (ou un caractère qualitatif dont les modalités sont ordonnées) |
20 |
fonction de répartition |
F(x) = P(X ≤ x) = f1 + f2 +…+ fp = Fp tel que : f1 , f2 , … , fp sont les fréquences des valeurs de la variable ≤ x , si non F(x) = 0. |
21 |
diagramme en secteurs |
type de graphique permettant de représenter la distribution d'effectifs (ou de fréquences) d'un caractère qualitatif ; il s'agit d'un disque (parfois d'un demi-disque) composé de secteurs angulaires (représentant les modalités) dont les mesures d'angle sont proportionnelles aux effectifs (ou aux fréquences) des modalités Il peut être également utilisé pour représenter, par exemple, la répartition du budget de la commune selon les différents postes budgétaires. Dans ce cas, il ne s'agit pas d'un diagramme d'effectifs ou de fréquences d'un caractère qualitatif. Les euros ne sont pas des effectifs, les différents postes budgétaires ne sont pas les modalités d'un caractère qualitatif. |
22 |
diagramme en barres |
type de graphique permettant de représenter la distribution d'effectifs (ou de fréquences) d'un caractère qualitatif ; on place les modalités de la variable sur un axe horizontal (à égales distances les unes des autres) et on élève au dessus de ces modalités des barres de hauteurs proportionnelles aux effectifs (ou aux fréquences) des modalités. L'ordre des modalités sur l'axe horizontal peut parfois donner une information trompeuse. (diagramme parfois appelé en "tuyaux d'orgue", les barres ou les tuyaux d'orgue peuvent être présentés horizontalement et non verticalement) |
23 |
diagramme en bâtons |
type de graphique permettant de représenter la distribution d'effectifs (ou de fréquences) d'un caractère quantitatif discret ; on place les r valeurs distinctes de la variable sur un axe horizontal représentant la droite des nombres réels et on élève au dessus de ces valeurs des bâtons de hauteurs proportionnelles aux effectifs (ou aux fréquences) des valeurs |
24 |
histogramme |
type de graphique permettant de représenter la distribution d'effectifs (ou de fréquences) d'un caractère quantitatif continu dont les valeurs sont regroupées en classes ; on place les classes sur un axe horizontal représentant la droite des nombres réels et on élève au dessus de ces classes des rectangles de mesures d'aires proportionnelles aux effectifs (ou aux fréquences) ; les rectangles sont en cohérence avec l'hypothèse faite selon laquelle les observations d'une même classe sont uniformément réparties dans la classe |
25 |
graphe des effectifs cumulés |
graphe de la fonction définie sur R par : N (x) = card ([ X < x ou X = x]) = n F (x)où F est la fonction de répartition de X |
26 |
graphe des fréquences cumulées |
graphe de la fonction de répartition de X |
27 |
mode, classe modale |
(indice de position d'un caractère quantitatif) le mode est la valeur du caractère correspondant à l'effectif (ou la fréquence) maximal ; dans le cas d'un caractère quantitatif continu dont les données sont regroupées en classes, la classe modale est celle dont l'effectif (ou la fréquence) par unité du caractère est maximal. un caractère peut avoir plusieurs modes ou classes modales |
28 |
étendue |
(indice de dispersion d'un caractère quantitatif) l'étendue est la différence entre la valeur maximale du caractère xr (appelée max) et la valeur minimale x1 (appelée min) pour un caractère quantitatif continu dont les valeurs sont regroupées en classes (cf. notation introduite), l'étendue est la différence |
29 |
moyenne (arithmétique) |
(indice de position d'un caractère quantitatif) la moyenne est la somme des n valeurs du caractère divisée par n ; elle correspond à la valeur commune qu'auraient les n individus de la population s'ils se partageaient de façon égale la somme des valeurs positives ou négatives du caractère ; la moyenne a la dimension du caractère X et elle est notée X ou x (la notation est utilisée pour la moyenne de la population dont serait extrait un échantillon) |
30 |
variance et écart-type |
(indices de dispersion d'un caractère quantitatif) la variance est la moyenne des carrés des écarts à la moyenne, soit: la variance est de dimension le carré de la dimension de X ; on vérifie aisément que la variance est égale à la moyenne des carrés moins le carré de la moyenne (2ème formule de la variance utilisée dans les calculs), soit : l'écart-type est la racine carrée de la variance (de dimension celle de X) ; il est noté s (la notation s est utilisée pour l'écart-type de la population dont serait extrait un échantillon). |
31 |
Médiane |
(indice de position d'un caractère quantitatif) intuitivement, la médiane partage la population en deux parties de même effectif ; plus précisément, un réel m est médiane si au moins la moitié de la population prend des valeurs inférieures ou égales à m et au moins la moitié de la population prend des valeurs supérieures ou égales à m, i.e. (définition d'un quantile d'ordre 0.5) : Freq ([ X < m ou X = m]]) > ou = 0.5 et Freq ([X > m ou X = m]) < ou = 0.5; lorsque l'on range les valeurs des n individus de la plus petite à la plus grande, si n est impair, l'unique médiane est la [(n+1)/2]ème valeur, si n est pair, n'importe quelle valeur comprise au sens large entre la nème et la (n+1)ème est médiane ; par convention, pour avoir unicité, on prend la demi- somme de ces deux valeurs |
32 |
quantile d'ordre p (p Î]0, 1[) |
q est quantile d'ordre p si la proportion d'observations inférieures ou égales à q est supérieure ou égale à p et si la proportion d'observations supérieures ou égales à q est supérieure ou égale à 1 – p, i.e. si Freq ([ X < q ou X = q]) > ou = p et Freq ([ X > q ou X = q]) > ou =1 - p ; l'ensemble des quantiles d'ordre p est un intervalle fermé non vide ; pour avoir unicité, différentes conventions sont utilisées |
33 |
médiane, quartiles, déciles |
On appelle médiane un quantile d'ordre 0.5. On appelle 1er quartile (resp. 2ème quartile, resp. 3ème quartile) un quantile d'ordre 0.25 (resp. 0.50, resp. 0.75). On appelle 1er décile (resp. 2ème décile, …, resp. 9ème décile) un quantile d'ordre 0.10 (resp. 0.20, …, resp. 0.90). m est médiane Û m est 2ème quartile Û m est 5ème décile dans le secondaire, la définition donnée pour le 1er (resp. 3ème) quartile est q(0.25) (resp. q(0.75), la définition donnée pour le 1er (resp. 9ème) décile est q(0.1) (resp. q(0.9)). |
34 |
intervalle interquartile, intervalle interdécile |
On appelle intervalle interquartile (resp. intervalle interdécile) l'intervalle dont les extrémités sont le 1er et le 3ème quartiles (resp. le 1er et le 9ème déciles) après avoir éventuellement utilisé une convention pour l'unicité. |
35 |
interquartile, écart interdécile |
On appelle écart interquartile (resp. écart interdécile) la longueur de l'intervalle interquartile (resp. interdécile). |
36 |
diagramme en boîte (ou en boîte et moustaches) |
(en anglais, "box plot" ou "box and whiskers plot") Diagramme représentant une distribution de fréquences construit sur les cinq indices, min, q1, m, q2, max, placés sur un axe représentant la droite des réels : la boîte rectangulaire, de largeur arbitraire, est limitée en longueur par le premier et troisième quartile ; à l'intérieur de la boîte est indiquée par un trait la médiane et, de part et d'autre de la boîte, des segments représentent les valeurs extérieures à l'intervalle interquartile, les extrémités de ces segments indiquent les valeurs extrêmes (min et max) de la variable. Les extrémités des segments peuvent aussi correspondre aux premier et neuvième déciles ; des croix indiquent alors les observations extérieures à l'intervalle interdécile. L'avantage de ce type de diagramme est sa construction rapide et la possibilité de faire une comparaison visuelle de plusieurs distributions. |
Les données d'enquête observées sur un échantillon
01 |
sondage |
dans le langage courant, il s'agit d'une enquête d'opinion ("poll" en anglais, "sondeo" en espagnol), en statistique, il s'agit d'une enquête auprès d'une partie de la population appelée échantillon ("sampling" en anglais, "muestreo" en espagnol) |
02 |
recensement |
s'oppose à sondage ; l'enquête est réalisée auprès de la population tout entière |
03 |
base de sondage |
liste numérotée de tous les individus de la population, nécessaire pour sélectionner un échantillon aléatoire, notée E = {e1,..., eN } |
04 |
échantillon |
sous-ensemble de la population ; ce peut être un échantillon aléatoire (ou échantillon probabiliste) ou un échantillon empirique. On ne parle d'échantillon que lorsque l'on souhaite inférer à la population dont il est issu les indices obtenus sur l'échantillon ; une classe d'élèves est alors une population et non un échantillon. |
05 |
taille |
nombre d'éléments de l'échantillon (noté usuellement n) ou de la population (noté usuellement N) ou de sous-populations ou sous- échantillons … |
06 |
taux de sondage |
rapport de la taille de l'échantillon sur la taille de la population |
07 |
échantillon aléatoire (ou probabiliste) |
échantillon sélectionné selon une procédure aléatoire (et en utilisant un générateur de nombres pseudo-aléatoires ou une table de nombres au hasard) |
خاص | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | أ | إ | آ | ا | ب | ت | ث | ج | ح | خ | د | ذ | ر | ز | س | ش | ص | ض | ط | ظ | ع | غ | ف | ق | ك | ل | م | ن | ه | و | ي | الكل