Échantillon (statistiques)

Cet article est une ébauche concernant les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Consultez la liste des tâches à accomplir en page de discussion.

En statistique, un échantillon est un ensemble d'individus représentatifs d'une population. L'échantillonnage vise à obtenir une meilleure connaissance d'une ou plusieurs population(s) ou sous-populations(s) par l'étude d'un nombre d'échantillons jugé statistiquement représentatif. Le recours à un plan d'échantillonnage répond en général à une contrainte pratique (manque de temps, de place, évaluation destructive d'une production, coût financier…) interdisant l'étude exhaustive de la population.

L'acte de sélection

Il s'appelle l'échantillonnage.

Pour garantir une bonne représentation, il s'agit en général d'un échantillon aléatoire, totalement ou partiellement.

La statistique s'est donc intéressée aux principes d'échantillonnage, dans le but de garantir ou au moins d'estimer la fiabilité de conclusions tirées de l'étude d'échantillons, mais étendues aux populations entières. Quelques-unes des préoccupations de la théorie de l'échantillonnage sont :

la capacité à capter la diversité du phénomène étudié ;
l'absence de biais ou erreur systématique ;
le lien entre la taille de l'échantillon et la confiance que l'on peut accorder à la généralisation des résultats.

Méthode

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

La stratégie d'échantillonnage est une étape essentielle de la conception des expériences scientifiques, avec ou sans traitement expérimental particulier, c'est-à-dire incluant les mesures sur un objet (métrologie) ainsi que, par exemple, les suivis environnementaux, sanitaires et la biométrie.

Les statisticiens supposent la population d'une taille donnée et lui associent une loi de probabilité, c'est le rôle de l'inférence statistique ou statistique mathématique. Dans ces conditions, l'échantillon est interprété comme un ensemble de variables aléatoires dont on possède une réalisation supposée issue de tirages indépendants. L'analyse des propriétés de l'échantillon permet d'estimer certaines caractéristiques de la population, de déterminer la validité de ces estimations ou de certaines hypothèses.

Dans les sondages d'opinion la théorie statistique obligerait à tenir à jour la liste des membres de la population, tirer au sort les heureux élus et interroger ceux-ci à l'exclusion de tous les autres. C'est évidemment impossible et les instituts tentent de bâtir ce qu'ils nomment un échantillon représentatif. Celui-ci doit obéir à un certain nombre de règles afin de s'assurer de sa représentativité qui exige l'indépendance des réponses. Le problème concerne la validité d'un tel choix. Il semblerait que, mieux elle est assurée, plus on se rapproche d'un sondage aléatoire avec ses limites parfaitement déterminées par la théorie (une enquête effectuée sur 1 000 personnes a 95 chances sur 100 de donner le résultat correct à ±3 % près, d'après le calcul de l'intervalle de fluctuation). Selon la plupart des instituts leurs résultats seraient meilleurs, ce qui demanderait quelques justifications.

Pour des populations élevées, la taille de d'échantillon se calcule avec la formule de Cochran :

n_{Cochran}

= t² × p × (1-p) / m²

$n_{Cochran}$ : Taille d'échantillon minimale pour l'obtention de résultats significatifs pour un événement et un niveau de risque fixé
t : Niveau de confiance (la valeur type du niveau de confiance de 95 % sera 1,96)
p : proportion estimée de la population qui présente la caractéristique
m : Marge d'erreur (généralement fixée à 5 %)

Ainsi, pour un événement ayant une probabilité de réalisation de 40 %, en prenant un niveau de confiance de 95 % et une marge d'erreur de 5 %, la taille d'échantillon devra être de

n_{Cochran}

= 1,96² × 0,4 × 0,6 / 0,05² = 368,79

soit 369 individus.

Autrement, pour des populations de taille plus faibles, on généralise la formule de Cochran de la manière suivante :

n = ${\frac {n_{Cochran}}{{\frac {n_{Cochran}-1}{N}}+1}}$

où N est la taille de la population à partir de laquelle l'échantillon est extrait^[1].

Le cas particulier des études faites dans le milieu naturel

De nombreuses études scientifiques dans le domaine de l'environnement ou de l'éco-épidémiologie nécessitent de robustes protocoles d'échantillonnage, qui dans la mesure du possible ne doivent pas globalement modifier ou affecter l'environnement étudié afin de ne pas biaiser les résultats^[2] ni perturber les écosystèmes.

Quand elles sont possibles, les techniques de type capture-marquage-recapture sont souvent préférables à des piégeages qui blessent ou tuent les animaux. Les progrès des études génétiques font que l'on peut maintenant utiliser des poils, plumes, cadavres ou excréments pour obtenir des informations qui nécessitaient autrefois des captures avec biopsies.

Certaines espèces sont naturellement caractérisées par des fluctuations annuelles (par exemple les hannetons ou certains criquets qui pullulent selon des cycles) ou certaines espèces très sensibles à la température et à la météo (ex : de nombreux pollinisateurs, papillons notamment qui n'apparaissent pas s'il fait trop froid ou par temps venteux ou pluvieux…), un plan d'échantillonnage étalé sur un pas de temps plus long est nécessaire aux études qui concernent leurs densités et dynamiques de population. Une étude trop courte peut être compromise ou biaisée par une météorologie défavorable^[2]. De même des prélèvements trop fréquents et/ou trop importants d'espèces rares et/ou dont la population ne se régénère que lentement déstructurent les populations et conduisent à des biais d'observation.

Dans certains cas (animaux très mobiles tels que les poissons migrateurs ou oiseaux) le recensement des individus doit tenir compte de la phénologie de l'espèce et se faire sur une période restreinte, ce qui permet de réduire les risques de doubles comptages et améliore la comparabilité d’une année ou d’un mois à l’autre. Ce type de suivis se fait généralement toujours à la même période de l’année et si possible dans les mêmes conditions et avec les mêmes observateurs. Le suivi des amphibiens est plus facile au moment de la reproduction où tous les individus reproducteurs sont rassemblés.

L'ATEN recommande notamment dans ce type de contexte de soigneusement choisir le plan d’échantillonnage, de bien définir le nombre pertinent d’échantillons, la taille des unités d’échantillonnage, le positionnement spatial et temporel des échantillons, les périodes et fréquences de relevés, la durée de l'étude. en fonction des objectifs et résultats attendus^[2].

Notes et références

↑ Sample Size in Statistics (How to Find it): Excel, Cochran’s Formula, General Tips [1]
↑ ^{a b et c} ATEN Fiche 72 : Études scientifiques en espaces naturels Outils de gestion et de planification, voir chap 1.3.7 - Définir les modalités de l’échantillonnage.

Articles connexes

[1] Sample Size in Statistics (How to Find it): Excel, Cochran’s Formula, General Tips [1]

[AtenFiche72-2] {a b et c} ATEN Fiche 72 : Études scientifiques en espaces naturels Outils de gestion et de planification, voir chap 1.3.7 - Définir les modalités de l’échantillonnage.

[1]

[2]