-
La statistique est la branche des mathématiques qui consiste à recueillir des données, puis à les analyser afin d'établir des hypothèses utilisées pour prédire des évènements.
-
Les statistiques sont les données recueillies et celles obtenues à partir de calculs.
Les données recueillies lors d’une étude statistique forment ce qu’on appelle une distribution.
-
Une distribution à une variable est un ensemble de données recueillies au cours d’une étude statistique portant sur un seul caractère.
-
Une distribution à 2 variables est un ensemble de couples de données recueillies au cours d’une même étude statistique portant sur 2 caractères.
Les distributions à 2 variables permettent d’étudier la variation des 2 caractères l’un par rapport à l’autre et d’établir de possibles corrélations entre les 2. Les tableaux à double entrée ainsi que les nuages de points permettent de représenter ce genre de distribution.
Une donnée aberrante est une donnée qui est éloignée des autres données de la distribution.
Une donnée aberrante peut indiquer une erreur lors de la collecte de données ou tout simplement indiquer une donnée plus rare, mais qui existe tout de même. Elle peut avoir un impact sur l’analyse des données. On peut donc décider de ne pas en tenir compte pour avoir une analyse plus juste de l’ensemble des données. Il est possible d’utiliser la notion d’étendue interquartile pour calculer les bornes au-delà desquelles on considère qu’une donnée est aberrante.
Dans un quartier, en 2022, toutes les maisons à vendre se sont vendues entre |225\ 000\ \$| et |450\ 000\ \$,| sauf une qui s'est vendue |1\ 375\ 000\ \$| parce qu'il s'agit d'une maison exceptionnelle. On considère que le prix de cette maison est une donnée aberrante et on pourrait décider d'exclure cette maison des calculs statistiques, comme la moyenne.