Sources de données ouvertes et gratuites pour des projets authentiques en statistiques, science, écologie et santé

Voici un panorama des meilleures portes d’entrée pour trouver des jeux de données crédibles — puis, plus bas, des idées d’analyses et de projets IA/ML directement exploitables en classe ou en laboratoire.

Où trouver les données

1) Données Québec

Portail fédérateur pour le gouvernement du Québec et de nombreuses municipalités (Québec, Laval, Sherbrooke, etc.). On y retrouve des jeux “environnement/santé”, dont les mesures du Réseau de surveillance de la qualité de l’air du Québec (RSQAQ). Le site offre aussi des pages “Explorer/Exploiter” pour apprendre à manipuler les ressources.

  • Lien vers la ressource : Données Québec
  • Exemple direct (RSQAQ – horaires continues et IQA temps réel, hors île de Montréal) : Canada Ouvert
  • Page gouvernementale d’introduction aux données ouvertes (définitions/licences): Québec

2) Données ouvertes du Canada

Le Portail du gouvernement ouvert donne accès aux jeux fédéraux et, via l’initiative de fédération, facilite la recherche inter-juridictions (provincial/municipal) depuis ouvert.canada.ca.

  • À surveiller aussi du côté de Statistique Canada : LODE – Linkable Open Data Environment, utile pour croiser des données municipales, provinciales et fédérales sous licence OGL-Canada. Statistique Canada

3) Portails municipaux

  • Ville de Québec : les jeux sont publiés via Données Québec (accès centralisé). Ville de Québec
  • Ville de Montréal : portail riche (données environnement, îlots de chaleur, RSQA municipal, etc.). donnees.montreal.ca

4) RevolvAir / Limoil’Air – données citoyennes de qualité de l’air

Démarche de science citoyenne à Limoilou : données ouvertes et applications d’analyse (RevolvAir Dash), articles méthodologiques, et diffusion locale/médiatique. Idéal pour relier mesures citoyennes et données officielles RSQAQ. RevolvAir.org

5) Kaggle

Grand répertoire communautaire de jeux de données et de notebooks réutilisables (climat, pollution, santé environnementale, imagerie satellite, etc.). On peut y récupérer des référentiels ou partager des notebooks reproductibles. Kaggle


Idées concrètes d’analyses statistiques et de projets IA/ML

Les propositions ci-dessous s’appuient sur des jeux que vous pouvez réellement télécharger (RSQAQ, portails municipaux, Open Canada, RevolvAir et Kaggle).

A. Séries temporelles & conformité aux normes

  • Tâche : calculer les moyennes horaires/journalières/roulantes (24 h) de PM2.5, SO₂, H₂S, NO₂, etc., puis compter les dépassements selon différentes lignes directrices (p. ex. OMS/Canada/Québec).
  • Données : RSQAQ “horaires continues”, “Indice de qualité de l’air”, stations; données citoyennes RevolvAir/Limoil’Air. Canada Ouvert
  • Techniques : lissage (MA, EWMA), détection d’épisodes (seuils), saisonnalité (STL), jours de dépassement par saison/quartier.

B. Cartographie & interpolation spatiale

  • Tâche : créer des cartes de pollution (PM2.5/NO₂) et superposer des couches municipales (zones résidentielles, industries, réseau routier, canopée).
  • Données : RSQAQ + couches municipales (Montréal/Québec), répertoires géo provinciaux. donnees.montreal.ca
  • Techniques : krigeage IDW, “hotspots”, buffers autour d’infrastructures, analyse spatio-temporelle (hexbin par heure).

C. Exposition & santé (éco-épidémiologie descriptive)

  • Tâche : relier indicateurs d’exposition (PM2.5 24 h, NO₂ hebdo) à des proxys de santé publique (p. ex. AQHI, consultations respiratoires agrégées si disponibles) ou vulnérabilités (îlots de chaleur, indice de défavorisation).
  • Données : Open Canada (AQHI et météo), municipal (îlots de chaleur), StatCan (contextes socio-démographiques) via LODE. Gouvernement ouvert du Canada
  • Techniques : modèles additifs généralisés (GAM), régressions multivariées, analyse de sensibilité (météo comme covariable).

D. Détection d’anomalies & attribution d’épisodes

  • Tâche : repérer automatiquement les “pics” (p. ex. feux de forêt, chauffage au bois, activité industrielle) et caractériser leur signature multi-polluants.
  • Données : RSQAQ (H₂S/SO₂ pour signaux industriels, PM2.5 pour fumée), Limoil’Air (maillage fin) + événements médiatisés locaux. Données Québec
  • Techniques : Isolation Forest, STL-residual peaks, changepoint detection, corrélations croisés vent-polluant.

E. Prévision courte échéance

  • Tâche : prévoir les concentrations de PM2.5 à 1–24 h à partir des historiques, de la météo, du trafic et d’indicateurs industriels.
  • Techniques : modèles SARIMAX/Prophet, XGBoost/LightGBM, LSTM/Temporal Fusion Transformer; évaluation par backtesting glissant.

F. Apprentissage supervisé pour la classification des épisodes

  • Tâche : labelliser des segments temporels (épisode “feu de forêt”, “chauffage résidentiel”, “industriel”, “trafic”), puis entraîner un modèle pour la reconnaissance automatique.
  • Données : signaux multi-polluants (H₂S/SO₂/NO₂/O₃/PM2.5), météo, direction/force du vent; annotations issues d’articles RevolvAir et sorties RSQAQ. Données Québec
  • Techniques : features statistiques/FFT, Random Forest/XGBoost; validation par événements datés.

G. Tableaux de bord et science citoyenne

  • Tâche : construire un dashboard pédagogique (cartes + séries + comparateur de normes) et publier le code.
  • Données : flux RSQAQ (IQA temps réel) et historiques; ajouts locaux (journal des activités). Géo.ca
  • Outils : Python (pandas/plotly), R (shiny), JS (Vue/Leaflet), notebooks Kaggle pour reproductibilité. Kaggle

Conseils pratiques

Licences, qualité, reproductibilité

  • Licences & mentions : respecter l’Open Government Licence – Canada et les avis propres à Données Québec/municipalités; garder les métadonnées (source, date, version). Gouvernement ouvert du Canada
  • Traçabilité : consigner l’URL du jeu de données, l’horodatage de téléchargement, le hash du fichier; joindre un data dictionary minimal.
  • Validation : comparer les agrégations avec les statistiques officielles RSQAQ (fichiers “statistiques descriptives/IQA”) pour détecter des écarts.
  • Éthique : éviter l’identification d’individus; privilégier des agrégations spatiales/temporales adaptées.

Exercices pour les étudiant.e.s

  1. Comparateur de normes PM2.5
    Télécharger RSQAQ (2010-2025), calculer les moyennes journalières/24 h roulantes, compter les dépassements par saison et par station; publier 3 graphiques (séries, distribution, calendar heatmap) + table de dépassements. Ouvert Canada
  2. Carte des épisodes H₂S/SO₂
    Fusionner mesures 4-min avec vents; détecter pics, regrouper par direction de vent dominante; carte fléchée des trajectoires plausibles. Données Québec
  3. Nowcasting PM2.5 quartier Limoilou
    Croiser Limoil’Air (stations citoyennes) et RSQAQ officiel; météo; modèle Gradient Boosting pour H+1/H+6; tableau d’erreurs MAPE/MAE et fiabilité par quartiles. RevolvAir.org
  4. Dashboard municipal éco-santé
    Superposer pollution, canopée, points d’intérêt sensibles (écoles, CHSLD), et îlots de chaleur (Montréal/Québec); produire 3 indicateurs synthèse par quartier. donnees.montreal.ca
  5. Notebook Kaggle de réplication
    Publier votre pipeline (ingestion → nettoyage → features → modèle → éval) comme dans un notebook Kaggle, avec données ouvertes et jeu synthétique pour la démo. Kaggle

Mot de la fin

L’écologisation et la santé publique gagnent à s’appuyer sur des situations réelles, locales et mesurables. Les portails Données Québec et Open Government Canada, les données municipales et les initiatives RevolvAir/Limoil’Air offrent une matière première exceptionnelle pour enseigner la statistique appliquée, l’analyse géospatiale et l’IA responsable avec des retombées concrètes pour nos quartiers.