Méthodologie du Pipeline

Cette page décrit les choix scientifiques et techniques qui sous-tendent chaque étape du pipeline AstroSpectro, de l'acquisition des données brutes à l'évaluation finale du modèle. Notre approche est itérative et guidée par les données.

Le pipeline commence par une acquisition robuste et reproductible des données. L'objectif est de constituer une base de données locale, propre et dont l'état est suivi.

Téléchargement Intelligent : Un script SmartDownloader récupère les fichiers FITS en masse, en utilisant une stratégie round-robin pour garantir la diversité des plans d'observation.
Gestion d'État : Le système utilise des fichiers journaux (downloaded_plans.csv, trained_spectra.csv) pour suivre les données déjà traitées et s'assurer qu'aucune opération n'est redondante, même entre plusieurs sessions.
Organisation Locale : Les données sont organisées dans une structure de dossiers prévisible (data/raw/, data/catalog/).

Les spectres bruts ne sont pas directement utilisables. Une étape de nettoyage rigoureuse est appliquée pour préparer les données à l'analyse.

Normalisation par la Médiane : Le flux est normalisé pour rendre les spectres comparables, en utilisant la médiane comme référence robuste aux outliers.
Lissage Ciblé (Savitzky-Golay) : Pour les analyses fines (FWHM, skewness), un filtre Savitzky-Golay est appliqué localement sur les fenêtres des raies pour réduire le bruit tout en préservant la forme du signal.
Gestion des Données Manquantes : Les features qui ne peuvent être calculées (ex: FWHM sur un spectre trop bruité) sont traitées via une imputation par constante (zéro) pour préserver l'information de "non-détection".

C'est le cœur de notre approche. Nous extrayons des informations physiquement pertinentes, combinant des mesures spectrales et des métadonnées contextuelles.

Identification des Raies Clés : Le pipeline identifie les raies astrophysiques majeures (Hα, Hβ, CaII K&H, Mg_b, Na_D).
Mesures Physiques : Pour chaque raie, nous mesurons sa force (prominence) et sa largeur (FWHM).
Features de Contexte : Nous avons démontré que les métadonnées de l'observation (redshift, SNR, seeing) et les indices de couleur sont des prédicteurs extrêmement puissants.
Ratios de Raies : Des ratios de force (ex: CaII K / Hβ) sont calculés pour fournir des indicateurs de température robustes.

Avec un jeu de features riche, nous entraînons et optimisons systématiquement nos modèles de Machine Learning.

Benchmark de Modèles : Le pipeline est multi-modèle et permet de comparer facilement les performances de RandomForest et XGBoost.
Validation Croisée Stratifiée : La performance est évaluée rigoureusement via validation croisée (k-fold) pour garantir la fiabilité des scores et éviter le sur-apprentissage.
Tuning d'Hyperparamètres (GridSearchCV) : Nous recherchons systématiquement la meilleure configuration de paramètres pour chaque modèle, assurant une performance optimale.
Gestion du Déséquilibre (SMOTE) : La technique de sur-échantillonnage SMOTE est intégrée pour compenser le déséquilibre des classes dans le jeu de données.

Un modèle n'est utile que si l'on peut comprendre et faire confiance à ses prédictions.

Rapports Complets : Des rapports de session JSON sont générés automatiquement, contenant les métriques, les paramètres du modèle, et la liste des fichiers utilisés pour une traçabilité parfaite.
Visualisations Clés : Les matrices de confusion et les graphiques d'importance des features sont générés pour chaque entraînement, permettant une analyse fine des erreurs et de la logique du modèle.

Méthodologie du Pipeline

Téléchargement et Gestion des Données

Prétraitement et Contrôle Qualité

Extraction de Features (Feature Engineering)

Entraînement et Validation des Modèles

Évaluation et Reporting