Méthodologie du Pipeline
Cette page décrit les choix scientifiques et techniques qui sous-tendent chaque étape du pipeline, de l'acquisition des données brutes à l'évaluation finale du modèle.
Téléchargement et Gestion des Données
Le pipeline commence par une acquisition robuste des données brutes. L'objectif est de constituer une base de données locale, propre et organisée.
- Téléchargement Automatisé : Des scripts récupèrent les fichiers FITS en masse depuis les serveurs officiels (LAMOST).
- Parsing de Catalogue : Les métadonnées des catalogues d'observation sont lues et associées à chaque spectre.
- Gestion Locale : Les données sont organisées dans une structure de dossiers prévisible (
data/raw/
,data/catalog/
).
Prétraitement et Contrôle Qualité
Les spectres bruts ne sont pas directement utilisables. Une étape de nettoyage rigoureuse est appliquée pour préparer les données à l'analyse.
- Normalisation : Le flux est normalisé pour rendre les spectres comparables entre eux.
- Ajustement du Continuum : Un pseudo-continuum est soustrait pour isoler les raies spectrales de la forme globale du spectre.
- Déni de Bruit (Denoising) : Des filtres (ex: Savitzky-Golay) sont appliqués pour réduire le bruit, en particulier sur les spectres à faible SNR.
Extraction de Features Physiques
C'est le cœur de notre approche "hybride". Au lieu de donner le spectre brut au modèle, nous extrayons des informations physiquement pertinentes.
- Identification des Raies : Le pipeline identifie les raies astrophysiques majeures (Hα, Hβ, CaII K&H...).
- Mesures Physiques : Pour chaque raie, des mesures quantitatives sont calculées (FWHM, profondeur, largeur équivalente...).
Entraînement et Validation des Modèles
Avec un jeu de données de features "propres", nous entraînons des modèles de Machine Learning pour la classification.
- Modèles Flexibles : Le pipeline supporte des modèles comme
Random Forest
etSVM
, et est conçu pour être extensible. - Validation Robuste : La performance est évaluée rigoureusement via validation croisée (k-fold) pour éviter le sur-apprentissage.
Évaluation et Reporting
Un modèle n'est utile que si l'on peut comprendre et faire confiance à ses prédictions.
- Métriques Standards : Matrices de confusion, scores de précision, rappel, et F1-score sont calculés.
- Visualisations Clés : Courbes ROC et diagrammes d'importance des features aident à interpréter le comportement du modèle.