Skip to main content

Méthodologie du Pipeline

Cette page décrit les choix scientifiques et techniques qui sous-tendent chaque étape du pipeline, de l'acquisition des données brutes à l'évaluation finale du modèle.


1

Téléchargement et Gestion des Données

Le pipeline commence par une acquisition robuste des données brutes. L'objectif est de constituer une base de données locale, propre et organisée.

  • Téléchargement Automatisé : Des scripts récupèrent les fichiers FITS en masse depuis les serveurs officiels (LAMOST).
  • Parsing de Catalogue : Les métadonnées des catalogues d'observation sont lues et associées à chaque spectre.
  • Gestion Locale : Les données sont organisées dans une structure de dossiers prévisible (data/raw/, data/catalog/).
2

Prétraitement et Contrôle Qualité

Les spectres bruts ne sont pas directement utilisables. Une étape de nettoyage rigoureuse est appliquée pour préparer les données à l'analyse.

  • Normalisation : Le flux est normalisé pour rendre les spectres comparables entre eux.
  • Ajustement du Continuum : Un pseudo-continuum est soustrait pour isoler les raies spectrales de la forme globale du spectre.
  • Déni de Bruit (Denoising) : Des filtres (ex: Savitzky-Golay) sont appliqués pour réduire le bruit, en particulier sur les spectres à faible SNR.
3

Extraction de Features Physiques

C'est le cœur de notre approche "hybride". Au lieu de donner le spectre brut au modèle, nous extrayons des informations physiquement pertinentes.

  • Identification des Raies : Le pipeline identifie les raies astrophysiques majeures (Hα, Hβ, CaII K&H...).
  • Mesures Physiques : Pour chaque raie, des mesures quantitatives sont calculées (FWHM, profondeur, largeur équivalente...).
4

Entraînement et Validation des Modèles

Avec un jeu de données de features "propres", nous entraînons des modèles de Machine Learning pour la classification.

  • Modèles Flexibles : Le pipeline supporte des modèles comme Random Forest et SVM, et est conçu pour être extensible.
  • Validation Robuste : La performance est évaluée rigoureusement via validation croisée (k-fold) pour éviter le sur-apprentissage.
5

Évaluation et Reporting

Un modèle n'est utile que si l'on peut comprendre et faire confiance à ses prédictions.

  • Métriques Standards : Matrices de confusion, scores de précision, rappel, et F1-score sont calculés.
  • Visualisations Clés : Courbes ROC et diagrammes d'importance des features aident à interpréter le comportement du modèle.