Aller au contenu principal

Théorie de l'Extraction de Features

L'extraction de features (ou "feature engineering") est sans doute l'étape la plus cruciale de ce pipeline. Elle consiste à transformer un signal complexe et de haute dimension (un spectre de milliers de points) en un petit nombre de valeurs numériques pertinentes (un "vecteur de features") que le modèle de Machine Learning peut utiliser.

Notre Approche : Physique d'Abord (Physics-Informed)

Plutôt que d'adopter une approche "boîte noire" (comme donner directement le spectre brut à un réseau de neurones profond), notre pipeline utilise une approche hybride et interprétable :

  1. Informer par la Physique : Nous utilisons notre connaissance de l'astrophysique pour identifier les régions les plus importantes d'un spectre : les raies spectrales.
  2. Quantifier l'Information : Nous ne nous contentons pas de savoir qu'une raie existe, nous la transformons en plusieurs features numériques qui décrivent ses propriétés physiques.
  3. Apprentissage Supervisé : Nous donnons ce vecteur de features, qui est beaucoup plus petit et plus riche en information que le spectre brut, à un modèle de ML classique (comme RandomForest ou XGBoost) pour qu'il apprenne les relations complexes entre ces features et le type spectral.
Avantages de cette approche
  • Interprétabilité : Il est beaucoup plus facile de comprendre pourquoi un modèle a pris une décision en regardant l'importance de la feature "Largeur de Hα" plutôt qu'en analysant des milliers de poids dans un réseau de neurones.
  • Robustesse : En se concentrant sur des features physiques, le modèle est moins sensible au bruit et aux variations instrumentales du spectre brut.
  • Efficacité : Les modèles classiques sont beaucoup plus rapides à entraîner sur quelques dizaines de features que des modèles profonds sur des spectres complets.

Les Types de Features Utilisées

Le pipeline AstroSpectro construit un vecteur de features riche en combinant trois familles d'informations complémentaires, ce qui a permis de faire passer la précision de notre modèle de 32% à plus de 80%.

1. Features Physiques des Raies

Ce sont des mesures directes des propriétés des raies d'absorption clés (, , CaII K&H, Mg_b, Na_D).

  • Force (Prominence) : Mesure la profondeur de la raie par rapport au continuum local. C'est un indicateur de la force de la transition atomique.
  • Largeur (FWHM) : La "Largeur à Mi-Hauteur" de la raie. En astrophysique, elle est souvent liée à la pression et à la gravité de surface de l'étoile, ce qui en fait un excellent indicateur.

2. Features de Ratio et de Continuum

Ces features ne décrivent pas une seule raie, mais les relations entre elles ou la forme globale du spectre.

  • Ratios de Force : Nous calculons des ratios entre les prominences de différentes raies (ex: CaII K / Hβ). Ces ratios sont d'excellents proxies de la température de l'étoile, car la force relative des raies métalliques et des raies de l'hydrogène change avec la température.
  • Indice de Couleur : Un ratio du flux moyen dans la partie bleue du spectre sur le flux dans la partie rouge. C'est une mesure simple de la pente du continuum, également directement liée à la température.

3. Features Contextuelles (Métadonnées)

Notre analyse a montré que le contexte de l'observation est crucial. Nous incluons donc directement des métadonnées issues du header FITS comme features.

  • Rapport Signal/Bruit (snr_*) : Indique au modèle la qualité de la mesure.
  • Redshift (redshift) : Renseigne sur la cinématique de l'objet.
  • Seeing : Renseigne sur les conditions d'observation.
Le Succès de l'Approche Hybride

La clé de la haute performance de notre modèle réside dans la synergie entre ces trois types de features. En combinant les propriétés physiques des raies, la forme globale du spectre et le contexte de l'observation, nous donnons au modèle une vue complète et nuancée de chaque étoile.