Catalogue des 183 descripteurs spectraux
Ce document recense les 183 descripteurs spectroscopiques qui constituent la matrice de données centrale du projet AstroSpectro. Ils ont été extraits à partir de N = 43 019 spectres LAMOST DR5 et validés par croisement avec Gaia DR3. C'est sur ce jeu de descripteurs que sont appliquées la PCA, l'UMAP, le t-SNE et le classifieur XGBoost du pipeline.
Ce catalogue correspond exactement au jeu de données décrit dans le rapport Baker, Caillat & Jean, «La réduction de dimension conserve-t-elle l'essentiel de l'information physique des spectres stellaires ?», PHY-3500, Université Laval, 28 avril 2026.
Vue d'ensemble
Deux niveaux de lecture
Les 183 descripteurs peuvent être lus selon deux grilles complémentaires.
La grille physique (6 familles, utilisée dans le rapport PHY-3500) regroupe les descripteurs par l'observable astrophysique qu'ils mesurent — c'est le cadre utilisé pour interpréter les loadings PCA et les clusters HDBSCAN.
La grille technique (9 familles, issue du module feature_engineering.py V2) reflète l'architecture du code — c'est le cadre utile pour comprendre comment les descripteurs sont calculés.
Répartition des 183 descripteurs par famille physique
Le nombre exact de descripteurs actifs est déterminé au premier appel de FeatureEngineer.extract_features() via _populate_feature_names() (ordre alphabétique stable). Le module feature_engineering.py V2 déclare 174 features spectrales pures ; les 9 features restantes proviennent des fonctions post-merge (add_gaia_derived_features, add_photometric_composites) appelées après le croisement avec le catalogue.
Couverture spectrale — positions des raies sur le spectre LAMOST
La visualisation ci-dessous montre où se situent les raies de chaque famille dans la couverture spectrale LAMOST (3 690–9 100 Å). Le trait vertical indique la séparation entre le bras bleu et le bras rouge du spectrographe.
Variables exclues du jeu de données PHY-3500
Avant toute analyse, les variables suivantes ont été supprimées du jeu de données initial :
ra⦵dec⦶redshift⤆spectro_only=TrueDans le pipeline supervisé AstroSpectro, ces variables sont exclues via le paramètre spectro_only=True du SpectralClassifier. Elles constituent un exemple de fuite de données (feature leakage) : leur pouvoir discriminant provient du contexte d'observation, pas des propriétés physiques intrinsèques de l'étoile. Les résultats publiés (87 % de précision équilibrée, ROC-AUC ~0,964) utilisent exclusivement des descripteurs spectraux.
Familles physiques détaillées
Famille 1 — Raies de Balmer (Hα–Hθ)
Les raies de la série de Balmer (transitions vers le niveau n=2 de l'hydrogène) sont les indicateurs de température les plus puissants de l'espace spectral LAMOST. Elles contribuent à 31,5 % de la variance de PC1 (axe thermique) dans l'analyse PCA du jeu de 183 descripteurs.
Ratios de raies de Balmer extraits :
feature_balmer_ratio_gamma_beta: W(Hγ) / W(Hβ)feature_balmer_ratio_delta_gamma: W(Hδ) / W(Hγ)feature_balmer_temperature_index: (γ/β + δ/γ) / 2 — les étoiles chaudes tendent vers 1, les froides dépassent 1
Lien avec la PCA : ρ(PC1, Teff) = +0,831 (Spearman, N = 43 019). W(Hα) est le premier loading absolu de PC1 (w = +0,173).
Famille 2 — Calcium ionisé — Ca II H&K et triplet IR
Les raies Ca II H (3968 Å) et K (3934 Å) sont des indicateurs de métallicité et de gravité de surface. Le triplet IR (8498, 8542, 8662 Å) est sensible à la chromosphère et à l'activité magnétique.
Indices composites Ca II :
EW_CaHK_sum: W(Ca II K) + W(Ca II H) — proxy de métallicité globalratio_EW_CaK_CaH: rapport des largeurs équivalentes H/Kfeature_ratio_prom_CaK_Hbeta: prominence(Ca II K) / prominence(Hβ) — proxy robuste de température
Contribution aux axes PCA : Le calcium contribue à 22,4 % de la variance de PC1 (second groupe après Balmer), confirmant son rôle d'indicateur thermique. La corrélation ρ(PC1, [Fe/H]) = −0,548 montre que PC1 capture aussi une part de la métallicité.
Famille 3 — Magnésium et raies α — Mg b, Mg 5184, [α/Fe]
Le triplet Mg b (autour de 5175 Å) et les indices α sont sensibles à la métallicité et à l'abondance relative des éléments α par rapport au fer — indicateur de l'histoire chimique de l'étoile (populations I/II).
Ratios impliquant Mg b :
feature_ratio_prom_Mgb_Hbeta: prominence(Mg b) / prominence(Hβ)ratio_EW_MgB_NaD: rapport W(Mg b) / W(Na D)contrast_metals_vs_balmer: contraste Mg/Ca vs Balmer — proxy de [Fe/H]
Proxies composites :
feature_FeH_proxy: estimé depuis l'indice métallique combinéfeature_alpha_Fe_proxy: log10(α_index / iron_index), borné entre −0,5 et +0,5
Famille 4 — Fer et métaux de pic de fer — Fe, Cr, V, Ni, Ba, Sr, Al, Co
Cette famille regroupe les raies des éléments du pic de fer, sensibles à la métallicité globale [Fe/H]. Elle domine PC2 avec 43,3 % de la variance — PC2 est l'axe métallicité du jeu de descripteurs.
specutils.analysis.equivalent_width. Composites : feature_metal_index_combined, feature_iron_peak_index, feature_alpha_elements_index.Famille 5 — Indices de métallicité composites — Lick, SDSS, CaII triplet
Les indices spectraux sont des mesures standardisées du flux dans des fenêtres spectrales étroites, calculées par rapport à un pseudo-continuum local. Ils permettent des comparaisons directes avec les bibliothèques de population stellaire (Lick/IDS, SDSS).
Famille 6 — Descripteurs du continuum — pentes, courbures, sauts, couleurs
Les descripteurs du continuum capturent la morphologie globale du spectre sans se focaliser sur des raies individuelles. Ils encodent la température effective (pente et couleur du continuum), la classe de luminosité (sauts), et la qualité de l'observation.
Pentes locales (sigma-clippées, σ = 2,5)
Bandes moléculaires — TiO, VO, CN, CH, CaH, MgH
Les bandes moléculaires sont les signatures spectrales des étoiles les plus froides (types K tardifs et M). Elles apparaissent dans les clusters HDBSCAN correspondant aux naines K-M dans l'espace UMAP.
flux_bande / flux_continuum. Ces bandes apparaissent dans les clusters HDBSCAN correspondant aux naines K-M dans l'espace UMAP.Corrélations avec les paramètres Gaia DR3
Le tableau suivant présente les corrélations de Spearman entre PC1/PC2 et les paramètres astrophysiques Gaia DR3 (N = 43 019 étoiles). L'intensité de couleur reflète |ρ| — survoler une cellule pour voir l'interprétation.
Les 5 premiers loadings de PC1 et PC2
Extrait du rapport PHY-3500, Table 2. Les barres signées montrent la direction et l'amplitude de la contribution de chaque descripteur à son axe principal.
Figures de référence
Les figures suivantes illustrent l'importance relative des familles de descripteurs et la structure des loadings PCA. Cliquer sur une image pour l'agrandir.
Référence dans le code
from src.pipeline.feature_engineering import FeatureEngineer
fe = FeatureEngineer()
# Extraction pour un spectre
vec = fe.extract_features(matched_lines, wl, flux_norm, invvar)
# Nombre de descripteurs (déterminé au premier appel)
print(len(fe.feature_names)) # → 174 (spectraux purs)
# Post-merge : ajout des descripteurs dérivés Gaia
from src.pipeline.feature_engineering import (
add_gaia_derived_features,
add_photometric_composites,
add_line_composites,
)
df, new_cols = add_gaia_derived_features(df) # bp_g, M_G, v_tan, etc.
df, mod_cols = add_photometric_composites(df) # bp_g, color_ug, Q_parameter
df, lc_cols = add_line_composites(df) # EW_CaHK_sum, ratios EW/FWHM
Pour activer le mode spectroscopique pur (sans Gaia, sans redshift/ra/dec) :
from src.pipeline.classifier import SpectralClassifier
clf = SpectralClassifier(model_type="XGBoost", prediction_target="main_class")
clf.train_and_evaluate(features_df, spectro_only=True)





