Aller au contenu principal

Dataset — LAMOST DR5 × Gaia DR3

Ce document décrit le jeu de données utilisé dans le cadre du projet PHY-3500 et de l'article «La réduction de dimension conserve-t-elle l'essentiel de l'information physique des spectres stellaires ?» (Baker, Caillat & Jean, 28 avril 2026). Il constitue la base de toutes les analyses de réduction de dimension présentées dans ce projet.

N
43 019
Spectres retenus
LAMOST DR5 filtrés
p
183
Descripteurs
spectroscopiques purs
λ
3690–9100
Couverture spectrale
Ångströms
R
≈ 1800
Résolution
basse résolution
1″
Croisement Gaia
rayon angulaire

2.1 Sources

LAMOST DR5 — Large Sky Area Multi-Object Fiber Spectroscopic Telescope

LAMOST (Cui et al., 2012) est un télescope chinois dédié à la spectroscopie multi-objets à grande échelle. La cinquième publication de données (Data Release 5) couvre :

ParamètreValeur
Couverture spectrale3690–9100 Å
Résolution spectraleR ≈ 1800 (basse résolution)
Nombre de spectres total DR5> 9 millions
Nombre de canaux par spectre (flux brut)3 921

Les spectres sont distribués au format FITS, avec un en-tête contenant les métadonnées d'observation (coordonnées, identifiants, type spectral LAMOST, redshift mesuré, SNR par bande).

À cette résolution, l'inspection visuelle individuelle est impossible : l'analyse automatisée est une nécessité, pas un choix. C'est précisément ce qui motive le développement de méthodes de réduction de dimension et de classification automatique.


Gaia DR3 — Gaia Data Release 3

Gaia DR3 (Gaia Collaboration, Vallenari et al., 2023) fournit les paramètres astrophysiques de référence utilisés pour valider et interpréter les résultats :

ParamètreSymboleUnitéRôle dans le projet
Température effectiveT_effKValidation de PC1 (ρ = +0,831)
Gravité de surfacelog gdexDistinction naines/géantes
Métallicité[Fe/H]dexValidation de PC2
Photométrie BP/RPG_BP, G_RPmagCouleurs photométriques
ParallaxeπmasDistance, magnitude absolue
Mouvement propreμα, μδmas/yrVitesse tangentielle
ExtinctionA_GmagCorrection de rougissement

Croisement positionnel LAMOST × Gaia

Le croisement est réalisé par coordonnées angulaires avec un rayon de tolérance de 1 arcseconde. Ce rayon est suffisamment conservateur pour éviter les fausses associations dans des champs peu denses, tout en assurant un taux de croisement élevé pour les étoiles de la Voie Lactée.

Le croisement est géré par gaia_crossmatcher.py dans le pipeline AstroSpectro. Il produit un catalogue maître fusionnant les colonnes LAMOST et Gaia pour chaque spectre apparié.


2.2 Jeu de données final

Filtres qualité appliqués

Deux filtres sont appliqués séquentiellement avant toute analyse :

Entrée :~250kcandidats LAMOST DR5→→SNRRUWE→→43 019retenus
1
LAMOST DR5
Rapport signal / bruit
SNR_r > 10
Seuls les spectres avec un SNR en bande rouge supérieur à 10 sont conservés. Ce seuil garantit que les raies spectrales sont détectables et que les mesures de largeur équivalente sont fiables.
2
Gaia DR3
Qualité astrométrique
RUWE < 1.4
Le Renormalised Unit Weight Error (RUWE) de Gaia mesure la qualité de l'ajustement astrométrique. Une valeur < 1.4 garantit une solution de mouvement propre simple, excluant les étoiles doubles non résolues.
Jeu de données final : N = 43 019 spectres · p = 183 descripteurs · matrice X ∈ ℝ^(43019 × 183)

Variables supprimées

Avant la construction de la matrice de descripteurs, les variables suivantes ont été explicitement retirées :

VariableSourceRaison
raLAMOSTCoordonnée angulaire — biais géographique observationnel
decLAMOSTCoordonnée angulaire — même raison
redshiftLAMOSTMétadonnée instrumentale — biais non physique
Fuite de données (feature leakage)

Ces trois variables possèdent un pouvoir discriminant artificiel : elles encodent et quand le spectre a été observé, pas les propriétés physiques de l'étoile. Un modèle entraîné avec ra ou dec apprend à classifier les étoiles par position dans le ciel — corrélée avec les types spectraux via les programmes d'observation de LAMOST — plutôt que par leur physique réelle. Dans le pipeline AstroSpectro, ce mode d'exclusion est activé via spectro_only=True.


Composition finale

99.85% étoiles
Étoiles42 956(99.85%)
Population principale — toutes les analyses
Galaxies56(0.13%)
Trop rare — exclues du clustering HDBSCAN
QSO7(0.02%)
Erreur de reconstruction ×107 — détection d'anomalies

La grande majorité des spectres étant des étoiles, les analyses de réduction de dimension et de classification se concentrent sur la population stellaire. Les galaxies et QSO sont trop rares (63 objets combinés) pour être intégrés à l'analyse HDBSCAN de façon statistiquement significative.


Les 183 descripteurs

Les 183 descripteurs se répartissent en six familles physiques. Les couleurs correspondent aux couleurs spectrales approximatives des raies concernées :

Raies de Balmer
Hα – Hθ
~35
Série de l'hydrogène en absorption. Indicateur thermique primaire : force maximale vers 10 000 K (type A), s'affaiblit vers M et vers O.
Hα 6563 Å · Hβ 4861 Å · Hγ 4341 Å · Hδ 4102 Å · Hθ 3798 Å
→ PCA :PC1 (Balmer : 31.5%)
Ca II H&K + triplet IR
H 3968 · K 3933 · IR 8498–8662
~20
Calcium ionisé en absorption. Sensible à la fois à la métallicité ([Ca/H]) et à l'activité magnétique stellaire (remplissage en émission).
Ca II H 3968 Å · Ca II K 3933 Å · IR triplet 8498, 8542, 8662 Å
→ PCA :PC1 (Ca : 22.4%) · SHAP top-3
Magnésium & indices α
Mg b · Mg I 5184 · Mg II
~15
Triplet Mg b et raies du magnésium. Traceurs de l'enrichissement en éléments α — discrimine les populations du halo et du disque galactique.
Mg b 5167–5183 Å · Mg I 5184 Å · Mg II 4481 Å
→ PCA :PC1 (W(Mgb) = −0.171)
Fer & métaux du pic
Fe, Cr, V, Ni, Ba, Sr...
~30
Raies des métaux du pic du fer. Mesure directe de l'abondance en fer et des métaux lourds. Dominantes dans PC2.
Fe I 5270, 5335 Å · Cr I · V I · Ni I · Ba II · Sr II
→ PCA :PC2 ([Fe/H]proxy : 0.205)
Indices Lick / SDSS / CaH
Indices Lick IDS · CaH · TiO
~18
Indices spectroscopiques standardisés. Combinaisons de bandes larges calibrées pour mesurer âge et métallicité des populations stellaires.
Indices Lick IDS · CaH1, CaH2 · TiO1, TiO2 · SDSS composites
→ PCA :PC2 (Idxmétal : 0.198)
Continuum · pentes · couleurs
Ratios de flux · indices photom.
~65
Forme globale du continu spectral. Plus grande famille en nombre. Encode la température via la pente de corps noir et la luminosité via les sauts spectraux.
fbleu/frouge · B−V synthétique · pentes locales · indices photométriques
→ PCA :PC1 (continuum : fbleu/frouge = 0.161)
183 descripteurs · 6 familles spectroscopiques · catalogue exhaustif →

2.3 Standardisation

Transformation z-score

Avant toute analyse, chaque descripteur jj est standardisé en scores z :

x~ij=xijxˉjsj\tilde{x}_{ij} = \frac{x_{ij} - \bar{x}_j}{s_j}

xˉj\bar{x}_j et sjs_j sont la moyenne et l'écart-type empiriques calculés sur l'ensemble des N=43019N = 43\,019 spectres.

Cette étape est indispensable pour la PCA et vivement recommandée pour UMAP et t-SNE.

Pourquoi standardiser ?

Sans standardisation, les descripteurs à grande variance (typiquement les flux bruts intégrés sur de larges fenêtres) domineraient artificiellement les premières composantes principales, indépendamment de leur contenu physique réel. Par exemple, un indice de continuum calculé sur 100 Å a mécaniquement plus de variance absolue qu'une largeur équivalente mesurée sur 2 Å, sans que cela reflète une différence d'importance physique.

La standardisation place tous les descripteurs sur un pied d'égalité en termes de variance (variance = 1 après transformation), laissant à la PCA le soin de découvrir les directions de variance réelle dans l'espace physique.

Implémentation

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X) # X : (43019, 183)

La standardisation est calculée uniquement sur le jeu d'entraînement et appliquée sans recalcul sur tout nouveau spectre à classifier, conformément aux bonnes pratiques pour éviter la fuite d'information (data leakage).


Accès aux données

SourceURLFormat
LAMOST DR5 spectreshttp://dr5.lamost.org/FITS
Gaia DR3 archivehttps://gea.esac.esa.int/archive/VOTable / CSV

Le téléchargement automatisé des spectres FITS est géré par dr5_downloader.py dans le pipeline AstroSpectro. Voir le guide de téléchargement pour les instructions détaillées.