Dataset — LAMOST DR5 × Gaia DR3

Ce document décrit le jeu de données utilisé dans le cadre du projet PHY-3500 et de l'article «La réduction de dimension conserve-t-elle l'essentiel de l'information physique des spectres stellaires ?» (Baker, Caillat & Jean, 28 avril 2026). Il constitue la base de toutes les analyses de réduction de dimension présentées dans ce projet.

43 019

Spectres retenus

LAMOST DR5 filtrés

183

Descripteurs

spectroscopiques purs

3690–9100

Couverture spectrale

Ångströms

≈ 1800

Résolution

basse résolution

⊕

1″

Croisement Gaia

rayon angulaire

2.1 Sources

LAMOST DR5 — Large Sky Area Multi-Object Fiber Spectroscopic Telescope

LAMOST (Cui et al., 2012) est un télescope chinois dédié à la spectroscopie multi-objets à grande échelle. La cinquième publication de données (Data Release 5) couvre :

Paramètre	Valeur
Couverture spectrale	3690–9100 Å
Résolution spectrale	R ≈ 1800 (basse résolution)
Nombre de spectres total DR5	> 9 millions
Nombre de canaux par spectre (flux brut)	3 921

Les spectres sont distribués au format FITS, avec un en-tête contenant les métadonnées d'observation (coordonnées, identifiants, type spectral LAMOST, redshift mesuré, SNR par bande).

À cette résolution, l'inspection visuelle individuelle est impossible : l'analyse automatisée est une nécessité, pas un choix. C'est précisément ce qui motive le développement de méthodes de réduction de dimension et de classification automatique.

Gaia DR3 — Gaia Data Release 3

Gaia DR3 (Gaia Collaboration, Vallenari et al., 2023) fournit les paramètres astrophysiques de référence utilisés pour valider et interpréter les résultats :

Paramètre	Symbole	Unité	Rôle dans le projet
Température effective	T_eff	K	Validation de PC1 (ρ = +0,831)
Gravité de surface	log g	dex	Distinction naines/géantes
Métallicité	[Fe/H]	dex	Validation de PC2
Photométrie BP/RP	G_BP, G_RP	mag	Couleurs photométriques
Parallaxe	π	mas	Distance, magnitude absolue
Mouvement propre	μα, μδ	mas/yr	Vitesse tangentielle
Extinction	A_G	mag	Correction de rougissement

Croisement positionnel LAMOST × Gaia

Le croisement est réalisé par coordonnées angulaires avec un rayon de tolérance de 1 arcseconde. Ce rayon est suffisamment conservateur pour éviter les fausses associations dans des champs peu denses, tout en assurant un taux de croisement élevé pour les étoiles de la Voie Lactée.

Le croisement est géré par gaia_crossmatcher.py dans le pipeline AstroSpectro. Il produit un catalogue maître fusionnant les colonnes LAMOST et Gaia pour chaque spectre apparié.

2.2 Jeu de données final

Filtres qualité appliqués

Deux filtres sont appliqués séquentiellement avant toute analyse :

Entrée :~250kcandidats LAMOST DR5→→SNR→RUWE→→43 019retenus

LAMOST DR5

Rapport signal / bruit

SNR_r > 10

Seuls les spectres avec un SNR en bande rouge supérieur à 10 sont conservés. Ce seuil garantit que les raies spectrales sont détectables et que les mesures de largeur équivalente sont fiables.

↓

Gaia DR3

Qualité astrométrique

RUWE < 1.4

Le Renormalised Unit Weight Error (RUWE) de Gaia mesure la qualité de l'ajustement astrométrique. Une valeur < 1.4 garantit une solution de mouvement propre simple, excluant les étoiles doubles non résolues.

Jeu de données final : N = 43 019 spectres · p = 183 descripteurs · matrice X ∈ ℝ^(43019 × 183)

Variables supprimées

Avant la construction de la matrice de descripteurs, les variables suivantes ont été explicitement retirées :

Variable	Source	Raison
`ra`	LAMOST	Coordonnée angulaire — biais géographique observationnel
`dec`	LAMOST	Coordonnée angulaire — même raison
`redshift`	LAMOST	Métadonnée instrumentale — biais non physique

Fuite de données (feature leakage)

Ces trois variables possèdent un pouvoir discriminant artificiel : elles encodent où et quand le spectre a été observé, pas les propriétés physiques de l'étoile. Un modèle entraîné avec ra ou dec apprend à classifier les étoiles par position dans le ciel — corrélée avec les types spectraux via les programmes d'observation de LAMOST — plutôt que par leur physique réelle. Dans le pipeline AstroSpectro, ce mode d'exclusion est activé via spectro_only=True.

Composition finale

99.85% étoiles

★

Étoiles42 956(99.85%)

Population principale — toutes les analyses

◎

Galaxies56(0.13%)

Trop rare — exclues du clustering HDBSCAN

◉

QSO7(0.02%)

Erreur de reconstruction ×107 — détection d'anomalies

La grande majorité des spectres étant des étoiles, les analyses de réduction de dimension et de classification se concentrent sur la population stellaire. Les galaxies et QSO sont trop rares (63 objets combinés) pour être intégrés à l'analyse HDBSCAN de façon statistiquement significative.

Les 183 descripteurs

Les 183 descripteurs se répartissent en six familles physiques. Les couleurs correspondent aux couleurs spectrales approximatives des raies concernées :

Raies de Balmer

Hα – Hθ

~35

Série de l'hydrogène en absorption. Indicateur thermique primaire : force maximale vers 10 000 K (type A), s'affaiblit vers M et vers O.

Hα 6563 Å · Hβ 4861 Å · Hγ 4341 Å · Hδ 4102 Å · Hθ 3798 Å

→ PCA :PC1 (Balmer : 31.5%)

Ca II H&K + triplet IR

H 3968 · K 3933 · IR 8498–8662

~20

Calcium ionisé en absorption. Sensible à la fois à la métallicité ([Ca/H]) et à l'activité magnétique stellaire (remplissage en émission).

Ca II H 3968 Å · Ca II K 3933 Å · IR triplet 8498, 8542, 8662 Å

→ PCA :PC1 (Ca : 22.4%) · SHAP top-3

Magnésium & indices α

Mg b · Mg I 5184 · Mg II

~15

Triplet Mg b et raies du magnésium. Traceurs de l'enrichissement en éléments α — discrimine les populations du halo et du disque galactique.

Mg b 5167–5183 Å · Mg I 5184 Å · Mg II 4481 Å

→ PCA :PC1 (W(Mgb) = −0.171)

Fer & métaux du pic

Fe, Cr, V, Ni, Ba, Sr...

~30

Raies des métaux du pic du fer. Mesure directe de l'abondance en fer et des métaux lourds. Dominantes dans PC2.

Fe I 5270, 5335 Å · Cr I · V I · Ni I · Ba II · Sr II

→ PCA :PC2 ([Fe/H]proxy : 0.205)

Indices Lick / SDSS / CaH

Indices Lick IDS · CaH · TiO

~18

Indices spectroscopiques standardisés. Combinaisons de bandes larges calibrées pour mesurer âge et métallicité des populations stellaires.

Indices Lick IDS · CaH1, CaH2 · TiO1, TiO2 · SDSS composites

→ PCA :PC2 (Idxmétal : 0.198)

Continuum · pentes · couleurs

Ratios de flux · indices photom.

~65

Forme globale du continu spectral. Plus grande famille en nombre. Encode la température via la pente de corps noir et la luminosité via les sauts spectraux.

fbleu/frouge · B−V synthétique · pentes locales · indices photométriques

→ PCA :PC1 (continuum : fbleu/frouge = 0.161)

183 descripteurs · 6 familles spectroscopiques · catalogue exhaustif →

2.3 Standardisation

Transformation z-score

Avant toute analyse, chaque descripteur $j$ est standardisé en scores z :

\tilde{x}_{ij} = \frac{x_{ij} - \bar{x}_j}{s_j}

où $\bar{x}_j$ et $s_j$ sont la moyenne et l'écart-type empiriques calculés sur l'ensemble des $N = 43\,019$ spectres.

Cette étape est indispensable pour la PCA et vivement recommandée pour UMAP et t-SNE.

Pourquoi standardiser ?

Sans standardisation, les descripteurs à grande variance (typiquement les flux bruts intégrés sur de larges fenêtres) domineraient artificiellement les premières composantes principales, indépendamment de leur contenu physique réel. Par exemple, un indice de continuum calculé sur 100 Å a mécaniquement plus de variance absolue qu'une largeur équivalente mesurée sur 2 Å, sans que cela reflète une différence d'importance physique.

La standardisation place tous les descripteurs sur un pied d'égalité en termes de variance (variance = 1 après transformation), laissant à la PCA le soin de découvrir les directions de variance réelle dans l'espace physique.

Implémentation

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)   # X : (43019, 183)

La standardisation est calculée uniquement sur le jeu d'entraînement et appliquée sans recalcul sur tout nouveau spectre à classifier, conformément aux bonnes pratiques pour éviter la fuite d'information (data leakage).

Accès aux données

Source	URL	Format
LAMOST DR5 spectres	http://dr5.lamost.org/	FITS
Gaia DR3 archive	https://gea.esac.esa.int/archive/	VOTable / CSV

Le téléchargement automatisé des spectres FITS est géré par dr5_downloader.py dans le pipeline AstroSpectro. Voir le guide de téléchargement pour les instructions détaillées.

Pages connexes

◎Catalogue des 183 descripteurs