Skip to main content

Analyse des Résultats

Cette page présente les résultats obtenus par le pipeline AstroSpectro sur N = 43 019 spectres LAMOST DR5 × Gaia DR3 décrits par p = 183 descripteurs spectroscopiques. Les résultats couvrent deux axes complémentaires : l'analyse non supervisée par réduction de dimension (PCA, UMAP, t-SNE, HDBSCAN) et la classification supervisée (XGBoost avec validation SHAP).

PCA
Linéaire
PC1 = Axe thermique
+0,831
ρ(PC1, Teff)
16,9 % de variance · λ₁ = 30,19
91 composantes → 95 % de variance
Balmer 31,5 % + Ca II 22,4 %
UMAP
Topologique
Séquence Harvard émergente
20
clusters HDBSCAN
Structure en continent continu
Naines / géantes séparées sans étiquette
ρ(ax.1, Teff) = +0,464
t-SNE
Probabiliste
60× plus reproductible
5×10⁻⁴
dP Procrustes moyen
init='pca' → stabilité maximale
Archipel de clusters compacts
Perplexité 30 — optimal [15,50]
XGBoost
Supervisé
87 % balanced accuracy
~0,964
ROC-AUC macro
spectro_only=True — physique pure
Confiance médiane 96,3 %
Cohérence géographique dans UMAP
SHAP
Interprétabilité
Ca II > Balmer
97,9 %
features physiques top-30
Métallicité plus discriminante que T_eff
Validation scientifique centrale
Ca II K rangs 1–3

Axe 1 — Réduction de dimension non supervisée

PCA — La référence linéaire

La PCA sur les 183 descripteurs standardisés révèle une haute dimensionnalité intrinsèque : il faut 91 composantes pour capturer 95 % de la variance, sans coude net dans le spectre des valeurs propres.

Seuil V(K)Composantes KInterprétation
28,8 %2PC1 + PC2 uniquement — visualisation
80 %51Analyse rapide
95 %91Seuil retenu pour UMAP/t-SNE
99 %100Quasi-totalité de la variance
K =
2
Variance : 28.8%MSE: 0,696
PC1 + PC2 uniquement — visualisation basique 2D.
K =
10
Variance : 50.6%MSE: 0,494
Capture de la moitié de l'information physique.
K =
51
Variance : 80%MSE: 0,196
Seuil d'analyse rapide — bon compromis vitesse/précision.
K =
91
Variance : 95%MSE: ~0,050
SEUIL RETENU POUR UMAP/t-SNE — Capture l'essentiel de la variance.
K =
100
Variance : 99%MSE: <0,010
Quasi-totalité de la variance (inclut le bruit résiduel).

PC1 (16,9 %, λ₁ = 30,19) — Axe thermique : ρ(PC1, Teff) = +0,831. Dominé par les raies de Balmer (31,5 %) et le calcium ionisé (22,4 %). Les étoiles chaudes (A-F, > 7 000 K) occupent le côté positif ; les étoiles froides (K-M, < 5 000 K) le côté négatif.

PC2 (12,0 %, λ₂ = 21,39) — Axe métallicité (partiellement contaminé) : Dominé par le fer et les métaux (43,3 %). La corrélation ρ(PC2, SNRr) = −0,310 révèle une contamination instrumentale — PC2 n'est pas un axe de métallicité pur.

K composantesMSE(K)Variance capturée
20,69630,4 %
100,49450,6 %
500,19680,4 %
91~0,05095,0 %

Eigenspectra sur flux bruts (10 000 spectres, 3 921 canaux) : Trois composantes suffisent à expliquer 91,3 % de la variance des flux bruts (vs 91 composantes pour les 183 descripteurs). PC1_flux = pente de couleur (Teff) · PC2_flux = montée infrarouge étoiles froides · PC3_flux = coupure instrumentale bleue/rouge.

Pour l'interprétation complète, voir Interprétation physique de la PCA.

Variance expliquée
PCA
Variance expliquée
Individuelle + cumulée · seuils 80/90/95/99 %
Eigenspectra flux bruts
PCA
Eigenspectra flux bruts
PC1 = T_eff · PC2 = IR · PC3 = coupure instrument.
Projection PC1/PC2
PCA
Projection PC1/PC2
Colorée par type spectral LAMOST
Erreur MSE(K)
PCA
Erreur MSE(K)
Décroissance de la reconstruction en fonction de K
Diagramme HR coloré PC1
HR
Diagramme HR coloré PC1
Gradient Teff le long de la séquence principale
Grille PC1/PC2/PC3
PCA
Grille PC1/PC2/PC3
Projections croisées des 3 premières composantes

UMAP — Structure topologique et clusters HDBSCAN

UMAP est appliqué aux 91 composantes PCA avec n_neighbors=15, min_dist=0.1, 200 époques (t = 40,1 s, Ryzen 9 5950X). La projection révèle une structure en «continent continu» où la séquence de Harvard (M-K-G-F-A) se déploie sans supervision.

Corrélations : ρ(UMAP axe 1, Teff) = +0,464. La classe de luminosité (naines vs géantes) induit une bifurcation topologique visible dans la coloration par log g.

Contrôle négatif : UMAP appliqué aux données avec colonnes permutées aléatoirement → nuage compact homogène sans structure. La structure observée est d'origine physique, non un artefact algorithmique.

Clusters HDBSCAN — 20 groupes sans aucune étiquette

20
Clusters
2 643
Bruit (6,14 %)
16 716
Cluster C11 (étoiles)
10 373
Cluster C13 (étoiles)
Top 12 clusters — population (étoiles)
C11
16 716
Séquence principale G-K
C13
10 373
Naines K froides
C5
5 083
C3
818
C2
915
C19
900
Sous-géantes / base RGB
C12
851
Sous-géantes / base RGB
C1
654
Sous-géantes / base RGB
C16
620
C17
615
C9
576
C7
474
min_cluster_size=75 · min_samples=20 · bruit exclus de ce graphe
Localisation sur le diagramme HR (Teff × log g × Gaia DR3)
C19, C1, C12
Sous-géantes / base RGB
Ca II renforcé · Balmer affaibli → pression de radiation plus basse
Teff
5000–5500 K
log g
≈ 3,0–3,5
C13
Naines K froides
Cluster le plus peuplé avec identité physique claire
Teff
4500–5000 K
log g
≈ 4,5
C11
Séquence principale G-K
Cluster dominant — population de référence de la séquence principale
Teff
5000–6000 K
log g
≈ 4,0–4,5
Résultat astrophysique original

Sans aucune étiquette ni information sur log g, UMAP organise les spectres de sorte que HDBSCAN récupère la distinction naines/sous-géantes à Teff fixée. Les clusters C19, C1 et C12 se distinguent spectralement par des raies Ca II renforcées et des raies de Balmer affaiblies — signature d'une pression de radiation plus basse à la surface des géantes.

UMAP coloré par type spectral
UMAP
UMAP coloré par type spectral
Séquence Harvard émergente sans supervision
Clusters HDBSCAN
HDBSCAN
Clusters HDBSCAN
20 clusters · 6,14 % bruit · C11 = 16 716 étoiles
Clusters sur diagramme HR
HR
Clusters sur diagramme HR
C19/C1/C12 = sous-géantes · C13 = naines K
Contrôle négatif
Validation
Contrôle négatif
Données permutées → nuage homogène sans structure
Heatmap features par cluster
HDBSCAN
Heatmap features par cluster
Profils spectraux distinctifs de chaque cluster
Synthèse PCA/UMAP/AE
Synthèse
Synthèse PCA/UMAP/AE
Comparaison des 3 espaces latents

t-SNE — Structure probabiliste et stabilité

t-SNE est appliqué aux mêmes 91 composantes PCA avec perplexity=30, init='pca', 1 000 itérations (t = 80,2 s, soit 2× UMAP). La projection produit un «archipel» de masses compactes séparées, à l'opposé de la structure continue d'UMAP.

  • Les étoiles chaudes (A-F, Teff > 7 000 K) forment un amas distinct isolé
  • La masse centrale regroupe les K-G de la séquence principale
  • La coloration par log g révèle des clusters de sous-géantes partiellement isolés

t-SNE excelle dans la séparation nette des sous-populations discrètes, tandis qu'UMAP préserve mieux les gradients continus (Teff, [Fe/H]).


Comparaison de la stabilité — Procrustes

~60×
t-SNE est plus reproductible qu'UMAP
Résultat contre-intuitif — les deux méthodes utilisent la SGD
UMAP
Initialisation spectrale — SGD avec éch. négatif
6e-2
3e-2
0
μ = 3.0e-2
g1
g2
g3
g4
Moyenne dP0.030
t-SNE
init='pca' — pénalité KL concentrée localement
6e-2
3e-2
0
μ = 5.0e-4
g1
g2
g3
g4
Moyenne dP5.0e-4
UMAP instable : L'initialisation spectrale (Laplacien) varie d'une graine à l'autre. La SGD avec échantillonnage négatif introduit une stochasticité forte dans les forces répulsives.
t-SNE stable : init='pca' fixe une position de départ identique. La pénalité KL pénalise uniquement les voisins proches — peu sensible à la graine pour les grandes structures.

Synthèse comparative — PCA · UMAP · t-SNE

PCA
Linéaire
UMAP
Topologique
t-SNE
Probabiliste
MSE reconstruction (K=2)
PCA uniquement — Eckart-Young
0,696
ρ(axe 1, Teff)
Corrélation de Spearman avec T_eff Gaia
+0,831
+0,464
+0,623
Stabilité dP (Procrustes)
t-SNE ~60× plus reproductible qu'UMAP
0 (exact)
3,0 × 10⁻²
5,0 × 10⁻⁴
Temps CPU
Ryzen 9 5950X · 32 fils
< 1 s
40,1 s
80,2 s
Paramétrique
Peut généraliser hors échantillon
Oui
Partiel
Non
Non-linéaire
Capture les structures non-linéaires
Interprétable
Axes avec signification physique directe
● = meilleure valeur sur la ligne
Projection t-SNE
t-SNE
Projection t-SNE
Archipel coloré par type spectral, T_eff, log g, [Fe/H]
Diagramme HR coloré axe 1 t-SNE
HR
Diagramme HR coloré axe 1 t-SNE
Corrélation thermique dans l'espace t-SNE
Sensibilité à la perplexité
Sensibilité
Sensibilité à la perplexité
Robuste pour perplexité ∈ [15, 50]
Stabilité UMAP (4 graines)
Procrustes
Stabilité UMAP (4 graines)
d_P ~ 0,030 — variabilité importante entre runs
Stabilité t-SNE (4 graines)
Procrustes
Stabilité t-SNE (4 graines)
d_P ~ 5×10⁻⁴ — 60× plus stable qu'UMAP
UMAP vs t-SNE côte-à-côte
Comparaison
UMAP vs t-SNE côte-à-côte
Continent continu vs archipel compact

Axe 2 — Classification supervisée XGBoost

Performance globale (mode spectro_only=True)

Le classifieur XGBoost entraîné sur les mêmes 183 descripteurs spectraux (sans Gaia, sans ra/dec/redshift) atteint :

BA
87%
Précision équilibrée
balanced accuracy · 5 classes
Sur les types A, F, G, K, M
P
96.3%
Confiance médiane
prédictions dans l'espace UMAP
Probabilité de classe prédite
AUC
~0.964
ROC-AUC macro
discriminabilité globale
Quasi-parfait · 1.000 = parfait

Progression historique du pipeline

1
Baseline
32%
Random Forest
4 features binaires
Preuve de concept initiale
2
Features V1 + métadonnées
75–84%
RF / XGBoost
Avec ra, dec, Gaia
Amélioration mais fuite de données
ACTUEL
3
Features V2
87%
XGBoost
spectro_only=True
Physique intrinsèque uniquement
Contre-intuitif : passer de 84 % à 87 % en supprimant des features — ra, dec, redshift apportaient un signal corrélé via les biais observationnels de LAMOST (programmes d'observation ciblés par type spectral), pas via la physique réelle. Leur suppression force le modèle à apprendre de vrais indicateurs physiques → meilleure généralisation.

Cohérence supervisé / non supervisé

La géographie des prédictions XGBoost dans l'espace UMAP est cohérente avec la structure émergente non supervisée : étoiles A en «péninsule» chaude, G au centre, K en périphérie froide. Les deux approches capturent la même structure physique — la projection UMAP est un espace de validation qualitative pour le classifieur.

Prédictions XGBoost dans UMAP
XGBoost
Prédictions XGBoost dans UMAP
Cohérence géographique supervisé/non-supervisé
Confusion F/G
XGBoost
Confusion F/G
Zone de transition continue à 5500–6200 K

Axe 3 — Validation SHAP

Résultat central

L'analyse SHAP (SHapley Additive exPlanations) sur le modèle spectro_only=True révèle que 97,9 % des 30 descripteurs les plus importants sont des features spectrales physiques. C'est la validation scientifique centrale du pipeline AstroSpectro : le modèle a appris à classifier les étoiles en utilisant exactement les mêmes informations spectroscopiques que les astrophysiciens utilisent manuellement.

Découverte clé — Ca II domine sur Balmer
Les 5 premiers descripteurs SHAP sont tous des raies Ca II H&K — la métallicité est plus discriminante que la température pour XGBoost. Contraste direct avec la PCA où la température (Balmer, PC1) domine.
Ca II (5 dans top-10)
Balmer (3 dans top-10)
Métaux (2 dans top-10)
Importance relative normalisée — run 20260213T225019Z
#
Descripteur
Importance SHAP
Famille
1
Ca II K prominence
0.98
Ca II
2
Ca II K EW
0.94
Ca II
3
Ca II K FWHM
0.91
Ca II
4
Ca II H prominence
0.87
Ca II
5
Ca II H EW
0.84
Ca II
6
Hα EW
0.76
Balmer
7
Hα prominence
0.73
Balmer
8
Mg b EW
0.68
Métaux
9
Mg b prominence
0.64
Métaux
10
Balmer temperature index
0.59
Balmer
97,9 % des 30 descripteurs les plus importants (top-30 SHAP) sont des features spectrales physiques — aucune feature non physique ne domine. Survole les barres pour voir l'interprétation de chaque descripteur.

PCA vs XGBoost — deux questions complémentaires

PCA
Direction de variance maximale
Non supervisé
Feature dominante
Raies de Balmer
Hα, Hβ, Hγ… PC1 = 31.5%
Résultat physique
Température T_eff
ρ(PC1, Teff) = +0.831
Maximise la variance totale
Balmer domine → PC1 thermique
Température = source de variance #1
Aucune étiquette utilisée
XGBoost
Frontière de décision optimale
Supervisé
Feature dominante
Raies Ca II H&K
Ca K, Ca H (rangs 1-5 SHAP)
Résultat physique
Métallicité + gravité
Ca II domine top-5 SHAP
Minimise l'erreur de classification
Ca II domine → discriminabilité
Métallicité = meilleur séparateur
Étiquettes de type spectral utilisées
✓ Ces deux résultats sont cohérents et complémentaires — ils répondent à deux questions différentes. La PCA répond à : «quelle est la source de variance dominante ?» → la température. XGBoost répond à : «quelle information sépare le mieux les classes ?» → la métallicité via Ca II. Le fait que les deux approches, supervisée et non supervisée, convergent vers la même structure physique confirme la validité des 183 descripteurs.

Top features SHAP par classe

ClasseFeatures dominantesInterprétation physique
AHα EW faible, Hβ FWHM largeRaies de Balmer très larges — étoiles chaudes
FHα EW intermédiaire, Ca II K modéréTransition Balmer → Ca II
GCa II K + H fort, Mg bMétallicité + température solaire
KCa II K très fort, TiO naissantÉtoiles froides riches en métaux
MTiO/VO/CaH bands, Balmer faibleBandes moléculaires caractéristiques
Heatmap features par classe
SHAP
Heatmap features par classe
Importance SHAP relative — Ca II domine A/F/G/K
Importance spécifique par classe
SHAP
Importance spécifique par classe
Top features discriminants de chaque type spectral
Ca II K prominence vs [Fe/H]
SHAP
Ca II K prominence vs [Fe/H]
Corrélation Ca II K avec la métallicité Gaia DR3

Limites et perspectives

Déséquilibre de classes : Galaxies (56) et QSO (7) sont trop rares pour l'analyse HDBSCAN et ne sont pas intégrés à la classification 5 classes.

Dimensionnalité intrinsèque : Les 91 composantes nécessaires pour 95 % de variance indiquent que la variété spectrale est réellement haute-dimensionnelle. La projection 2D est une compression extrême (183 → 2), et l'émergence de la séquence de Harvard dans ces deux dimensions est un résultat non trivial.

Prochaines étapes :

  • Caractérisation des 20 clusters HDBSCAN par croisement avec des catalogues d'objets rares (étoiles variables, géantes RGB, binaires spectrales)
  • Optimisation Optuna à grande échelle sur l'ensemble des ~139k fichiers FITS disponibles
  • Analyse d'anomalies : intersection HDBSCAN bruit ∩ top 1 % MSE autoencoder
  • Extension à LAMOST DR10 (~10⁷ spectres) ou SDSS