Feuille de Route du Projet

Cette page présente les développements prévus et les idées d'amélioration pour le pipeline AstroSpectro. C'est un document vivant qui évolue avec le projet. N'hésitez pas à regarder la Roadmap complète ici!

N'hésitez pas à ouvrir une issue pour suggérer de nouvelles fonctionnalités ou discuter des priorités !

Améliorer la profondeur et la précision des informations extraites des spectres.

[x] Extraction V1 : raies principales (Hα, Hβ, Ca II K&H, Mg b, Na D) — prominence, FWHM, EW
[x] Ratios de raies et indices spectraux (TiO5, Dn4000, G4300, CaH2/3)
[x] Extraction V2 : 174 features spectrales — 9 familles physiques (bandes moléculaires TiO/VO, Balmer étendu Hγ→H10, raies métalliques Fe/Mg/Ca/Na/Si/Ti/Cr/Ba/Sr, indices Lick/SDSS, continuum, profils de raies, couleurs synthétiques, indices composites)
[x] Cross-match Gaia DR3 (parallaxe, Teff, log g, [Fe/H], bp_rp, M_G, v_tan)
[x] Mode spectro_only=True — exclusion des features non spectrales (ra, dec, redshift)
[x] Validation SHAP — 97,9 % des top-30 features sont spectrales physiques
[ ] Optimisation Optuna à grande échelle (~139k fichiers FITS restants)
[ ] Détection d'anomalies : intersection HDBSCAN bruit ∩ top 1 % MSE autoencoder

Explorer des modèles plus performants et des techniques de traitement de données avancées.

[x] XGBoost — modèle principal, 87 % balanced accuracy (mode spectro_only)
[x] LightGBM, CatBoost, ExtraTrees, VotingClassifier — disponibles dans SpectralClassifier
[x] GridSearchCV avec validation croisée stratifiée
[x] Infrastructure Optuna (déployée — scalage en cours)
[x] Suivi d'expériences W&B — 85+ runs, 121 métriques/run
[x] Calibration ECE (Expected Calibration Error)
[x] Réduction de dimension : PCA, UMAP, t-SNE, HDBSCAN (projet PHY-3500 + src/dimred/ v0.3.0)
[x] Autoencoder spectral (SpectralAutoencoder PyTorch — latent space 2D et 3D)
[x] Explicabilité SHAP — découverte : Ca II H&K / Mg b dominent sur Balmer
[+/-] SMOTE — intégré mais rôle limité depuis l'optimisation sur balanced_accuracy
[ ] Caractérisation des 20 clusters HDBSCAN (croisement objets rares : variables, binaires, RGB)
[ ] Extension à LAMOST DR10 (~10⁷ spectres) ou SDSS
[ ] CNN 1D sur flux bruts (architecture planifiée, non implémentée)

Rendre le pipeline plus robuste, plus accessible et plus facile à utiliser pour la communauté.

[x] Architecture modulaire src/pipeline/ + src/dimred/ avec packaging pyproject.toml
[x] Codespaces GitHub — environnement zéro-installation en 1 clic
[x] Déploiement Docusaurus (GitHub Pages, CI/CD automatique)
[x] Application Streamlit (déploiement deploy-streamlit)
[x] Parallélisation joblib (~340k spectres/h, Ryzen 9 5950X 32 fils)
[x] Artefacts horodatés reproductibles (.pkl + .json par run)
[ ] API REST pour les prédictions (endpoint /predict)
[ ] Automatisation complète Snakemake / Prefect
[ ] Support multi-survey (SDSS, Gaia RVS)

info

Cette feuille de route représente une vision à long terme. La priorité des tâches peut évoluer en fonction des retours de la communauté et des découvertes scientifiques.

Feuille de Route du Projet

Axe 1 : Enrichissement Scientifique

Axe 2 : Modèles & Données

Axe 3 : Infrastructure & Déploiement