Feuille de Route du Projet
Cette page présente les développements prévus et les idées d'amélioration pour le pipeline AstroSpectro. C'est un document vivant qui évolue avec le projet. N'hésitez pas à regarder la Roadmap complète ici!
N'hésitez pas à ouvrir une issue pour suggérer de nouvelles fonctionnalités ou discuter des priorités !
Axe 1 : Enrichissement Scientifique
Améliorer la profondeur et la précision des informations extraites des spectres.
- [x] Extraction V1 : raies principales (Hα, Hβ, Ca II K&H, Mg b, Na D) — prominence, FWHM, EW
- [x] Ratios de raies et indices spectraux (TiO5, Dn4000, G4300, CaH2/3)
- [x] Extraction V2 : 174 features spectrales — 9 familles physiques (bandes moléculaires TiO/VO, Balmer étendu Hγ→H10, raies métalliques Fe/Mg/Ca/Na/Si/Ti/Cr/Ba/Sr, indices Lick/SDSS, continuum, profils de raies, couleurs synthétiques, indices composites)
- [x] Cross-match Gaia DR3 (parallaxe, Teff, log g, [Fe/H], bp_rp, M_G, v_tan)
- [x] Mode
spectro_only=True— exclusion des features non spectrales (ra, dec, redshift) - [x] Validation SHAP — 97,9 % des top-30 features sont spectrales physiques
- [ ] Optimisation Optuna à grande échelle (~139k fichiers FITS restants)
- [ ] Détection d'anomalies : intersection HDBSCAN bruit ∩ top 1 % MSE autoencoder
Axe 2 : Modèles & Données
Explorer des modèles plus performants et des techniques de traitement de données avancées.
- [x] XGBoost — modèle principal, 87 % balanced accuracy (mode spectro_only)
- [x] LightGBM, CatBoost, ExtraTrees, VotingClassifier — disponibles dans
SpectralClassifier - [x] GridSearchCV avec validation croisée stratifiée
- [x] Infrastructure Optuna (déployée — scalage en cours)
- [x] Suivi d'expériences W&B — 85+ runs, 121 métriques/run
- [x] Calibration ECE (Expected Calibration Error)
- [x] Réduction de dimension : PCA, UMAP, t-SNE, HDBSCAN (projet PHY-3500 +
src/dimred/v0.3.0) - [x] Autoencoder spectral (SpectralAutoencoder PyTorch — latent space 2D et 3D)
- [x] Explicabilité SHAP — découverte : Ca II H&K / Mg b dominent sur Balmer
- [+/-] SMOTE — intégré mais rôle limité depuis l'optimisation sur balanced_accuracy
- [ ] Caractérisation des 20 clusters HDBSCAN (croisement objets rares : variables, binaires, RGB)
- [ ] Extension à LAMOST DR10 (~10⁷ spectres) ou SDSS
- [ ] CNN 1D sur flux bruts (architecture planifiée, non implémentée)
Axe 3 : Infrastructure & Déploiement
Rendre le pipeline plus robuste, plus accessible et plus facile à utiliser pour la communauté.
- [x] Architecture modulaire
src/pipeline/+src/dimred/avec packagingpyproject.toml - [x] Codespaces GitHub — environnement zéro-installation en 1 clic
- [x] Déploiement Docusaurus (GitHub Pages, CI/CD automatique)
- [x] Application Streamlit (déploiement
deploy-streamlit) - [x] Parallélisation joblib (~340k spectres/h, Ryzen 9 5950X 32 fils)
- [x] Artefacts horodatés reproductibles (
.pkl+.jsonpar run) - [ ] API REST pour les prédictions (endpoint
/predict) - [ ] Automatisation complète Snakemake / Prefect
- [ ] Support multi-survey (SDSS, Gaia RVS)
info
Cette feuille de route représente une vision à long terme. La priorité des tâches peut évoluer en fonction des retours de la communauté et des découvertes scientifiques.