Aller au contenu principal

Feuille de Route du Projet

Cette page présente les développements prévus et les idées d'amélioration pour le pipeline AstroSpectro. C'est un document vivant qui évolue avec le projet. N'hésitez pas à regarder la Roadmap complète ici!

N'hésitez pas à ouvrir une issue pour suggérer de nouvelles fonctionnalités ou discuter des priorités !


Axe 1 : Enrichissement Scientifique

Améliorer la profondeur et la précision des informations extraites des spectres.

  • [x] Extraction V1 : raies principales (Hα, Hβ, Ca II K&H, Mg b, Na D) — prominence, FWHM, EW
  • [x] Ratios de raies et indices spectraux (TiO5, Dn4000, G4300, CaH2/3)
  • [x] Extraction V2 : 174 features spectrales — 9 familles physiques (bandes moléculaires TiO/VO, Balmer étendu Hγ→H10, raies métalliques Fe/Mg/Ca/Na/Si/Ti/Cr/Ba/Sr, indices Lick/SDSS, continuum, profils de raies, couleurs synthétiques, indices composites)
  • [x] Cross-match Gaia DR3 (parallaxe, Teff, log g, [Fe/H], bp_rp, M_G, v_tan)
  • [x] Mode spectro_only=True — exclusion des features non spectrales (ra, dec, redshift)
  • [x] Validation SHAP — 97,9 % des top-30 features sont spectrales physiques
  • [ ] Optimisation Optuna à grande échelle (~139k fichiers FITS restants)
  • [ ] Détection d'anomalies : intersection HDBSCAN bruit ∩ top 1 % MSE autoencoder

Axe 2 : Modèles & Données

Explorer des modèles plus performants et des techniques de traitement de données avancées.

  • [x] XGBoost — modèle principal, 87 % balanced accuracy (mode spectro_only)
  • [x] LightGBM, CatBoost, ExtraTrees, VotingClassifier — disponibles dans SpectralClassifier
  • [x] GridSearchCV avec validation croisée stratifiée
  • [x] Infrastructure Optuna (déployée — scalage en cours)
  • [x] Suivi d'expériences W&B — 85+ runs, 121 métriques/run
  • [x] Calibration ECE (Expected Calibration Error)
  • [x] Réduction de dimension : PCA, UMAP, t-SNE, HDBSCAN (projet PHY-3500 + src/dimred/ v0.3.0)
  • [x] Autoencoder spectral (SpectralAutoencoder PyTorch — latent space 2D et 3D)
  • [x] Explicabilité SHAP — découverte : Ca II H&K / Mg b dominent sur Balmer
  • [+/-] SMOTE — intégré mais rôle limité depuis l'optimisation sur balanced_accuracy
  • [ ] Caractérisation des 20 clusters HDBSCAN (croisement objets rares : variables, binaires, RGB)
  • [ ] Extension à LAMOST DR10 (~10⁷ spectres) ou SDSS
  • [ ] CNN 1D sur flux bruts (architecture planifiée, non implémentée)

Axe 3 : Infrastructure & Déploiement

Rendre le pipeline plus robuste, plus accessible et plus facile à utiliser pour la communauté.

  • [x] Architecture modulaire src/pipeline/ + src/dimred/ avec packaging pyproject.toml
  • [x] Codespaces GitHub — environnement zéro-installation en 1 clic
  • [x] Déploiement Docusaurus (GitHub Pages, CI/CD automatique)
  • [x] Application Streamlit (déploiement deploy-streamlit)
  • [x] Parallélisation joblib (~340k spectres/h, Ryzen 9 5950X 32 fils)
  • [x] Artefacts horodatés reproductibles (.pkl + .json par run)
  • [ ] API REST pour les prédictions (endpoint /predict)
  • [ ] Automatisation complète Snakemake / Prefect
  • [ ] Support multi-survey (SDSS, Gaia RVS)
info

Cette feuille de route représente une vision à long terme. La priorité des tâches peut évoluer en fonction des retours de la communauté et des découvertes scientifiques.