Aller au contenu principal

Vue d'Ensemble du Pipeline

Cette page présente le flux de travail complet du projet AstroSpectro, de l'acquisition des données brutes à la génération des résultats de classification. Le pipeline est conçu comme une série d'étapes séquentielles et modulaires.

Diagramme du Flux de Travail

Le schéma ci-dessous illustre les grandes phases du pipeline. Chaque phase est mise en œuvre par un ou plusieurs modules spécifiques dans le code source.

Description des Phases

1. Acquisition (Optionnelle)

Le point de départ. Le SmartDownloader récupère les spectres bruts depuis les serveurs LAMOST et les stocke localement. Il journalise les plans d'observation complétés dans downloaded_plans.csv pour éviter les téléchargements redondants.

2. Préparation de la Session

À chaque exécution, le DatasetBuilder sélectionne un nouveau lot de spectres "frais" en consultant le journal trained_spectra.csv. Ensuite, un catalogue local est généré à partir des headers FITS de ce lot pour garantir que l'analyse se base sur des métadonnées précises et à jour.

3. Traitement et Modélisation

C'est le cœur de l'analyse. Le ProcessingPipeline prend le lot de spectres et son catalogue local, et exécute la chaîne de traitement : prétraitement, détection de raies, et extraction d'un vecteur de features riche. Ce dataset de features est ensuite passé au SpectralClassifier, qui s'occupe du tuning des hyperparamètres et de l'entraînement du meilleur modèle (RandomForest ou XGBoost).

4. Finalisation

Une fois le modèle entraîné, le pipeline conclut la session : le DatasetBuilder met à jour le journal trained_spectra.csv avec les spectres qui viennent d'être utilisés. Simultanément, les artefacts de la session (le modèle .pkl et un rapport JSON détaillé) sont sauvegardés dans les dossiers data/models/ et data/reports/ pour une traçabilité et une reproductibilité parfaites.