Guide : Visualisation
La visualisation est essentielle pour comprendre les données, déboguer le pipeline et interpréter les résultats du modèle. Ce guide vous présente les outils de visualisation disponibles dans le projet.
Analyse Exploratoire avec 02_tools_and_visuals.ipynb
Le notebook notebooks/02_tools_and_visuals.ipynb
est votre boîte à outils principale pour l'exploration visuelle. Il vous permet de :
- Visualiser un spectre individuel : Chargez n'importe quel fichier FITS et affichez son spectre pour inspecter son allure générale, la présence de bruit ou des raies particulières.
- Superposer les raies détectées : Après avoir lancé le
PeakDetector
sur un spectre, vous pouvez superposer les positions des raies détectées (Hα, Hβ, etc.) directement sur le graphique du spectre pour valider visuellement la détection. - Analyser les distributions : Créez des histogrammes pour visualiser la distribution de certaines métadonnées, comme le rapport signal/bruit (SNR) de vos spectres, afin d'évaluer la qualité générale de votre jeu de données.
L'image ci-dessous montre un exemple de spectre avec les raies d'absorption Hα, CaII H et CaII K identifiées par le pipeline et superposées sur le graphique.

Évaluation des Performances du Modèle
Après l'entraînement, il est crucial de visualiser les performances du modèle pour comprendre ses forces et ses faiblesses.
Matrice de Confusion
Générée automatiquement lors de l'appel à la méthode train_and_evaluate
de la classe SpectralClassifier
, la matrice de confusion est l'outil le plus important pour l'analyse des erreurs.
- Lecture : La diagonale principale montre les classifications correctes. Les cases hors de la diagonale montrent les erreurs (par exemple, combien de spectres de type 'G' ont été incorrectement classifiés comme 'K').
- Bibliothèque : Elle est générée en utilisant
Seaborn
etMatplotlib
pour un rendu clair et lisible.
Importance des Features (à venir)
La Roadmap prévoit l'ajout de graphiques montrant l'importance de chaque feature (quelle raie est la plus utile pour la classification ?). Pour les modèles de type "forêt d'arbres", comme Random Forest, cette information est facilement accessible et très instructive.