Foire Aux Questions (FAQ)
Bienvenue dans la FAQ ! Vous trouverez ici les réponses aux questions les plus fréquemment posées sur le projet AstroSpectro.
Si votre question n'est pas listée ici, n'hésitez pas à ouvrir une Issue sur GitHub pour la poser à la communauté. Votre question pourrait aider d'autres personnes !
Questions sur les Données
Puis-je utiliser ce pipeline avec d'autres données que LAMOST DR5 ?
Pour l'instant, le pipeline est fortement optimisé pour le format spécifique des fichiers FITS de LAMOST DR5 (notamment la façon dont le flux et la longueur d'onde sont stockés dans les en-têtes).
Cependant, l'architecture est modulaire. Pour adapter le pipeline à d'autres relevés (comme SDSS), il suffirait principalement de modifier la méthode de chargement dans le module SpectraPreprocessor
. Le support multi-survey est une des grandes ambitions listées dans notre Roadmap.
Quelle est la taille approximative des données à télécharger ?
Le relevé complet de LAMOST DR5 est immense (plusieurs Téraoctets). Heureusement, vous n'avez pas besoin de tout télécharger !
Le pipeline est conçu pour fonctionner par lots. Pour un premier test ou un entraînement de base, un lot de quelques milliers de spectres (soit quelques Gigaoctets) est amplement suffisant pour obtenir des résultats significatifs. Le script de téléchargement vous permet de fixer des limites pour contrôler la quantité de données récupérées.
Questions Techniques
Pourquoi le projet est-il structuré avec des notebooks ET des scripts Python dans src/
?
C'est un choix d'architecture délibéré pour combiner le meilleur des deux mondes :
- Les scripts Python dans
src/
contiennent la logique métier pure, organisée en classes modulaires et testables. C'est le "moteur" du pipeline. - Les notebooks Jupyter servent d'interface utilisateur et de "chef d'orchestre". Ils permettent d'appeler la logique des modules de manière interactive, de visualiser les étapes intermédiaires, et de documenter un workflow expérimental.
Cette séparation rend le code plus robuste, plus facile à maintenir et à réutiliser.
Questions sur le Machine Learning
Pourquoi utiliser Random Forest et pas un modèle plus complexe comme un CNN ?
Le choix de Random Forest comme modèle de base est intentionnel pour cette première version :
- Interprétabilité : Il est facile de mesurer l'importance des features (quelles raies sont les plus utiles ?), ce qui est crucial dans un contexte scientifique.
- Robustesse : Il fonctionne très bien avec un nombre limité de features et est moins sujet au sur-apprentissage que des modèles plus complexes.
- Rapidité : Il est très rapide à entraîner, ce qui permet des cycles d'itération rapides.
Cela dit, le benchmarking de modèles plus complexes comme des CNN 1D est une étape clé de notre Roadmap pour potentiellement capturer des motifs que l'extraction de features manuelle aurait manqués.