Guide : Téléchargement des Données
Ce guide pratique vous montre comment utiliser le système de téléchargement intelligent du pipeline pour récupérer des spectres LAMOST DR5. Le code complet pour cette section se trouve : ici
Principe de Fonctionnement
Le téléchargement est orchestré par le notebook notebooks/01_download_spectra.ipynb
. Sous le capot, il utilise la classe SmartDownloader
qui implémente une logique robuste :
Cliquez pour voir les détails de la logique du SmartDownloader
- Gestion d'État : Il consulte
data/catalog/downloaded_plans.csv
pour ne pas retélécharger les plans d'observation déjà complétés. - Scraping des Fichiers : Pour chaque nouveau plan, il liste tous les fichiers
.fits.gz
disponibles sur la page web de LAMOST. - Téléchargement "Round-Robin" : Il alterne entre les différents plans pour un téléchargement équitable, utile si vous fixez une limite sur le nombre total de spectres.
- Mise à jour de l'État : Une fois la session terminée, il met à jour le journal avec les plans qui sont maintenant complets.
Utilisation Pratique : Pas-à-Pas
Ouvrir le Notebook
Assurez-vous que votre environnement virtuel (venv
) est activé, puis lancez Jupyter et ouvrez le fichier : notebooks/01_download_spectra.ipynb
.
Configurer les Paramètres
Au début du notebook, configurez les deux paramètres principaux :
limit_plans
: Nombre max de nouveaux plans à traiter (ex:5
pour un test).max_spectra
: Nombre total max de spectres à télécharger (ex:500
pour un test).
limit_plans = 5
max_spectra = 500
Lancer le Téléchargement
Exécutez la cellule qui lance le processus. Vous verrez la progression s'afficher.
downloader = SmartDownloader(limit_plans=limit_plans, max_spectra=max_spectra)
downloader._build_download_queue()
downloader.run_download()
downloader._update_state()
Vérifier les Résultats
Une fois terminé, vérifiez que :
- Le dossier
data/raw/
contient de nouveaux fichiers.fits.gz
. - Le fichier
data/catalog/downloaded_plans.csv
a été mis à jour.
Le notebook propose également une option pour nettoyer le dossier data/raw/
. Cette cellule est protégée par une confirmation pour éviter les suppressions accidentelles. Elle effectue d'abord une sauvegarde dans data/raw_backup/
avant de vider le dossier.