Guide : Téléchargement des Données
Ce guide pratique vous montre comment utiliser l'interface interactive du pipeline pour récupérer des spectres LAMOST DR5. La logique sous-jacente est encapsulée dans les modules
SpectraManageretSmartDownloader.
Principe de Fonctionnement
Le téléchargement est orchestré par le notebook notebooks/01_download_spectra.ipynb. Sous le capot, il utilise la classe SmartDownloader qui implémente une logique robuste et "reproductible" :
Cliquez pour voir les détails de la logique du SmartDownloader
- Gestion d'État : Il consulte
data/catalog/downloaded_plans.csvpour ignorer les plans d'observation déjà entièrement téléchargés lors des sessions précédentes. - Scraping des Fichiers : Pour chaque nouveau plan à traiter, il scrape la page web officielle de LAMOST pour lister tous les fichiers
.fits.gzdisponibles. - Téléchargement "Round-Robin" : Pour garantir la diversité du dataset, il n' télécharge pas les plans les uns après les autres, mais alterne entre eux (un spectre du plan A, puis un du plan B, etc.).
- Barre de Progression en Temps Réel : Une barre de progression interactive s'affiche pour suivre l'avancement du téléchargement.
- Mise à jour de l'État : Une fois la session terminée, il met à jour le journal avec les plans qui sont maintenant complets.
Utilisation Pratique : Pas-à-Pas
Grâce à la refactorisation, le processus est maintenant entièrement piloté par une interface interactive.
Ouvrir le Notebook de Gestion
Assurez-vous que votre environnement virtuel (venv) est activé, puis ouvrez le fichier : notebooks/01_download_spectra.ipynb.
Configurer et Lancer
Exécutez la première cellule de code. Une interface interactive apparaîtra :
- Plans : Indiquez le nombre de nouveaux plans d'observation que vous souhaitez traiter.
- Spectres : Indiquez le nombre total maximum de spectres à télécharger durant cette session.
Cliquez ensuite sur le bouton "Lancer le téléchargement".
Suivre et Vérifier
Suivez l'avancement grâce à la barre de progression en temps réel. Une fois terminé, vérifiez que :
- De nouveaux sous-dossiers et fichiers
.fits.gzsont apparus dansdata/raw/. - Le fichier journal
data/catalog/downloaded_plans.csva été mis à jour si des plans ont été entièrement complétés. - Un fichier de log détaillé de la session a été créé dans
logs/.
Le notebook propose également une cellule interactive pour nettoyer le répertoire data/raw/. Pour éviter les suppressions accidentelles, cette opération requiert une confirmation textuelle et effectue d'abord une sauvegarde complète dans data/raw_backup/.