Aller au contenu principal

Guide : Téléchargement des Données

Ce guide pratique vous montre comment utiliser l'interface interactive du pipeline pour récupérer des spectres LAMOST DR5. La logique sous-jacente est encapsulée dans les modules SpectraManager et SmartDownloader.

Principe de Fonctionnement

Le téléchargement est orchestré par le notebook notebooks/01_download_spectra.ipynb. Sous le capot, il utilise la classe SmartDownloader qui implémente une logique robuste et "reproductible" :

Cliquez pour voir les détails de la logique du SmartDownloader
  1. Gestion d'État : Il consulte data/catalog/downloaded_plans.csv pour ignorer les plans d'observation déjà entièrement téléchargés lors des sessions précédentes.
  2. Scraping des Fichiers : Pour chaque nouveau plan à traiter, il scrape la page web officielle de LAMOST pour lister tous les fichiers .fits.gz disponibles.
  3. Téléchargement "Round-Robin" : Pour garantir la diversité du dataset, il n' télécharge pas les plans les uns après les autres, mais alterne entre eux (un spectre du plan A, puis un du plan B, etc.).
  4. Barre de Progression en Temps Réel : Une barre de progression interactive s'affiche pour suivre l'avancement du téléchargement.
  5. Mise à jour de l'État : Une fois la session terminée, il met à jour le journal avec les plans qui sont maintenant complets.

Utilisation Pratique : Pas-à-Pas

Grâce à la refactorisation, le processus est maintenant entièrement piloté par une interface interactive.

1

Ouvrir le Notebook de Gestion

Assurez-vous que votre environnement virtuel (venv) est activé, puis ouvrez le fichier : notebooks/01_download_spectra.ipynb.

2

Configurer et Lancer

Exécutez la première cellule de code. Une interface interactive apparaîtra :

  • Plans : Indiquez le nombre de nouveaux plans d'observation que vous souhaitez traiter.
  • Spectres : Indiquez le nombre total maximum de spectres à télécharger durant cette session.

Cliquez ensuite sur le bouton "Lancer le téléchargement".

3

Suivre et Vérifier

Suivez l'avancement grâce à la barre de progression en temps réel. Une fois terminé, vérifiez que :

  • De nouveaux sous-dossiers et fichiers .fits.gz sont apparus dans data/raw/.
  • Le fichier journal data/catalog/downloaded_plans.csv a été mis à jour si des plans ont été entièrement complétés.
  • Un fichier de log détaillé de la session a été créé dans logs/.

Option de Nettoyage Sécurisée

Le notebook propose également une cellule interactive pour nettoyer le répertoire data/raw/. Pour éviter les suppressions accidentelles, cette opération requiert une confirmation textuelle et effectue d'abord une sauvegarde complète dans data/raw_backup/.