Skip to main content

Guide : Téléchargement des Données

Ce guide pratique vous montre comment utiliser le système de téléchargement intelligent du pipeline pour récupérer des spectres LAMOST DR5. Le code complet pour cette section se trouve : ici

Principe de Fonctionnement

Le téléchargement est orchestré par le notebook notebooks/01_download_spectra.ipynb. Sous le capot, il utilise la classe SmartDownloader qui implémente une logique robuste :

Cliquez pour voir les détails de la logique du SmartDownloader
  1. Gestion d'État : Il consulte data/catalog/downloaded_plans.csv pour ne pas retélécharger les plans d'observation déjà complétés.
  2. Scraping des Fichiers : Pour chaque nouveau plan, il liste tous les fichiers .fits.gz disponibles sur la page web de LAMOST.
  3. Téléchargement "Round-Robin" : Il alterne entre les différents plans pour un téléchargement équitable, utile si vous fixez une limite sur le nombre total de spectres.
  4. Mise à jour de l'État : Une fois la session terminée, il met à jour le journal avec les plans qui sont maintenant complets.

Utilisation Pratique : Pas-à-Pas

1

Ouvrir le Notebook

Assurez-vous que votre environnement virtuel (venv) est activé, puis lancez Jupyter et ouvrez le fichier : notebooks/01_download_spectra.ipynb.

2

Configurer les Paramètres

Au début du notebook, configurez les deux paramètres principaux :

  • limit_plans: Nombre max de nouveaux plans à traiter (ex: 5 pour un test).
  • max_spectra: Nombre total max de spectres à télécharger (ex: 500 pour un test).

limit_plans = 5
max_spectra = 500

3

Lancer le Téléchargement

Exécutez la cellule qui lance le processus. Vous verrez la progression s'afficher.

downloader = SmartDownloader(limit_plans=limit_plans, max_spectra=max_spectra)
downloader._build_download_queue()
downloader.run_download()
downloader._update_state()

4

Vérifier les Résultats

Une fois terminé, vérifiez que :

  • Le dossier data/raw/ contient de nouveaux fichiers .fits.gz.
  • Le fichier data/catalog/downloaded_plans.csv a été mis à jour.

Option de Nettoyage

Le notebook propose également une option pour nettoyer le dossier data/raw/. Cette cellule est protégée par une confirmation pour éviter les suppressions accidentelles. Elle effectue d'abord une sauvegarde dans data/raw_backup/ avant de vider le dossier.