Malheureusement, le signal HI décalé vers le rouge provenant de l’EoR est caché derrière des émissions radio provenant de différents avant-plans galactiques et extragalactiques qui sont de plusieurs ordres de grandeur de magnitude supérieurs au signal d’intérêt. Les sources d'avantplans incluent des émissions au sein de notre propre Galaxie, comme son rayonnement synchrotron, ainsi que d’autres galaxies situées entre les premières étoiles et la Terre. L’extraction robuste des fluctuations du spectre de puissance HI à 21 cm est un formidable défi scientifique aux formidables retombées sur notre compréhension de l’Univers. Certaines études ont montré que les avant-plans sont lisses d'un point de vue spectral, alors que le signal cosmologique possède une structure spectrale complexe et présente des fluctuations. Plusieurs méthodes sont disponibles dans la littérature pour estimer le spectre de puissance de H I au
milieu de cette myriade lumineuse d'étoiles en avant-scène. La stratégie choisit par HERA consiste à ne mesurer le signal que dans la zone de l’espace de Fourier dans laquelle la contribution des avant-plans est sous-dominante [5,6].
Un autre problème principal dans l’observation de la réionisation via le spectre de puissance du signal à 21cm est le traitement des signaux interférents (RFI), émissions parasites provenant des activités humaines. Les visibilités corrompues par des RFI sont traditionnellement repérées et flaggées pour être excisées, ce qui compromet fortement les mesures cosmologiques. En effet, la suppression des canaux fréquentiels contaminés par les RFI entraîne un échantillonnage non uniforme de la bande de fréquence, ce qui crée des artefacts dans la transformée du signal le long de cet axe. Lors du calcul du spectre de puissance, ces artefacts se propagent et mènent à une contamination des modes de Fourier les plus élevés, normalement exempts d'avant-plans [6-8]. La séparation du signal HI fluctuant spectralement, des avant-plan lisses spectralement, devient difficile. Une première tentative d’amélioration a consisté, plutôt que de supprimer ces visibilités corrompues, à les remplacer (« inpainting ») par des signaux gaussiens aux
statistiques contrôlées ou par des valeurs prédites par des réseaux neuronaux entraînés sur des simulations [8]. Les performances s’en trouvent certes améliorées, mais encore insuffisantes [2].
Projet de stage
Une alternative à ces dernières techniques peut être développée dans le cadre d’une estimation statistique robuste [10-12]. Une estimation au sens du maximum de vraisemblance devrait présenter des performances accrues par rapport à celles obtenues par simple inpaiting sur les visibilités polluées. A cet effet, la mise en oeuvre d’une méthode EM (Expectation-Maximization), qui traiterait les visibilités flaggées comme des données absentes, apportera la stabilité statistique pour estimer les données absentes avec une robustesse accrue par rapport à des techniques d’inpainting classiques [13,14]. Ces avantages combinés font de l’algorithme EM une méthode prometteuse qu’il convient d’analyser.
Toutefois, l’application de l’algorithme EM dans ce contexte présente une difficulté majeure liée aux étapes d'espérance (E) et de maximisation (M) qui ne peuvent être résolues analytiquement, et exige donc des approches avancées telles que le VEM (Variational EM) et le SAEM (Stochastic Approximation EM). Le VEM repose sur une approximation variationnelle de la distribution des variables latentes. Plutôt que de calculer explicitement l’espérance à l’étape E, on approxime la distribution a posteriori à l’aide d’une distribution plus simple optimisée par minimisation de la divergence de Kullback-Leibler avec la vraie distribution. Cette approche est directement reliée au principe des Variational Auto-Encoders (VAE). Le SAEM propose une alternative stochastique au calcul de l’étape E. Plutôt que
d’approximer l’espérance globalement, il la met à jour de manière incrémentale en utilisant des échantillons simulés selon une stratégie de type Monte Carlo. Cette approche améliore la convergence, notamment dans des espaces de grande dimension, tout en réduisant le coût computationnel par rapport au calcul exhaustif de l’espérance. L'utilisation combinée de ces deux approches permet de traiter efficacement les formes non linéaires tout en assurant une meilleure robustesse face aux données absentes. Leur lien avec les méthodes d'apprentissage profond, notamment les VAE, en fait des outils particulièrement adaptés aux problèmes de reconstruction complexes [15]. L’objectif de ce stage est donc de développer un tel algorithme et d’en comparer les performances vis-à-vis de l’existant.
Plan de travail :
- Prise en main du contexte astrophysique, sensibilisation aux études cosmologiques.
- Étude bibliographique sur l’estimation des fluctuations du spectre de puissance de HI 21cm.
- Programmation de la transformée en retard des visibilités fréquentielles, étude des dégradations introduites par la suppression des visibilités flaggées.
- Prise en main des modèles physiques disponibles et exploitables.
- Étude d’algorithmes d’estimation au sens du maximum de vraisemblance.
- Étude de l’algorithme EM et de ses variantes.
- Programmation de l’algorithme EM et de ses variantes.
- Simulations.
- Comparaison avec certaines techniques de l’état de l’art.
Conditions et lieu de travail : L’étudiant.e travaillera principalement au L2S/SATIE avec un accès également à l’IAS, sur le campus Vallée, où sa présence sera attendue à une fréquence d’1-2 jours par semaine, surtout pendant la première partie du stage.
Gratification : Le stage est gratifié suivant la réglementation en vigueur (environ 650 euros/mois)
Références
[1] A. Richard Thompson, James M. Moran, George W. Swenson Jr. “Interferometry and Synthesis in Radio Astronomy Third Edition”
[2] K. Chen et al “Impacts and Statistical Mitigation of Missing Data on the 21cm Power Spectrum: A Case Study with the Hydrogen Epoch of Reionization Array” arXiv:2411.10529
[3] C. Ferrari, « Le Square Kilometre Array (SKA) : un radiotélescope géant pour étudier l’aube et l’évolution du cosmos » Reflets phys. N°67 (2020) 10-14
[4] C. Ferrari et al., French SKA White Book – “The French community towards the Square Kilometre Array ”, Published by the SKA-France Coordination in collaboration with AS SKA-LOFAR, arXiv:1712.06950, 2017.
[5] A. Parsons et al., “A per-baseline, delay-spectrum technique for accessing the 21cm cosmic reionization signature”, The Astrophysical Journal, 2012, 756 2, arXiv:1204.4749
[6] The HERA collaboration, “First Results from HERA Phase I: Upper Limits on the Epoch of Reionization 21 cm Power Spectrum”, The Astrophysical Journal, 2022, 925 2, arXiv:2108.02263
[7] A. Chakraborty, A. Datta1 , and A. Mazumder “A Comparative Analysis to Deal with Missing Spectral Information Caused by RFI in Cosmological HI 21 cm Observations”, The Astrophysical Journal, 929:104 (13pp), 2022 April 10. https://doi.org/10.3847/1538-4357/ac5cc5
[8] M. Pagano et al “Characterization Of Inpaint Residuals In Interferometric Measurements of the Epoch Of Reionization” arXiv:2210.14927v2
[10] A.-J. van der Veen, S. J. Wijnholds and A. Sardarabadi ”Signal processing for radio-astronomy” in Handbook of Signal Processing Systems. Springer, 2013, pp. 421-463. 2003.
[11] Y. Mhiri, M. N. El Korso, A. Breloy and P. Larzabal, "Regularized maximum likelihood estimation for radio interferometric imaging in the presence of radiofrequency interefences", Volume 220, 109430, Signal Processing, Elsevier, 2024.
[12] J-P. Delmas, M. N. El Korso, F. Pascal, and S. Fortunati, "Elliptically Symmetric Distributions in Signal Processing and Machine Learning", Springer Nature, Dec 2024.
[13] A. Hippert-Ferrer, M. N. El Korso, A. Breloy, G. Ginolhac, "Robust low-rank covariance matrix estimation with a general pattern of missing values", Signal Processing, Volume 195, June 2022, 108460.
[14] A. Hippert-Ferrer, M. N. El Korso, "Robust estimation with missing data for elliptical distributions", Springer Nature, Dec 2024.
[15] M. Ding, "The road from MLE to EM to VAE: A brief tutorial", AI Open, 2022, Elsevier.