Le groupe REA a transféré 500 To de données BigQuery de la multirégion de l’UE vers la région de Sydney de Google Cloud sur une période de cinq semaines.
Le projet a été réalisé par des experts en la matière de REA Group et deux consultants de la société de services informatiques Servian, et le travail est détaillé dans un post moyen.
Le message note que REA a commencé à utiliser Google Cloud «il y a plusieurs années, en se concentrant principalement sur l’utilisation des outils et des services d’analyse de données sur la pile technologique de Google Cloud Platform (GCP)».
«Au début du voyage, la région de Sydney n’existait pas», a écrit le consultant senior servian Pablo Caif.
«Comme beaucoup d’autres clients GCP à l’époque, REA Group a choisi la multi-région de l’UE pour analyser ses données dans BigQuery.
« Jusqu’à aujourd’hui, et en raison des obligations contractuelles nouvellement établies et des exigences de souveraineté des données, REA Group souhaitait rapatrier ses ensembles de données BigQuery EU dans la région relativement nouvelle de Sydney. »
Caif a déclaré que les charges de travail de données basées sur les GCP de REA servaient des «fonctions de reporting critiques» pour les ventes, le marketing, l’audience et à d’autres fins.
Il a déclaré que Google Cloud Storage (GCS) et son service de transfert «étaient utilisés comme technologie principale» pour rapatrier les données.
« Nous avons utilisé GCS pour extraire les données, puis les recharger dans BigQuery du côté de Sydney », a écrit Caif.
Les «données chaudes» – les données utilisées le plus fréquemment par REA – ont dû être déplacées «dans une fenêtre agressive de 48 heures».
«Ceci, associé à la nécessité de valider que les données avaient été migrées avec succès et sans corruption, a rendu la tâche encore plus difficile du point de vue de l’ingénierie», a écrit Caif.
Caif s’est efforcé de ne pas trop simplifier le projet.
«Lorsque vous pelletez un demi-pétaoctet de données d’un continent à un autre, les choses deviennent beaucoup plus intéressantes et stimulantes», écrit-il.
«Le mouvement de tant de données a en fait soulevé quelques considérations qui n’étaient pas en jeu pour les petits projets de rapatriement que nous avions réalisés dans le passé.
« Par exemple, BigQuery a des limites et des quotas d’extraction et de chargement avec GCS pour lesquels nous devions envisager et concevoir des solutions. »
Le rapatriement a couvert quelques tableaux «hot data» dépassant 100 To et qui étaient mis à jour en temps réel par des jobs de streaming.
«La migration de ces tables était de loin les obstacles les plus difficiles techniquement que nous devions surmonter», a écrit Caif.
Servian a fini par diviser les tables en plus petits morceaux qui pourraient être plus facilement migrés, en particulier dans les limites d’extraction de données fixées par Google.
«De l’autre côté, lors de leur rechargement, nous devions bien sûr réassembler / recombiner puis de nouveau dans une table avec les bonnes partitions», a écrit Caif.
«Cela impliquait également des efforts d’ingénierie plus lourds.»