Le groupe REA a transféré 500 To de données BigQuery de la multirégion de l’UE vers la région de Sydney de Google Cloud sur une période de cinq semaines.

Le projet a été réalisé par des experts en la matière de REA Group et deux consultants de la société de services informatiques Servian, et le travail est détaillé dans un post moyen.

Le message note que REA a commencé à utiliser Google Cloud «il y a plusieurs années, en se concentrant principalement sur l’utilisation des outils et des services d’analyse de données sur la pile technologique de Google Cloud Platform (GCP)».

«Au début du voyage, la région de Sydney n’existait pas», a écrit le consultant senior servian Pablo Caif.

«Comme beaucoup d’autres clients GCP à l’époque, REA Group a choisi la multi-région de l’UE pour analyser ses données dans BigQuery.

Publicité

« Jusqu’à aujourd’hui, et en raison des obligations contractuelles nouvellement établies et des exigences de souveraineté des données, REA Group souhaitait rapatrier ses ensembles de données BigQuery EU dans la région relativement nouvelle de Sydney. »

Caif a déclaré que les charges de travail de données basées sur les GCP de REA servaient des «fonctions de reporting critiques» pour les ventes, le marketing, l’audience et à d’autres fins.

Il a déclaré que Google Cloud Storage (GCS) et son service de transfert «étaient utilisés comme technologie principale» pour rapatrier les données.

« Nous avons utilisé GCS pour extraire les données, puis les recharger dans BigQuery du côté de Sydney », a écrit Caif.

Les «données chaudes» – les données utilisées le plus fréquemment par REA – ont dû être déplacées «dans une fenêtre agressive de 48 heures».

«Ceci, associé à la nécessité de valider que les données avaient été migrées avec succès et sans corruption, a rendu la tâche encore plus difficile du point de vue de l’ingénierie», a écrit Caif.

Caif s’est efforcé de ne pas trop simplifier le projet.

«Lorsque vous pelletez un demi-pétaoctet de données d’un continent à un autre, les choses deviennent beaucoup plus intéressantes et stimulantes», écrit-il.

«Le mouvement de tant de données a en fait soulevé quelques considérations qui n’étaient pas en jeu pour les petits projets de rapatriement que nous avions réalisés dans le passé.

« Par exemple, BigQuery a des limites et des quotas d’extraction et de chargement avec GCS pour lesquels nous devions envisager et concevoir des solutions. »

Le rapatriement a couvert quelques tableaux «hot data» dépassant 100 To et qui étaient mis à jour en temps réel par des jobs de streaming.

«La migration de ces tables était de loin les obstacles les plus difficiles techniquement que nous devions surmonter», a écrit Caif.

Servian a fini par diviser les tables en plus petits morceaux qui pourraient être plus facilement migrés, en particulier dans les limites d’extraction de données fixées par Google.

«De l’autre côté, lors de leur rechargement, nous devions bien sûr réassembler / recombiner puis de nouveau dans une table avec les bonnes partitions», a écrit Caif.

«Cela impliquait également des efforts d’ingénierie plus lourds.»

Rate this post
Publicité
Article précédentLes fans de PUBG remercient Waqar Zaka alors que PTA annule le jeu
Article suivantDes centaines de personnes supplémentaires ont été testées pour Covid-19 dans une unité de test mobile à Stone aujourd’hui> A Little Bit of Stone
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici