Inévitablement, les grandes entreprises collecteront toutes sortes de données sensibles. Souvent, il s’agit de données personnelles identifiables (PII) de leurs clients et employés, ou d’autres informations auxquelles seul un certain nombre d’utilisateurs devraient avoir accès. Mais à mesure que la quantité de données collectées par les grandes entreprises augmente, la découverte et la classification manuelles des données ne peuvent plus évoluer. Avec DLP automatique [Data Loss Prevention], Google a récemment lancé un outil qui aide ses utilisateurs BigQuery à découvrir et à classer les données sensibles dans leur entrepôt de données et à définir des règles d’accès en fonction de ces découvertes. La DLP automatique était auparavant en préversion publique et est maintenant généralement disponible.
« L’un des défis auxquels nous voyons beaucoup de nos clients confrontés est vraiment de comprendre leurs données afin qu’ils puissent mieux les protéger, préserver la confidentialité des IPI pour leurs clients, respecter la conformité ou simplement mieux gouverner leurs données », m’a dit Scott Ellis, chef de produit de Google Cloud pour ce service. « Nous pensons vraiment que l’un des défis auxquels ils sont confrontés est simplement cette prise de conscience initiale ou cette visibilité de leurs données. »
Ellis a noté que les processus manuels que de nombreuses entreprises avaient mis en place ne sont pas en mesure de faire face à l’échelle des données qui arrivent maintenant. Il faut donc un système automatisé pour entrer et inspecter chaque colonne à la recherche de PII, par exemple, pour s’assurer que ces données ne sont pas exposées involontairement.
Il y a aussi une ride supplémentaire ici en ce sens que beaucoup d’entreprises collectent également de grandes quantités de données non structurées. « L’un des plus grands défis que nous avons entendus de la part des clients est là : quand ils ont une colonne d’adresses e-mail, il est bon de le savoir. Une fois que vous le savez, vous pouvez le traiter comme ça. Mais lorsque vous avez des données non structurées, c’est un défi un peu différent. Vous avez peut-être un champ de note. C’est super précieux. Mais de temps en temps, quelqu’un met quelque chose de sensible là-dedans. Les traiter comme un peu différents. Parfois, l’assainissement est différent pour ceux-ci », a expliqué Ellis.
Pour faciliter un peu la prise en main de la DLP automatique, l’équipe a créé un certain nombre de nouveaux modèles de tableau de bord pour Data Studio de Google afin de donner aux utilisateurs un accès plus facile à un résumé avancé et à un outil d’enquête plus graphique. Ils peuvent également utiliser la console Google Cloud pour explorer leurs données, mais ce n’est pas l’expérience la plus conviviale. Ils peuvent, bien sûr, également apporter ces données à Looker ou à un autre outil de BI pour les étudier, mais l’équipe voulait donner aux utilisateurs un point d’accès facile pour travailler avec leurs données qui encapsulaient beaucoup de ses propres apprentissages.
Avec cette version, Google offre également aux utilisateurs de nouveaux outils pour définir la fréquence et les conditions de profilage de leurs données. Lorsque le service a été lancé, l’équipe Google a défini les valeurs par défaut, mais en parlant aux clients, il est rapidement devenu clair qu’il y avait souvent des cas d’utilisation où le profileur devait s’exécuter à des intervalles différents. Si quelqu’un modifie le schéma d’une table, par exemple, une entreprise peut souhaiter que cela soit profilé immédiatement et une autre peut vouloir attendre quelques jours pour que cette table soit remplie avec de nouvelles données.
Une autre nouvelle fonctionnalité que l’équipe a construite est une intégration avec Chronique, le service d’analyse de sécurité de Google Cloud. Le service peut désormais synchroniser automatiquement les scores de risque pour chaque table avec Chronicle et l’équipe promet de créer des intégrations supplémentaires au fil du temps.