Tensorflow chapitre suivant

Juste quelques jours après avoir poussé le dernière version de TensorFlow, Google a open source un nouvel outil pour le cadre d’apprentissage automatique visant à faire progresser le format d’enregistrement.

L’enregistreur TensorFlow est disponible sur GitHub sous la licence Apache 2.0 et est destiné à aider à créer des TFRecords à partir «d’images et d’étiquettes dans Pandas DataFrames ou fichiers CSV».

Selon les ingénieurs de Google Cloud AI Mike Bernico et Carlos Ezequiel, le projet est devenu nécessaire dans un contexte de vision par ordinateur, où le chargement de données peut prendre un certain temps lorsqu’elles ne sont pas formatées correctement. Par conséquent, les ressources ne sont pas utilisées aussi efficacement qu’elles pourraient l’être, ce qui rend encore plus long un processus déjà chronophage.

Lorsque vous utilisez TensorFlow pour créer des modèles pour ces types de cas d’utilisation, le format d’enregistrement du projet est un moyen de contourner ce goulot d’étranglement, car il peut être combiné avec des approches telles que la prélecture, qui obtient des données pour les étapes de traitement suivantes avant qu’elles ne soient nécessaires, et l’entrelacement pour le traitement parallèle, pour réduire la latence.

Pour y arriver, les données brutes doivent être converties, ce qui nécessite un peu de travail que tout le monde n’est pas disposé à faire. C’est là que Bernica et Ezequiel espèrent que TensorFlow Recorder entrera, offrant aux utilisateurs un moyen relativement facile de partir image / étiquette définit sur TFRecords avec seulement peu de code supplémentaire.

Cependant, pour l’instant, l’outil sera très utile à ceux qui connaissent déjà le portefeuille de Google, car Recorder s’attend à ce que les données soient au format image csv similaire à celui qu’AutoML Vision préfère. L’équipe «espère» étendre la prise en charge des formats à l’avenir, mais comme le projet est maintenant open source, cela ressemble plus à un appel aux utilisateurs pour qu’ils fassent peut-être leur part pour ajouter la conversion Pandas DataFrame au mix.

Une autre mise en garde est le fait que ses créateurs disent que – tel quel – le projet ne serait pas mis à l’échelle «d’énormes ensembles de données» de millions d’images. Étant donné que ces ensembles de données peuvent en effet être nécessaires pour des tâches de vision par ordinateur plus complexes, TensorFlow Recorder peut être connecté à Google Cloud Dataflow, qui devrait être mieux à même de gérer de grandes quantités de données.

Bien sûr, la mise en place de cette option est très utile, mais elle pousse à nouveau les utilisateurs vers l’une des offres commerciales de Google, qui semble devenir de plus en plus présente dans le projet open source ces derniers temps. D’autres exemples de ce développement sont l’accent continu sur l’intégration TPU pour des améliorations de vitesse et quelques paquets se frayer un chemin dans Google Cloud Storage – ce dont les utilisateurs doivent au moins être conscients.

Leave a Reply