Avant de me lancer dans des MOOC populaires ou d’acheter des livres recommandés sur Amazon, j’ai commencé par m’abonner à diverses newsletters sur la science des données et l’ingénierie des données. Au début, je lisais chaque article et prenais des notes, mais au fil du temps, j’ai appris à reconnaître les liens importants partagés dans plusieurs newsletters et à me concentrer sur quelques-uns. Les newsletters sont idéales pour rester à jour avec les nouveaux outils, la recherche universitaire et les articles de blog populaires partagés par les grands géants de l’Internet (par exemple, Google, Netflix, Spotify, Airbnb, Uber, etc.).
Voici quelques-unes de mes newsletters préférées:
- Tour d’horizon de la science des données de Tristan Handy: Tristan fournit son propre commentaire sur sa liste d’articles sur la science des données.
- Science des données hebdomadaire: Une liste organisée d’articles et de billets de blog sur la science des données, l’IA et le ML. Je trouve également que les sections Formation et ressources constituent une collection utile de didacticiels en ligne.
- Newsletter des hackers: Une newsletter hebdomadaire contenant des articles triés sur le volet de Hacker News. Ce n’est pas spécifique à la science des données / l’ingénierie, mais il existe une section dédiée sur les données et le code qui sont pertinents.
- AI Hebdo de VB: Réflexions des écrivains de Venture Beat avec une collection d’articles liés à l’IA.
Je m’abonne également àData Machina,Le Dispatch Analytics, etIA hebdomadaire.
Créez votre propre curriculum de données
Ensuite, en fonction de votre objectif, vous devez élaborer votre programme de science des données, d’ingénieur de données ou d’analyste de données. Cela peut inclure l’apprentissage de la programmation en Python ou R si vous changez de carrière d’un rôle non-programmeur. Si le budget n’est pas un problème, rejoindre un bootcamp ou suivre des coursUdacityetDataquestpeut être une excellente option pour obtenir un mentorat en ligne d’experts de l’industrie. Cependant, si vous êtes conscient des prix comme moi, vous pouvez choisir de suivre des guides open-source pour créer un programme gratuit:
Une mise en garde ici est que le simple fait de suivre ces cours ne suffit pas. J’ai généralement trouvé la plupart des cours et des didacticiels en ligne axés sur les connaissances de base (par exemple, mathématiques, statistiques, théories) ou des guides simplifiés pour parcourir un exemple trivial. Cela est particulièrement vrai dans le Big Data, car les didacticiels ont tendance à utiliser un sous-ensemble plus petit de données pour s’exécuter localement au lieu de parcourir une configuration de production complète sur le cloud.
Pour compléter la théorie avec des scénarios réalistes, je suggère de rejoindreKaggleet en utilisant les outils gratuits de Google tels queColabpour s’entraîner à travailler avec de grands ensembles de données. Vous pouvez également rechercher des dépôts Github auprès des étudiants Udacity pour voir à quoi pourrait ressembler un projet de synthèse.
Réseautez gratuitement avec des experts
Tout guide de carrière vous dirait que le réseautage est important. Mais comment faire pour trouver des experts de l’industrie prêts à encadrer ou simplement répondre à quelques questions? Avant la pandémie, une option était d’assister à des rencontres, mais cette opportunité était en grande partie limitée aux résidents des principaux pôles technologiques comme la Bay Area, New York ou Seattle (du moins aux États-Unis). L’autre option était d’assister à des conférences ou à des ateliers axés sur la science des données, l’apprentissage automatique ou l’ingénierie des données. Cependant, les billets pour ces événements étaient très chers, ce qui rend impossible la participation des particuliers sans le parrainage de l’entreprise.
En tant qu’employé de startup vivant à Baltimore, ma solution consistait à créer un réseau en ligne en regardant d’abord des vidéos gratuites de sessions organisées par des partenaires de l’industrie lors de conférences techniques (par exemple AWS re: Invent, Microsoft Ignite ou Google Cloud Next) et en me connectant avec les intervenants sur LinkedIn. . Outre les keynotes et les sessions sur les nouvelles versions de produits cloud, il y a des tonnes de sessions sur les meilleures pratiques et les discussions d’architecture où un chef de produit ou un développeur principal d’un partenaire de l’industrie (par exemple Lyft, Capital One, Comcast) présenterait avec une solution architecte chez AWS / Azure / GCP sur la résolution d’un problème réel à grande échelle. Je prenais des notes sur la session, puis je contactais tous les intervenants sur LinkedIn avec une question sur leur produit ou une décision architecturale mentionnée dans la conférence. Étonnamment, presque tous les orateurs étaient prêts à répondre et à continuer à discuter avec moi, même si je n’étais qu’un diplômé récent travaillant dans une startup inconnue à l’époque.
Au fil du temps, j’ai régulièrement développé mon réseau de cette façon et j’ai eu l’avantage supplémentaire de rester à jour avec les nouveaux produits et les tendances du secteur chez tous les principaux fournisseurs de cloud. Compte tenu de la situation actuelle du COVID-19 et du changement continu vers des événements virtuels, cela pourrait devenir la nouvelle norme en matière de réseautage au lieu d’assister à des conférences pour rencontrer d’autres parties prenantes en personne.
Obtenir une certification
Bien que les certifications cloud ne constituent en aucun cas une validation de la capacité ou de la connaissance des données, je pense toujours qu’il est utile d’investir dans les certifications. Cela est particulièrement vrai si vous souhaitez devenir un ingénieur de données, car la connaissance du cloud est impérative pour exécuter les charges de travail de production. Même pour les scientifiques des données, se familiariser avec les produits cloud vous permet de vous concentrer sur l’analyse des données au lieu de lutter pour charger et nettoyer les données à grande échelle.
Un autre aspect sous-estimé de la certification est l’ouverture du réseau. Il y a des membres très actifs sur LinkedIn, en particulier dans le conseil en technologie, qui publient des nouvelles opportunités dans des postes de données cloud. Certains recruteurs publient directement dans les groupes LinkedIn pour les titulaires de certification uniquement. La certification à elle seule ne mènera pas à un nouvel emploi ou à un nouveau poste, mais le fait d’avoir ces badges facilite le démarrage d’une conversation avec d’autres ou des recruteurs. Personnellement, j’ai décroché quelques petits projets de conseil après avoir obtenu les certifications.
Résolvez de vrais problèmes
Enfin, comme pour toute discipline d’ingénierie, vous ne vous améliorerez qu’avec la pratique. Si vous travaillez déjà en tant que data scientist ou data engineer, acquérir une expérience du monde réel ne devrait pas être un problème. Pour d’autres qui cherchent à faire la transition, beaucoup recommanderont de créer un portefeuille. Mais par où commencer? Travailler avec le jeu de données classique Titanic pour la classification de survie ou le clustering pour le jeu de données iris est susceptible de nuire à votre portefeuille que de vous aider.
Au lieu de cela, essayez d’utiliser les projets publics Github comme source d’inspiration. En vous basant sur le réseau que vous avez créé sur LinkedIn via des sessions techniques et des certifications, regardez ce que les autres construisent. N’hésitez pas à utiliser des exemples de projets Udacity ou Coursera sur Github. Puis mélangez de vrais ensembles de donnéesRecherche Google,Kaggle, ourechercher un jeu de données intéressantet commencez à construire des solutions pour de vrais problèmes.
Si vous êtes intéressé par un secteur ou une entreprise en particulier, essayez de rechercher des ensembles de données publics et de créer un exemple de projet. Par exemple, si vous êtes intéressé par la fintech, essayez d’utiliserDonnées sur les prêts publics du Lending Clubpour construire un algorithme d’approbation de prêt. Le plus grand avantage à tirer du travail avec des ensembles de données réels est qu’ils sont très désordonnés et bruyants par rapport à ceux fournis dans les milieux universitaires.