BRIAN LOZACH

Transcription de l'entretien

BRIAN LOZACH

Senior Data Scientist chez Artefact

"La Modern Data Stack & la transformation du métier de Data Scientist."

Bonjour je suis Emmanuel Malherbe, directeur du Centre de Recherche et Développement Artefact et j’anime les Data Coffee de notre plateforme médias The Bridge. Le principe est simple : un sujet, aujourd’hui la Modern Data Stack, un expert, aujourd’hui Brian. Bonjour Brian. 

Bonjour Emmanuel.

Donc tu es data scientist chez Artefact. Effectivement, donc je suis data scientist chez Artefact depuis quelques années maintenant et donc mon travail c’est de développer des solutions concrètes pour nos clients basées sur des modèles d’intelligence artificielle. 

Et donc quel regard tu portes sur la Modern Data Stack ? 

Pour moi la Modern Data Stack c’est un ensemble d’outils qui facilitent notre travail au quotidien en tant que data scientist. Ce sont des outils plus pertinents et mieux connectés aux différentes briques technologiques, qui intègrent nativement des bonnes pratiques de software engineering.”

Est-ce que tu as un exemple concret d’outil pour donner exactement une idée ? 

Ouais exactement, donc moi j’ai l’habitude de travailler avec BigQuery et plus récemment avec DBT pour notamment créer un algo de recommandation en assez peu de temps en utilisant DBT. 

Et donc concrètement comment DBT change ta façon de travailler pour déployer et designer les modèles ? 

Alors du coup c’est quelque chose qui est très intéressant parce qu’on va coder en SQL donc ça c’est quelque chose qui est assez déroutant pour un data scientist, de se dire on va pas coder en Python pour cette mission et du coup le fait de coder en SQL en fait ça va plus correspondre aux usages des clients qui ont plus l’habitude d’utiliser le SQL et ça va contracter la stack technique. Concrètement ce que ça veut dire c’est que en utilisant ces outils et les langages qu’utilisent le client, on va améliorer la prise en main par le client de notre code et du coup faciliter l’adoption chez le client de notre solution.

Ah oui c’est très clair c’est très utile. Et est-ce que pendant la phase de conception vous êtes directement en SQL ou justement le design se fait toujours en python ?

On utilise les deux, donc on utilise toujours Python pour explorer la donnée c’est quand même notre langage de préférence mais tout ce qui est partie mise en production on va le faire en SQL. 

Ah oui donc c’est très utile. Et quel est l’avantage par rapport à utiliser des requêtes classiques dans BigQuery par exemple ? 

Alors du coup DBT ce qu’il permet, c’est dès qu’on commence à coder en fait on a un ensemble de bonnes pratiques qui permettent de faciliter l’adoption, notamment on va avoir par nature un data lineage de toute notre pipeline de données. On va aussi avoir de la documentation déjà intégrée et des tests qui vont être facilités par l’outil. On va pouvoir ajouter des tests au fur et à mesure afin de garantir une bonne pipeline de données et donc un bon modèle pour le client. 

Donc c’est intéressant parce que ça permet d’avoir une partie software engineering plus facile dans ton métier. Et est-ce que ça a changé ton interaction avec les autres équipes tech ? 

Exactement, ça permet d’ouvrir le dialogue beaucoup plus facilement avec notamment les équipes IT chez le client de sorte à avoir une documentation dès le jour un directement intégrée dans l’outil et donc ça permet de leur partager cette information et qu’ils nous fassent des retours au fil du projet. 

Et toi plus personnellement, est-ce qu’il y a une feature qui t’a vraiment plu plus particulièrement dans DBT ?

Alors totalement oui, c’est toute la partie tests automatisés sur la donnée. Quelque chose qui est souvent oublié dans le travail d’un data scientist c’est justement les tests automatisés sur les sources de données que le modèle utilise. On a l’habitude en tant que data scientist de tester toutes les fonctions à un niveau le plus granulaire possible. Ce qui est souvent laissé de côté c’est le test sur les données et justement DBT par nature va proposer de faire des tests très facilement sur la donnée. Et du coup ça permet de résoudre un problème qui s’appelle le Silent fail qui est une baisse de la performance finale du modèle, mais grâce à DBT on peut mettre en place des alertes automatiques sur les sources de données.

Donc c’est hyper utile en effet puisque la des données étant le cœur de la data science et l’IA, on voit clairement les bénéfices. Et donc dans cette Modern Data Stack tu vois vraiment ça comme une simple collection de nouveaux outils ou en fait c’est un peu plus que ça ? 

Alors c’est un peu plus que ça. Donc c’est avant tout comme tu dis une collection d’outils qui permettent de vraiment tacler des problématiques différentes de la pipeline de traitement de données mais c’est avant tout aussi une communauté qui est très active sur ces nouvelles technologies et qui permet aussi d’étendre le champ des possibles de ces outils pour des utilisations spécifiques.

Et donc concrètement ça veut dire que tu as toi-même contribué à ces outils de la Modern Data Stack comme DBT ?

C’est ça exactement. Donc là par exemple dans une précédente mission on a créé donc tout un moteur de recommandation basé sur DBT en utilisant BQML, il manquait la fonctionnalité qui permettait d’entraîner le modèle directement dans DBT et donc très récemment on a proposé un snipet de code qui permet de résoudre ce problème et il a été accepté donc toutes les personnes peuvent maintenant utiliser DBT et entraîner un modèle de recommandation via DBT grâce à la magie de l’open source et à tous les contributeurs qui existent. 

Et donc ça veut dire qu’en tant que data scientist tu utilises la Modern Data Stack mais aussi tu y contribues.

 Exactement, c’est exactement ça.

Est-ce que tu vois des changements vis-à-vis de ton interaction avec le client grâce à cette Modern Data Stack ?

Oui totalement en tant que data scientist on a quand même un rôle de conseil et donc nous notre but c’est de rester toujours à la pointe sur ces nouvelles technologies qui apparaissent et de proposer cette solution aux clients quand elles sont pertinentes pour vous. Et du coup ça permet au client de prendre un peu de recul sur les stacks qu’il utilise, sur les outils qu’il utilise et à nous de proposer et de montrer comment tirer profit de ces nouveaux outils pour lui permettre de répondre à des problématiques réelles. Par exemple sur DBT, un outil qu’on a utilisé dans le cadre de notre mission et qui à la fin de la mission a été complètement intégré par l’équipe IT et qui va être utilisé sur des scopes beaucoup plus larges. 

Et donc à l’avenir pour tes prochaines missions comment le cycle va être changé par la Modern Data Stack ?

Alors du coup je pense que ça va être d’une manière très pragmatique, je pense qu’on va utiliser vraiment la Modern Data Stack quand on peut l’utiliser pour créer voilà une base line assez rapidement. Et ça ça va permettre d’itérer plus rapidement et plus efficacement sur des modèles de plus en plus complexes mais tout en ayant une base line sur laquelle se comparer. 

Donc c’est vraiment tout un écosystème qui te permet de te concentrer sur ton travail de Data scientist. Merci Brian.

Merci Emmanuel. 

 Et à bientôt pour un nouvel épisode de Data Coffee sur la Modern Data Stack.

RESTEZ INFORMÉ

ABONNEZ-VOUS A LA NEWSLETTER THE BRIDGE.

The Bridge by Artefact

TOUS NOS ÉPISODES THE BRIDGE