Transcription de l'entretien
Sami Taaissat
Software & Data Engineer chez Artefact
"L’IA Gen et le métier de Data Engineer"
Bonjour à tous. Je suis Emmanuel Malherbe, Directeur de la recherche chez Artefact. J’ai la chance d’animer ces Data Coffees de la plateforme media The Bridge. Le principe est simple, un sujet data, aujourd’hui l’IA générative, un expert data, aujourd’hui Sami et un bon café. Bonjour Sami.
Bonjour Emmanuel.
Qui est-tu chez Artefact.
Alors je suis Sami Taaissat, j’ai rejoint Artefact il y a environ 6 mois en tant que data engineer. Avant ça j’étais ingénieur en système donc je m’occupais principalement de tout ce qui est système temps réel et d’interface machine, donc processing audio, gestion de robot, etc. J’ai décidé de changer pour devenir data engineer parce que quand on est informaticien, on se rend assez vite compte de ce que c’est la data, comme on travaille beaucoup avec, à quel point c’est utile et ce que ça peut nous apporter dans le futur.
Et dans cette histoire que vient faire l’IA générative ?
Et bien je suis arrivé chez Artefact un peu en même temps que l’essor de l’IA générative. J’avais à peu près un mois d’ancienneté chez Artefact quand ChatGPT était sorti et comme à chaque fois qu’une nouvelle technologie sort ou devient de plus en plus connue par le public, c’est un peu notre rôle en tant que data engineer de découvrir comment est-ce qu’elle fonctionne et ce qu’on peut faire avec pour proposer des solutions de plus en plus efficaces à nos clients.
Et concrètement est-ce que tu as des exemples d’outils que tu utilises ?
Bien sûr, tous les les jours j’utilise Copilot, en tant que data engineer il faut beaucoup coder et Copilot m’a permis de réduire une grosse partie de mon temps passé sur du code. En fait c’est un modèle qui nous donne des suggestions de code et c’est très efficace pour éviter la répétition de code, comme j’ai tendance à l’appeler boiler plate, c’est-à-dire code de base, qu’on va peut-être répéter 30 voire 50 fois dans une journée et grâce à ça, ça permet d’être plus productif et de se concentrer sur la vraie valeur ajoutée d’un data engineer, c’est-à-dire l’algorithme qu’il y a derrière, l’architecture qu’il y a derrière et la solution en elle-même.
Et si on prend un peu de recul, est-ce que tu as des exemples de solutions nouvelles offertes par l’IA générative ?
Oui, par exemple on peut créer des chatbots beaucoup plus efficaces qu’avant, je ne sais pas si tu es familier avec d’anciennes technologies qu’on utilisait pour la création de chatbot pour le service client, mais par exemple Dialogflow, ce sont des outils où il faut créer les parcours expérientiels à la main, donc il faut déjà avoir une équipe qui pense à tous les parcours expérientiels, ensuite il faut les implémenter techniquement, etc, c’est quelque chose qui prend beaucoup de temps et qui au final donne des résultats qui ne sont pas si top que ça. Tout le monde a déjà été frustré quand il a discuté avec un chatbot automatique parce que tout simplement on ne peut pas penser à toutes les solutions possibles et imaginables, mais aujourd’hui en utilisant des modèles qui s’appellent des LLM, des Large Language Models, on peut en fait juste créer des chatbots à partir de données parce que le LLM va interpréter le contexte et le contenu des données qu’on lui donne et quand un client va poser une question au chatbot, ça va automatiquement générer une réponse à partir des bases de connaissances qui existent déjà. C’est vraiment comme si on interagissait avec un humain.
Et donc Sami, est-ce que en terme d’interaction tu as vu une différence avec ces outils ?
Oui carrément. En tant que data engineer on doit beaucoup faire le pont entre le business et le côté technique, on interagit beaucoup avec les clients qui nous expliquent en fait leurs besoins et c’est à nous d’interpréter les besoins et de les concrétiser. Le problème c’est qu’on a vraiment des parcours très différents avec les les utilisateurs business en général, je sors d’une école d’ingénieur la plupart des utilisateurs business vont sortir d’école de commerce etc, donc on ne va pas utiliser les mêmes termes pour décrire les mêmes choses. Souvent quand un client va me décrire un projet, je vais réussir réussir à voir la finalité, je vais réussir à voir d’où est-ce qu’on vient, mais le milieu peut-être un peu flou. Dans ce cas-là ce que je peux faire, c’est utiliser par exemple Chat GPT, donner un peu de contexte, donner les termes business comme ils sont écrits et ça va me permettre de m’aider à mieux comprendre ce que le client avait en tête et donc de vraiment créer une solution qui est parfaitement adaptée à ses besoins, alors qu’avant j’étais un peu obligé de “perdre un peu de temps” à essayer de comprendre, chercher des définitions dans le dictionnaire, discuter avec des collègues pour vraiment être sûr que j’ai saisi la chose et c’est un processus qui est au final vachement itératif parce que même si je vais discuter avec 200 personnes etc, on ne peut pas être dans la tête du client donc c’est un procédé peu fiable. Alors que maintenant on peut vraiment s’aider de ce genre de choses pour avoir, à défaut d’avoir compris ce que le client voulait, au moins avoir les pistes pour trouver les questions qu’il faut se poser pour implémenter la solution.
Donc au-delà d’interagir avec le code, les LLM te permettent de mieux interagir avec des collaborateurs. Est-ce que tu vois d’autres choses que te permet l’IA générative ?
Honnêtement même pour le divertissement c’est très amusant. On a des modèles qui génèrent des images, on a des modèles qui génèrent du texte, parfois quand je m’ennuie quand je suis chez moi je peux m’amuser, par exemple je peux créer des memes en IA générative alors que je n’ai aucun talent en création d’image par exemple.
Alors beaucoup d’impact, beaucoup de changements, est-ce que tu vois encore d’autres choses pour la suite, encore plus large avec l’IA générative ?
C’est un peu compliqué de se projeter mais ce que je peux faire c’est essayer de repartir de comment est-ce que mon métier a changé. Déjà en tant que data engineer je travaille beaucoup avec les sources de données, la transformation des données, comment les envoyer d’un point A à un point B, les rendre disponibles pour les data scientists ou pour les modèles etc, on a déjà vu un premier gros changement où on passe de données qui sont numériques à des données qui sont textuelles, ça demande un tout autre paradigme de réflexion. On passe de données textuelles à des vecteurs, ça demande encore un tout autre paradigme de réflexion, ça apporte beaucoup de changements qu’on n’avait pas prévus, sur mes premiers projets en tant que data engineer sur de l’IA générative, je pensais que les pipelines n’allaient pas trop changer, que j’allais juste prendre des données de nature différentes et les envoyer comme ce que je faisais avant mais ce n’était pas du tout le cas. Il fallait réfléchir à des dimensionnements très différents etc, donc pour prédire un peu le futur, autant je ne sais pas trop comment est-ce que les modèles vont évoluer, on a déjà des modèles qui sont extrêmement efficaces avec des résultats vraiment très bons, bien sûr il y aura des évolutions dans le futur mais est- ce que sera très important, on peut déjà faire énormément de choses avec l’IA générative et clairement on n’a pas encore touché à tout son potentiel, donc autant sur les modèles je ne sais pas comment ça va évoluer mais en tout cas sur tout l’écosystème qui est autour, il y aura beaucoup de changements. Par exemple on travaille avec des pass de données vectorielles pour permettre de mettre à disponibilité de la donnée au modèle d’IA générative, on a beaucoup de compétition entre différents systèmes open source et différents systèmes SaaS qui sont commerciaux. Ce qui est sûr c’est que dans le futur il va y avoir un gros changement sur tout ce qui est le marché de cet écosystème avec des compétiteurs qui vont devoir fusionner par défaut au final, parce qu’il ne peut pas y avoir trop de concurrents sur le même marché sinon ça ne fonctionnera pas et du coup des paradigmes qui vont vraiment se développer de façon très différente, un peu comme on a des façons de travailler différentes en fonction de si on utilise GCP, Azure ou AWS, on aura un peu la même chose mais cette fois-ci avec les modèles d’IA générative, où on aura d’un côté ceux qui vont plus être fans de Milvus par exemple en tant que vector store et de l’autre ceux qui sont plus fans de ClickHouse par exemple. Donc ce qui est sûr c’est qu’il y aura beaucoup de choses où il faudra se former et beaucoup de paradigmes qu’il faut encore développer et c’est à nous de bien trouver les bonnes pratiques et essayer de les transmettre à tout le monde.
C’est des perspectives très excitantes sur les prochains mois et les prochaines années, puisque ce n’est pas terminé avec l’IA générative. Merci à tous pour votre attention et je vous donne rendez-vous pour un prochain épisode Data Coffee de la plateforme média the Bridge sur le thème de l’IA générative.