Transcription de l'entretien
Sami Taaissat
Software & Data Engineer chez Artefact
"L’IA Générative – Démo Babylone"
Bonjour à tous je suis Emmanuel Malherbe, directeur de la recherche chez Artefact et j’ai la chance d’animer ces Data Coffees de la plateforme média The Bridge. Le principe est simple, un expert data, aujourd’hui Sami.
Bonjour Emmanuel.
Bonjour Sami. Un sujet data, aujourd’hui l’IA générative et un bon café. Alors Sami qui es-tu chez artefact ?
Chez Artefact je suis data engineer depuis environ 1 an et et ma spécialité c’est l’IA générative.
À ce sujet, cette année tu as présenté à VivaTech un outil dénommé Babylone.
Tout à fait.
Pourquoi Babylone ?
Babylone c’est une référence à la cité du savoir. C’est un outil qui permet de compiler le savoir donc pour nous c’était un nom qui était très explicite et plutôt approprié.
Et qu’est-ce qu’il fait exactement cet outil ?
En fait Babylone, ce qu’il fait c’est qu’il prend des données déjà existantes, comme un site web ou un fichier PDF, il va ensuite compiler tout le texte qui est à l’intérieur, le résumer, le contextualiser, donner tout ça à une IA générative, en l’occurrence ChatGPT4 et à partir de de tout ce texte qui est donné à l’IA générative, ce qui va se passer c’est que quand un utilisateur va poser une question, l’IA va piocher dans ce qu’elle connaît, donc dans ce qu’elle a appris du site web par exemple et va pouvoir répondre de manière contextualisée et très précise aux questions posées par un utilisateur.
C’est très clair. Sans plus attendre je propose qu’on regarde la démo.
Très bien. Voici Babylone. Ça se présente ainsi. On commence par choisir le type d’informations qu’on veut donner à notre IA. Donc on va partir sur un site web entier. Une fois qu’on a choisi le type de de source, on entre l’adresse de notre site web on va tester sur artefact.com. Donc on collecte la donnée, là ça s’est fait en quelques secondes parce qu’on peut avoir le système de mise en cache. Comme à VivaTech on avait beaucoup de passages sur notre stand, l’un des gros objectifs de cette démonstration était que ça prenne un minimum de temps pour pouvoir récupérer, collecter la donnée, la traiter, etc donc on a mis en place beaucoup de technologies derrière qui permettait de faire tout ça. En voici une justement en action. Une fois que c’est fait, on va connecter la donnée qui a été récupérée au robot donc à notre IA. Là aussi ça prend quelques secondes. Ce qui se passe lors de cette étape, c’est que toute la donnée qui a été récupérée, on l’a convertie dans un format qui peut être compris par GPT donc c’est une transformation vectorielle comme on appelle et on stocke tout ça dans une base de données dans laquelle GPT va pouvoir piocher à chaque fois qu’on pose une question. En fait le processus est en plusieurs étapes, d’abord on pose la question à GPT, GPT va essayer de comprendre la question et pour ça il va transformer notre question en une représentation mathématique. À partir de cette représentation mathématique, on va aller comparer à notre base de données et récupérer les documents qui sont le plus susceptibles de répondre à la question. Une fois qu’on a récupéré ces documents, on les donne à notre IA avec la question qui a été posée par l’utilisateur et ça va permettre en fait de contextualiser la réponse apportée par l’IA.
Très clair, donc il y a une étape d’indexation de tous ces documents par GPT4 ?
Tout à fait. On peut le voir en action donc je vais poser comme question à mon IA pour montrer ses capacités “what is artefact ?”
C’est une question importante !
Très importante mais très standard et elle va nous permettre en fait d’assez rapidement déterminer si le processus a fonctionné ou pas. Pourquoi parce qu’un artefact en anglais c’est comme un artefact en français, c’est un objet archéologique et donc si on pose cette question à ChatGPT qui lui aussi utilise GPT, comme il n’a pas les documents qui lui permettent de comprendre ce que c’est que l’entreprise Artefact, il va juste nous donner la définition d’un artefact.
Donc ce n’est pas une question si simple que ça en fait.
Exactement. C’est une question qui permet vraiment de montrer le “avant après”. Voilà on peut voir ici qu’il nous répond que Artefact c’est une data driven marketing agency, spécialisée dans le consulting, le digital marketing et le commerce digital. Et comme je le disais c’est là en fait où on voit que la contextualisation a permis à GPT d’avoir des informations qu’il ne connaissait pas avant. Et c’est pour ça que c’est une question très intéressante à poser bien qu’elle soit très basique pour montrer le “avant après”.
Ça marche très très bien.
Ensuite après la réponse, on peut voir que Babylone nous donne aussi les sources, donc en fait ce sont toutes les pages, tous les morceaux de données qui ont été utilisés pour répondre à la question. C’est très important d’avoir les sources car ça nous permet de montrer et de les utiliser en fait pour les mettre dans un autre robot et s’assurer qu’on n’a pas des fake news qui sont générées. Car ça va être ça l’un des gros soucis avec l’IA générative et les modèles comme GPT, c’est que lorsqu’il ne connaît pas la réponse, il va avoir tendance à générer des hallucinations qui sont en fait des fake news très concrètement.
C’est très convainquant, c’est impressionnant, c’est rapide et tout simplement ça marche alors qu’il y a un vrai challenge sémantique à ce problème là. Merci à tous pour votre attention et je vous donne rendez-vous pour le prochain épisode sur le thème de l’IA générative sur la plateformme média The Bridge.