Transcription de l'entretien
JEAN-DANIEL FEKETE
Senior Scientist Group Lead à l’Université Paris-Saclay et DR à l’Inria au sein de l’équipe “Analysis and Visualization”
"La visualisation des données, une aide puissante à l’analyse et à la décision qu’il faut savoir maîtriser et interpréter."
Bonjour je suis Caroline Goulard, j’ai créé deux entreprises dans le domaine de la visualisation de données et je travaille depuis plus de 10 ans à créer des ponts entre les humains et les données. On est ensemble aujourd’hui pour un nouvel épisode The Bridge le média d’Artefact qui démocratise la culture des données et de l’intelligence artificielle. On reçoit aujourd’hui Jean-Daniel Fekete. Jean-Daniel bonjour.
Bonjour Caroline.
Pouvez-vous vous présenter ?
Bien sûr. Donc je suis Jean-Daniel Fekete, je suis chercheur à l’INRIA l’Institut National de Recherche en informatique et à l’université Paris-Saclay et ma spécialité c’est les recherches en data visualisation ou visualisation d’information, selon la façon dont on l’appelle c’est pareil.
Qu’est ce que la Data Visualisation ou la Visualisation des Données ? Quelle est sa fonction première ?
Bien sûr donc la visualisation de de données c’est une façon de représenter des données qui sont généralement abstraites, typiquement ce qu’on peut avoir dans des bases de données et qui peuvent avoir porté sur n’importe quel type de données. Et l’idée c’est qu’en représentant ces données de manière graphique, en utilisant des bonnes représentations, on va pouvoir à la fois à comprendre mais aussi voir des choses qui sont souvent inattendues et pouvoir prendre des décisions à la fin sur ces données.
La visualisation de données est-elle une méthode efficace pour analyser les données ?
Oui sinon on ne l’utiliserait pas et tout à fait c’est très efficace, c’est étonnamment efficace. Donc souvent je prends un exemple simple pour illustrer l’efficacité en prenant une table, une table de petite taille donc typiquement là j’ai pris comme exemple la table des États américains et pour chaque État américain on va avoir le pourcentage de personnes qui ont des diplômes du supérieur et aussi le revenu moyen par personne. Si on pose des questions très simples sur ces tables, quel est l’état où il y a le plus haut pourcentage ou quel est l’état où il y a le revenu le plus élevé, on peut répondre à la question il y a 51 lignes mais pour chaque question de ce genre là on va devoir parcourir toute la table. Ca va prendre beaucoup de temps et ça va être très pénible et on ne va pas poser beaucoup de questions parce qu’on va s’arrêter. Et donc l’idée c’est si on a beaucoup de questions de ce type là, même sur une petite table en utilisant une bonne représentation, et donc là j’ai un exemple de représentation très simple où on met sur l’axe des x les revenus moyens par personne et sur l’axe des Y le pourcentage de diplômes du supérieur, on répond instantanément à la question sans effort en moins d’une seconde, les deux États qui ont le maximum sont tout à fait apparents. Mais aussi on se rend compte instantanément qu’il y a une corrélation c’est à dire que les points sont essentiellement sur une diagonale et donc plus on a d’argent, plus on a de diplômes et plus on a de diplômes, plus on a de l’argent. On ne sait pas dans quel sens ça marche mais on voit bien qu’il y a une corrélation et on voit aussi immédiatement plein de choses intéressantes qu’on n’avait pas vu avant, les exceptions : il y a des états qui ont beaucoup d’argent mais pas beaucoup de diplômes, c’est le Nevada. Alors on se pose la question, pourquoi le Nevada il y a beaucoup d’argent et pas beaucoup diplôme et là on se dit ah oui il y a Las Vegas dans le Nevada et à Las Vegas il y a beaucoup d’argent mais c’est pas la peine d’avoir beaucoup de diplômes. Puis de l’autre côté il y a l’Utah où il y a beaucoup de diplômes mais pas beaucoup d’argent alors pourquoi l’Utah, ah oui il y a les mormons qui sont dans l’Utah. Et donc la visualisation de données elle permet non seulement de répondre à des questions qu’on avait avant de regarder, mais elle montre énormément de choses qu’on ne savait pas et des questions qu’on avait même pas imaginées se poser mais qui sont révélées en regardant la visualisation. Et donc ce point là je pense qu’il est très important parce que dans mon expérience quand des entreprises, des personnes regardent des données qu’ils n’avaient jamais regardé auparavant et bien systématiquement ils se rendent compte de choses tout à fait inattendues et souvent très étonnantes et parfois très importantes.
Quelle est la différence entre la visualisation de données et la statistique ?
Oui peut-être mais en réalité ce que je disais sur les découvertes surprises, les statistiques ne permettent pas de le faire et donc ce que j’essaye d’expliquer souvent dans mes présentations c’est qu’on est dans une nouvelle ère aujourd’hui, dans l’ère ancienne les statistiques permettaient de faire des vérifications sur des savoirs si des choses étaient importantes ou pas mais dans l’ère nouvelle avec la visualisation on a plus que des statistiques, on a aussi la possibilité de regarder la forme des données et ça c’est un point assez nouveau et intéressant. Donc on se disait avant que les données avaient pas forcément une forme mais là en leur donnant une forme on peut voir des choses qui étaient absolument pas visibles avec les statistiques. Alors un exemple qui est assez intéressant qui a été présenté par un statisticien au début du siècle qui s’appelle Anscombe, il a essayé de montrer ça en disant bon on va prendre quatre petites tables de données, un peu comme les États américains, puis on va faire des statistiques sur ces tables et ces statistiques elles sont absolument identiques. Donc pour un Data scientist moderne quand il a fait les statistiques descriptives initiales il va se dire selon moi ces tables sont à peu près équivalentes, mais quand on visualise ces quatre tables elles ont une forme qui est extrêmement différente et donc la visualisation va révéler des choses très intéressantes et très dissemblable. Donc dans l’exemple que je montre on peut voir que les quatre tables, l’une d’elles c’est des points qui sont à peu près bien dispersés en ligne, la deuxième ce sont des points qui sont très bien alignés mais il y a une exception quelque part, le troisième c’est des points qui ne sont pas en ligne du tout, ils sont plutôt arrondis et le dernier c’est des points qui sont tous à la même position sauf un qui est vraiment mon bizarre. On a du mal à imaginer à quel point les mêmes statistiques peuvent produire des représentations très différentes ou les représentations des formes peuvent avoir des statistiques très semblables et pour autant être très différentes. Et récemment c’est assez intéressant un chercheur à Toronto a montré que si on donne des statistiques descriptives, voilà je voudrais telle moyenne, telle variance, telle corrélation etc, je peux mettre n’importe quelle forme avec ces mêmes statistiques. Donc il a fait une visualisation très sympa où il montre des formes connues des étoiles etc, qui ont exactement les mêmes statistiques et jusqu’à montrer un dinosaure qui apparaît avec les mêmes statistiques et fait avec des points. Donc le message, je pense que le message important par rapport aux statistiques je crois, c’est que le monde des statistiques et le monde de la visualisation sont complémentaires, complètement complémentaires mais les visualisations montrent des choses qui sont très différentes et très intéressantes et qu’on ne peut pas avoir dans les statistiques parce que les statistiques nous répondent à nos questions alors que les visualisations nous poussent à notre système visuel des informations ou des questions qu’on n’avait même pas avant de les regarder. Donc ce sont deux fonctionnements différents très complémentaires.
Comment la Data Visualisation se base-t-elle sur les propriétés cognitives propres à l’humain ?
Oui et de propriétés perceptives aussi c’est intéressant donc moi j’ai tendance à dire qu’on détourne le mécanisme de notre de notre vision qui a évolué depuis des dizaines de milliers d’années, on va dire 100000 ans, 200000 ans. Donc cette vision elle nous a permis de survivre dans un monde un peu hostile, quand on était dans la forêt et qu’il y avait un animal qui commençait à bouger il fallait qu’on le voit et la forêt c’est très bruité donc notre système visuel il est vraiment très performant. Donc on l’utilise pour regarder des données et il a des capacités incroyablement efficaces et donc on utilise ses capacités pour regarder les données et pour comprendre les données très efficacement malgré le bruit. Donc les psychologues de la perception ont découvert dans les années 85-86, c’est Treisman qui l’a découvert, qu’il y avait une capacité humaine, qu’elle a appelée la perception pré attentive aujourd’hui on appelle ça plutôt efficace, qui nous permettait de répondre à des questions quand on voit des données instantanément, moins de 250 millions sans effort et de façon très sûre quelle que soit la quantité de données. Donc elle appelle ça les caractéristiques pré-attentives et donc la visualisation utilise cette caractéristique. Grâce à ça on peut effectivement quand on regarde des plein de formes, pour certaines questions on peut répondre sans effort instantanément, sans faire d’erreur quelle que soit la quantité de données donc ça c’est très important. Je vais peut-être vous montrer quelques exemples de ces caractéristiques parce qu’on se rend pas du tout compte au début. Donc la première caractéristique pré attentive, la façon dont on les met en évidence c’est on pose la question à quelqu’un, on lui demande de répondre et on lui montre une image pendant 250 millisecondes donc c’est très rapide et on voit s’il répond ou s’il répond pas s’il fait des erreurs. Là, la question que je vais vous poser c’est est-ce que vous voyez un rond rouge 3, 2, 1, top. Normalement tout le monde devrait dire oui j’ai vu un rond rouge et donc la réponse est très facile à faire. La deuxième question c’est est-ce que vous voyez un rond rouge mais c’est une autre configuration, 3, 2, 1, top. Beaucoup de personnes vont voir le rond rouge mais pas tout le monde parce que c’est plus difficile. Et la dernière question très différente c’est voyez vous un rond rouge et là les gens ne peuvent pas répondre, très difficilement répondre. La raison c’est que dans les deux premiers cas on a utilisé la couleur, la teinte et l’autre, la forme c’est le rayon de la forme, c’est un autre une partie de la forme. Ce sont deux caractéristiques pré attentives donc quand on pose des questions aux gens est-ce qu’il y a du rouge dans du bleu ou est-ce qu’il y a du bleu dans du rouge, ils peuvent répondre instantanément sans effort sans se poser de questions, on peut même leur demander s’il y a plus de rouge est-ce qu’il y a plus de bleu ils peuvent répondre sans problème. Sur les formes est-ce qu’il y a des ronds, est-ce qu’il y a des carrés ils peuvent répondre sans problème, sans difficulté quel que soit le nombre de carrés de ronds, c’est un peu plus dur. Quand on mélange la couleur et les formes et bien ils ne peuvent plus répondre instantanément, ce n’est plus pré attentif, les deux se mélangent et on ne peut plus répondre. Donc quand on fait de la visualisation ce qu’on essaye de faire c’est d’utiliser au maximum ces capacités là pour qu’on puisse regarder une représentation visuelle et répondre à des questions instantanément et sans effort sans se tromper, tout en sachant que parfois on est obligé d’utiliser des choses qui ne sont pas pré attentives. Et là bon il faut se débrouiller par exemple le texte n’est pas pré attentif et souvent il faut montrer du texte donc il faut faire attention. Donc il ne s’agit pas de décoration, de graphique pour faire beau, il s’agit vraiment d’utiliser nos capacités de perception et de compréhension qui ont été développées depuis très longtemps, pour interpréter des données très efficacement et donc c’est en ça que la visualisation est vraiment efficace.
La visualisation de données est-elle une méthode qui offre une analyse immédiate ?
C’est vrai il y a une tradition selon laquelle on entend souvent qu’une visualisation qu’on ne comprend pas instantanément elle n’est pas bonne et donc la réponse à cette question c’est il y a des visualisations très simples ou qu’on a l’habitude d’utiliser, elles sont très efficaces et elles vont toucher tout le monde donc si on est une entreprise et qu’on veut montrer à tout le monde, un maximum de personnes, des informations utiles avec la visualisation, il faut utiliser ces représentations qui sont connues. Mais quand on utilise la visualisation pour essayer de comprendre les données complexes, il existe des techniques de visualisation qui demandent un certain apprentissage, je pense aux coordonnées parallèles, aux matrices, etc et donc ces représentations sont super efficaces dans le sens où elles permettent de comprendre des grosses quantités de données, de trouver des choses vraiment très précises dedans, mais quand on les montre à des gens spontanément ils font des yeux tout blanc et il faut passer 10 minutes un quart d’heure à expliquer comment ça marche. Et après il faut que l’utilisateur passe un certain temps à s’entraîner pour comprendre comment interpréter ces représentations et une fois que ces personnes ont passé un certain temps là ils deviennent très efficaces. Donc on est dans cette situation qui est relativement standard, si on veut conduire un vélo il faut passer un peu de temps, si on veut conduire une voiture faut passer plus de temps, si on veut apprendre à conduire un camion il faut encore plus de temps. Pour la visualisation c’est un peu la même chose, si on veut apprendre à lire des visualisations très simples c’est très rapide et puis après il y a des visualisations qui sont plus puissantes mais qui demandent plus de temps. Donc cette espèce de mythe qu’une visualisation doit être toujours facile à interpréter instantanément, c’est c’est un mythe en réalité.
Comment s’entraîner à la visualisation des données ?
Oui, comme tout, on peut s’entraîner on doit s’entraîner, quand on a l’habitude de regarder les données, d’utiliser des techniques de visualisation on apprend et donc la meilleure façon de s’entraîner c’est de prendre des données qui sont intéressantes, vraiment intéressantes et d’utiliser plusieurs modes de représentation pour essayer de les comprendre. C’est un problème de temps. Avec un étudiant Jérémy, on a travaillé sur la notion de visualization literacy, donc l’alphabétisation à la visualisation on pourrait traduire ça mais c’est bizarre comme terme et donc on a montré qu’il y avait un niveau de compétence qui pouvait monter et qu’on peut mesurer, comme par exemple on peut mesurer le niveau de compétences à lire ou le niveau de compétence à faire des maths. On peut aussi mesurer ce niveau là et par contre c’est pas vrai pour toutes les visualisations, on peut être habitué à lire telle représentation ou telle représentation mais pas du tout une troisième donc c’est très spécifique. On a montré qu’on pouvait le mesurer, que les compétences montaient avec le temps. Moi je passe mon temps à regarder ces visualisations, je connais très bien les représentations et donc cette literacy on l’a définie avec Jérémy en disant que c’était la capacité en fait à traduire des informations des données aux informations visuelles. Donc il y a des propriétés dans les données et ces propriétés dans les données, les visualisations les affichent avec des formes particulières, des patterns on appelle ça ou des motifs et donc cette literacy je vais l’appeler comme ça, c’est la capacité de pouvoir dire quand je cherche quelque chose dans mes données, voilà ce que je vais chercher dans mes formes, quel motif je vais chercher et quand je vois tel motif dans ma visualisation voilà ce que ça signifie en termes de propriété des données. Donc par exemple si on prend un réseau social, un réseau qui va connecter des gens, si on cherche des gens très connectés, c’est une propriété dans les données, on va voir sur leur représentation une sorte de personnes qui est le centre d’une étoile avec beaucoup de branches, parce que chaque branche ça va être une connexion. Donc quand on va chercher ces gens-là on va chercher cette forme d’étoile et c’est ça qui va nous donner les gens très connectés. Si on va chercher des gens qui collaborent beaucoup entre eux, on appelle ça souvent des clics, sur les représentations ça va être des groupes de gens qui vont être très connectés et donc ça va ressembler à des sortes de plats de spaghettis et c’est ça qui va représenter ces gens connectés. Et enfin si on cherche des gens qui font la jointure entre deux groupes, c’est des gens très important c’est des gens qui font la connexion entre l’industrie la recherche etc, c’est des gens qui vont être très connectés à gauche et puis très connectés à droite mais qui vont rien avoir au milieu et donc on voit ça ces formes comme ça et on les détecte tout de suite. Mais bien sûr si je vous montre une représentation comme ça spontanément, si vous n’avez pas l’habitude vous allez par interpréter les visualisations ni les données. Donc en prenant l’habitude de regarder, de se poser des questions, on voit apparaître et on voit ces motifs et on sait les reconnaître et on sait faire la traduction entre la partie donnée et la partie visuelle de façon de plus en plus rapide et confortable.
La visualisation literacy, donc la capacité à décoder. On se pose aussi souvent la question d’être capable de trouver la bonne visualisation par rapport à un jeu de données et ça est ce que ça fait aussi partie de la visualisation literacy ?
Pas complètement non, ça fait plutôt partie de la connaissance de la de la visualisation. Si on compare la visualisation literacy avec par exemple l’alphabétisation, le fait qu’on sache bien lire, il y a une chose qui est de bien savoir lire et puis il y a une autre chose qui est de connaître toute la littérature ou tous les pans de la littérature. On peut être très bon lecteur et ne rien connaître à la psychologie cognitive, ou ne rien connaître à la philosophie. Le fait de d’être très érudit c’est différent de savoir bien lire donc c’est la même chose en visualisation, si on sait très bien lire une visualisation ça ne veut pas dire qu’on connaît toutes les visualisations. Donc les deux sont un peu indépendants. Et je pense qu’on avait un peu évoqué l’idée de data literacy, qui est encore plus générale, donc la data literacy est très générale et elle est un peu différente de la visualisation literacy mais on va dire qu’à l’intérieur de la data literacy, il y a une partie visualisation literacy mais aussi une partie éducation à tous les modes de représentation et connaître celles qui seraient les plus efficaces et donc c’est un peu différent.
Existe-t-il des modes de visualisation adaptés pour chaque jeu de données ?
Non, il y a effectivement beaucoup de recherches là-dessus, c’est un problème très intéressant de savoir quand on a un jeu de données et qu’on veut en tirer le maximum comment le regarder. Comme vous le dites, il y a eu beaucoup de recherches sur comment on va choisir le mode de représentation adapté et cette recherche elle est soit très prescriptive et elle dit si vous avez ça et ça voilà le mode représentation et moi je pense que ce n’est pas une bonne idée, parce que dans la réalité de tous les jours, quand on est en data scientist et qu’on a des données, souvent c’est quand on confronte plusieurs représentations qu’on arrive à aller au bout de l’interprétation des données. Donc une seule représentation ne permet pas toujours de savoir tout ce qui est intéressant sur les données plusieurs sont nécessaires. Une autre façon de faire c’est le fait de faire des recommandations. Donc là il y a des systèmes qui commencent à sortir qui recommandent et ça je trouve ça plus intéressant dans le sens où ce n’est pas un guide trop rigide, mais on dit vous êtes intéressé par telle ou telle chose, est-ce que vous avez pensé à représenter les données comme ci ou comme ça. Donc les recommandations c’est une bonne idée surtout pour les débutants et aussi pour être sûr qu’on n’oublie pas de regarder des choses importantes. C’est vrai que quand on a trouvé quelque chose de nouveau dans des données généralement on est très heureux et on se dit c’est génial mais ça fait qu’on peut abandonner la recherche de choses intéressantes qui serait visibles dans d’autres cas. Donc les recommandations sont super intéressantes mais je pense que ce qui est vraiment très intéressant à garder en tête c’est que quand on visualise des données une représentation ne suffit pas en général, il faut confronter, croiser les représentations pour être sûr qu’on n’a pas loupé des choses très importantes dans les données.
Quels sont les risques et limites de la visualisation de données ?
Alors oui et là on l’a vu ces dernières années, la visualisation devient de plus en plus populaire, on la voit de plus en plus, donc bien entendu la communication politique s’en est emparée et on voit énormément de nouvelles de publicités, de tweets, de pages Facebook qui montrent des visualisations qui ont été faites pour induire en erreur, elles ont été conçues pour. Donc il y a même des sites qui expliquent comment ne pas se faire avoir avec des visualisations qui induisent en erreur. Je peux faire un petit un petit résumé de ces cas-là mais c’est pas le seul cas où on peut se faire induire en erreur, c’est un cas fréquent donc c’est important de s’en protéger mais il y a un autre cas dont je voudrais parler qui est le cas où les données sont compliquées et leur interprétation est subtile et donc là je veux aussi un peu en parler. Mais d’abord je vais vous montrer quelques exemples très particuliers de visualisation qu’on a utilisés à mauvais escient. Donc la première chose qui est faite très fréquemment c’est ce qu’on appelle tronquer l’axe des Y. Quand on a une visualisation qui monte par exemple l’augmentation du prix du pain à travers les cinq dernières années. Si je montre le prix du pain avec seulement le prix du pain il y a 5 ans, puis il y a 6 ans, etc en commençant non pas à zéro, mais au prix du pain il y a 5 ans qui était disons à 60 centimes d’euros, on va voir une montée de 60 centimes à 65, à 70 etc et ça va être une montée qui va paraître être très importante. Si maintenant je montre le prix du pain en partant de zéro, je vais voir que en fait le prix du pain va être pratiquement stable.
Donc une technique super classique pour duper les gens c’est de tronquer l’axe et de partir d’une valeur petite pour que des différences très minimes apparaissent très grandes. Donc ça c’est un grand classique, je vous le recommande si vous faites de la communication politique pour dire que les prix ont augmenté ou que les salaires n’ont pas augmenté. Donc si vous voyez une visualisation où ça ne part pas à zéro quand on a des barres, vous pouvez vous dire où est le zéro, pourquoi il n’y a pas de zéro et en général ça veut dire que quelqu’un a manipulé la visualisation. Une autre chose qu’on voit souvent aussi, c’est de ne pas montrer tous les points. On va dire, oui on va mettre une année sur deux mais en fait si on regarde la température par exemple pour le réchauffement climatique, il y a des années où la température n’est pas très haute mais des années où elles montent etc, donc si on choisit de ne pas tout montrer, on peut sélectionner des points qui ne sont pas représentatifs et donc ça c’est tout à fait typique aussi de la visualisation utilisée pour induire en erreur.
Il y a d’autres graphiques très connus où on superpose deux choses différentes, donc il y en avait un sur le budget donné à l’information et puis le nombre d’avortements, quand le budget monte, les avortements montent. On superpose deux courbes qui ont rien à voir et en réalité cette courbe, cette comparaison elle a pas lieu d’être, les échelles ont rien à voir les données ont rien à voir, donc on voit beaucoup ça aussi en communication politique. Encore une fois quand on voit deux choses superposées, il faut se méfier parce qu’en général si on change l’échelle et qu’on met tout à la bonne échelle, les effets disparaissent. Donc vraiment c’est une nouvelle tendance. En plus de ce phénomène là, comme on le disait au début il y a des représentations plus efficaces que d’autres pour certains types de tâches et donc si on veut induire en erreur et qu’on veut dire qu’il n’y a pas beaucoup de différences entre tel ou tel type de données, on peut facilement utiliser un mode de représentation, typiquement le camembert, le fameux camembert mais c’est très difficile de comparer les angles d’un camembert en disant sur le camembert vous voyez c’est à peu près un tiers, un tiers, un tiers mais en fait si on affiche vraiment les données avec un autre mode de représentation, comme des barres, on va voir qu’il y a 50%, 30% etc, et donc là la différence va être très importante. Donc ça aussi c’est une technique bien connue de manipulation en utilisant les visualisations. Je pense que c’est aussi une question de, il faut s’habituer et toujours se dire quel est le message qu’on veut me faire passer, est-ce que on n’a pas utilisé des mauvaises visualisations qui finalement ne montrent rien. Ca devient de plus en plus fréquent et il faut s’en méfier. Enfin ce dont je voulais parler c’était le problème aussi des des visualisations qui sont exactes mais qui ne donnent pas le bon message. On a vu beaucoup de visualisations pendant le Covid et on a vu l’augmentation des hospitalisations, la diminution et au début ces visualisations elles étaient faites jour par jour, c’était le retour des hôpitaux et donc on voyait ces courbes qui montaient puis qui descendaient et le dimanche ça baissait et le lundi mardi ça remontait, puis le dimanche ça redescendait. Donc cette visualisation elle est exacte en termes de représentation des chiffres qui sont rapportés par les autorités de santé mais elle ne représente pas la réalité de l’épidémie, elle représente la façon dont les gens ont compté et donc le dimanche on comptait moins bien parce qu’on ne comptait pas dans certains endroits alors que le reste de la semaine on comptait mieux. Donc cette représentation là elle a induit en erreur, beaucoup pouvaient se poser la question pourquoi il y a une différence de contamination entre le weekend et la semaine. Et donc il a fallu du temps, même aux médias, donc c’est le Financial Times qui a fait des super représentations pour le Covid, il a fallu pratiquement un an au Financial Times pour lisser ces données sur la semaine, c’est une technique de statistique assez simple, pour réaliser que montrer ces données réelles avant de les lisser en fait ça induisait en erreur, plutôt que de donner des informations réelles. Donc c’est aussi un problème intéressant de se dire que même si les données paraissent réelles, elles peuvent subir des phénomènes de biais et donc quand on les affiche on voit des choses qui n’existent pas dans la réalité.
Alberto Cairo, qui est un professeur à l’Université de Floride en data journalisme et qui montre beaucoup la visualisation, a montré un exemple qui est très actuel sur l’Ukraine, c’était en 2014 donc c’était pas c’était pas récent, et en 2014 il a montré que beaucoup de personnes disent que lorsque l’on regarde la langue en Ukraine on voit que les russophones sont plus près de la Russie et que les non russophones sont plus loin de la Russie et que donc il y a une division et que ce serait logique que les russophones rejoignent la Russie. Donc en visualisant la carte, on voit ces deux blocs et on peut se dire c’est logique qu’il y ait des russophones. Mais ce qu’il a montré c’est que quand on demande aux Ukrainiens s’ils veulent rester dans l’Ukraine ou s’ils veulent rejoindre la Russie, sur cette question spécifique, plus de 80% partout répond “je veux rester en Ukraine” donc la langue parlée n’est pas représentatif de la volonté des gens d’aller à droite ou à gauche. Donc bien souvent les journalistes mais d’autres personnes aussi, pas forcément pour mentir, ils utilisent une mesure qui est ce qu’on appelle un proxy, un représentant en disant voilà, en utilisant ce représentant on voit que, et en fait ça représentant est mauvais. Donc il faut, encore une fois ça c’est de la data literacy, comprendre ce qu’il y a dans les données et donc là la visualisation va montrer les langues mais ces langues-là ne vont pas indiquer la volonté du peuple à rejoindre à pays ou non. Là encore on peut utiliser la visualisation pour induire en erreur et il faut être critique par rapport à ce qui est affiché.
La manière dont notre cerveau traite les informations peut-elle modifier la compréhension des données ?
Oui c’est intéressant, on a travaillé sur la visualisation depuis longtemps dans mon équipe et à partir de 2012 on a commencé à se poser la question, si j’affiche des informations exactes, réelles, le mieux possible est-ce que ça va faire que les gens vont prendre des bonnes décisions. C’est la différence entre le fait de comprendre des données et le fait de prendre de prendre des bonnes décisions à la fin et donc ce thème là c’est un thème qui est très connu en économie, parce que les économistes depuis le 18e siècle ont cette idée qu’il y a un homme rationnel qui quand il a la bonne information va prendre la bonne décision, l’homo économicus ils appellent ça, et ce mythe il a été balayé par un couple de psychologues américano-israéliens. Donc Daniel Kahneman a eu le prix Nobel d’économie parce qu’il a montré l’existence de ce qui s’appelle les biais cognitifs, maintenant tout le monde le connaît, et donc il a fait ça justement pour montrer que l’Homo economicus, la personne rationnelle prenait toujours les bonnes décisions. Et donc ce qu’il a montré c’est qu’il y avait des biais et que ces biais quand on ne les connaissait pas, on ne pouvait pas les éviter et donc on s’est posé la question nous si ces biais existaient aussi quand on utilisait de la visualisation. Donc qu’est-ce que c’est que ces biais un bien qu’on a essayé de tester c’est l’utilisation du leurre. Donc là j’ai quelques quelques exemples là-dessus, c’est très important pour les pour les la prise de décision par exemple pour les élections. Donc l’exemple c’est s’appelle l’effet d’attraction il est connu. Imaginons que vous ayez des élections de votre ville et vous avez deux personnes qui se présentent, il y a Bob et Alice qui se présentent. Bob il a un programme qui est super bon sur l’éducation, il connaît ça sur le bout des doigts par contre sur la sécurité il est un peu moyen, les gens sont pas très sûrs de lui. Alors qu’en fait Alice sur l’éducation elle connait pas grand chose mais par contre sur la sécurité elle est super. Donc en tant qu’électeur si on pense que l’éducation c’est essentielle on va voter pour Bob et si on pense que la sécurité c’est essentiel on va voter pour Alice. Et donc le biais cognitif de l’effet d’attraction c’est que Eve arrive et Eve elle n’est pas très bonne en éducation, elle est comme Alice et en sécurité elle est un peu meilleure que Bob mais elle est clairement moins bonne que Alice. Dans la théorie donc des biais cognitifs, on l’appelle un leurre et donc rationnellement si on va voter, si on est intéressé par l’éducation on va voter pour Bob si on est intéressé par la sécurité on va voter pour Alice, on n’a aucune raison de voter pour pour Eve dans un cas comme dans l’autre. Mais ce qui se passe c’est que dans la réalité les gens votent plus pour Alice quand Eve se présente parce que comme Eve se présente comme étant plus sécurité ça va donner des points en plus à Alice. Donc rationnellement il ne devrait y avoir aucune différence si elle est là ou si elle n’est pas là, parce qu’en fait elle n’est pas meilleure que l’un ou que l’autre mais comme elle est plus proche de Alice, il y a un biais cognitif qui fait que les gens vont plus voter pour Alice. Et donc ça, ça a été confirmé dans énormément de cas, où quand on introduit quelqu’un qui est proche, ça influence les électeurs. C’est un effet qui est contre la rationalité et donc dans la vie de tous les jours qu’est-ce que ça veut dire ? Ca veut dire si vous allez sur un site de vente en ligne, et que vous regardez les appareils photos et que vous avez deux critères le prix ou le nombre de pixels, s’il y a plus d’appareils photos d’un côté que de l’autre, vous allez être influencés par le fait qu’il y a plus d’appareils photos. Et en réalité si ce qui vous intéresse c’est soit l’un soit l’autre, le nombre d’appareils photos ne devrait pas influencer, vous devriez prendre le meilleur pour le nombre de pixels ou le meilleur pour le prix, mais entre les deux, les autres sont moins bons dans tous les cas et ça marche pas. Donc les tests des psychologues ont été faits sur des tables, on montrait des tables et on demandait aux gens de répondre et donc les effets étaient absolument dévastateurs. Et nous on a posé les mêmes questions avec des visualisations et les effets étaient exactement les mêmes. Donc les biais cognitifs, ceux-là en tout cas ce qu’on a testé, existent aussi avec des visualisations et donc là, la seule solution c’est de les connaître. Il n’y a pas de miracle, il faut que les gens soient conscients du fait que dans pleins de situations de décision, ils vont avoir des biais et s’ils les connaissent pas ils vont se faire avoir à tous les coups. Donc bon ça c’est un problème d’éducation. La visualisation hélas ne peut pas y faire grand chose. On a essayé quelques astuces mais je dirais que ça ne marche pas.
Que signifie un biais de confirmation, de quoi s’agit-il ?
Oui le biais de confirmation c’est un problème intéressant. Ca a été mis en évidence par le contre-espionnage américain, donc l’idée c’est qu’on a plein de données puis on cherche le méchant. Et on se dit le méchant, il doit se cacher quelque part, il doit communiquer avec d’autres personnes de son pays et il va faire un attentat et on va essayer de le trouver. Et le problème du biais de confirmation, c’est que si un analyste se dit “je pense que cette personne là, ça doit être lui le méchant”, elle va faire beaucoup d’efforts pour essayer de vérifier que ce qu’elle pense est vrai et ignorer pleins de détails qui vont faire qu’en fait c’est pas vrai, c’est quelqu’un d’autre. Donc le contre-espionnage américain s’est rendu compte que pendant de nombreuses années ils se sont fait avoir à cause de ça, ils ont dépensé un pognon de dingue à suivre des gens qui n’étaient pas dangereux et ignorer des signes très visibles de gens très dangereux. Et donc ils ont mis ils ont mis au point des méthodologies pour éviter ce biais de confirmation et donc là aussi il n’y a pas de miracle, il n’y a pas une visualisation qui va éviter ça ou une super intelligence qui va éviter ça. Ce sont des méthodologies où quand on cherche le coupable ou par exemple si dans une entreprise on cherche quelle est la partie entreprise qui dépense trop, au lieu de demander ça à une seule personne qui va avoir ses idées préconçues, qui va essayer de vérifier que c’est le budget du département marketing qui est responsable etc, on va demander à plusieurs personnes de faire la même analyse en séparé et ensuite on va confronter les résultats. Et ça, ça va beaucoup éviter ces problèmes de biais de confirmation parce que sinon c’est une tendance très forte chez les humains de chercher à confirmer ce qu’ils pensent et pas à essayer de les confronter avec des idées autres. Donc oui sur Wikipédia, si vous y allez il y a une page sur les biais cognitifs, il y a un poster superbe sur les biais cognitifs, très beau poster circulaire, avec un nombre incroyable de biais cognitifs. Et hélas, la seule manière de les éviter c’est de lire ces pages et de se rendre compte à quel point ces biais sont là et sont des effets de notre évolution mais sur lesquels on n’a pas vraiment d’action si on ne les connaît pas.
C’est ce qu’on devrait tous faire, et apprendre à l’école pour comprendre nos biais cognitifs.
Absolument.
Quelques exemples pour lesquels la visualisation de données a joué un rôle majeur dans l’histoire ?
Enormément. Dans l’industrie, quand c’est utilisé ça sert énormément. Donc il y a des tas de cas de d’écoles, par exemple un cas intéressant a été décrit dans la littérature, à BMW ils avaient un problème qui était dû au fait que sur leur berline les plus sophistiquées, de temps en temps quand les gens ferment les portes, toutes les fenêtres descendaient. Et donc ça agaçait les gens, quand ils ont payé leur voiture 100000 euros ils ne veulent pas que la voiture se mette avoir des comportements étranges. Et donc ils ont passé beaucoup de temps à essayer de comprendre. Et en utilisant de la visualisation sur tout leurs capteurs, ils ont fini par comprendre que c’était un mécanisme de sécurité, quand la pression devient trop importante la voiture baisse les vitres et quand les quatre portières étaient claquées en même temps, la pression monte très fort et les vitres baissaient. Mais pour comprendre ça, l’article explique toute leur démarche, et ça a été à partir de visualisation de tous les capteurs pour essayer de comprendre, quels étaient les capteurs impliqués et qui faisaient que ça se reproduisait et donc c’était très compliqué. Il y a ces cas là, il y a les cas d’optimisation de la production du circuit intégré qui a aussi utilisé pour l’optimisation de la production, de la visualisation pour comprendre ce qui se passait. Il y a un nombre vraiment très grand de cas où la visualisation est vraiment efficace. Par exemple, actuellement je travaille avec la CNAM pour essayer de comprendre comment les Français sont traités. Et donc la CNAM a toutes les données de remboursement de tous les Français pour toutes les pathologies, il n’y a pas de problème, et ce qu’ils veulent faire c’est dire, on va suivre une pathologie, le diabète ou le cancer du sein et regarder si les malades sont soignés conformément aux préconisations des médecins référents. Donc on l’a fait sur une pathologie particulière, les adénomes de prostate non cancéreux, et on a regardé, donc on travaille avec des médecins référents et ils n’ont jamais eu accès aux données. Donc ils avaient des préconisations, mais ils avaient aucune idée, est-ce que leur préconisations étaient suivies ou pas. Donc je leur ai demandé avant de montrer les visualisations, c’est un truc qu’il faut faire souvent pour que ça marche bien, qu’est-ce que vous vous attendez à trouver. Donc le médecin il m’a dit bon les patients arrivent, ils disent j’ai un problème, on leur dit prenez tel ou tel médicament, il y a trois molécules, ils essayent pendant six mois, un an, ça marche tant mieux, ça marche pas on leur fait un coup de bistouri et c’est résolu et ils rentrent chez eux. Je lui ai montré les données réelles et donc là il a failli tomber de sa chaise. En fait la moitié des données correspondait à ça, donc la moitié des données c’était bien ce qu’il se passait, on avait un traitement et ça marchait bien. L’autre moitié des données ça correspondait à rien, aucune idée de pourquoi les gens faisaient ça. Il y a des gens qui changent de molécules tous les 6 mois depuis des années, pourquoi on n’en sait rien. Il y a à peu près 10% des gens qui passent par la chirurgie et qui ne sont pas guéris, ils ne savent pas pourquoi. Donc à partir de là, il va pouvoir maintenant essayer de se poser la question, est-ce que ce sont mes préconisations qui ne sont pas bonnes, est-ce que je dois faire des préconisations plus subtiles en disant que s’il y a telle maladie associée à cette pathologie je vais devoir changer ma façon de traiter. Et donc avant que je ne lui montre, il était complètement dans le noir, donc voilà la visualisation sert, comme je le disais un peu au début, quand on montre des données qui n’ont jamais été montrées, on est toujours stupéfait, les gens sont toujours stupéfaits. J’engage les entreprises à regarder leur comptabilité avec la visualisation, regarder leur gestion des stocks ou de collaborateurs parce qu’il y a systématiquement des choses étranges qui apparaissent et c’est vraiment très efficace. A l’inverse si on n’utilise pas la visualisation, il y a des articles qui montrent qu’il y a des erreurs, mais si on utilise des mauvaises visualisations, on peut aussi avoir des accidents. Alors il y a un exemple célèbre qui est la navette Challenger en 86 qui a explosé. Pour la navette Challenger en 86, elle a explosé parce qu’il y a un joint particulier qui n’a pas tenu, qui a craqué et donc ça a fait exploser la navette. Et donc le sous-traitant qui s’est occupé de tester les joints il a utilisé une représentation visuelle qui était très sympa mais qui ne permettait pas de prendre de décision, qui n’était pas adaptée à la prise de décision. Et donc s’il avait utilisé un mode de représentation très simple mais très efficace pour montrer l’usure des joints en fonction de la température, il aurait vu que plus la température était basse, plus les joints étaient abîmés et qu’ils avaient jamais été aussi bas et que quand c’était déjà à moins 5 les joints étaient vraiment très abîmés, là il faisait moins 10, les joints ont explosé. Le fait qu’il n’ait pas utilisé la bonne représentation ne lui a pas permis de prendre la bonne décision et il y a eu des effets désastreux avec plusieurs morts. Donc dans les deux sens, la visualisation est efficace quand on l’utilise bien et peut s’avérer désastreuse quand on ne l’utilise pas correctement.
On voit que c’est hyper important au final, parce que si on s’en sert bien on peut trouver des choses qu’on n’aurait pas vu, améliorer énormément son entreprise, son activité. Si on s’en sert mal au contraire, des graves problèmes peuvent nous attendre, il y a des biais, il faut avoir une éducation à cette discipline. Au final ça devrait devenir un métier présent dans toutes les entreprises.
Absolument ça devrait et d’ailleurs ça va le devenir, je n’ai aucun doute là dessus. Quand on l’utilise au quotidien et quand on voit les gens qui l’utilisent, on n’en discute pas, j’ai vraiment des histoires incroyables. Par exemple une histoire intéressante que j’ai entendue quand j’étais au Maryland, c’était l’histoire de la justice juvénile où les juges doivent décider en 5 minutes est-ce que les enfants qui sont pris la nuit en faisant des bêtises doivent aller en prison ou est-ce qu’on les relâche. Et le juge a vraiment 5 minutes donc on essayait de voir les dossiers des enfants. Et quand on a visualisé les dossiers des enfants, l’âge des enfants, on s’est rendu compte qu’il y avait un pic d’enfants qui avaient entre 10 et 14 mois qui étaient arrêtés. Alors on n’imagine pas des enfants de 10 mois dans la rue en train de casser des vitres donc on a demandé à la police, mais qu’est-ce que c’est que cette histoire, ils ont dit qu’en fait quand les enfants ne veulent pas donner leur âge, il y a pas de case qui dit approximatif donc on utilise le nombre de mois au lieu du nombre d’années pour indiquer l’âge de l’enfant. Mais c’était documenté nulle part donc comme c’est documenté nulle part, personne ne le sait en dehors des gens qui font la saisie et donc quand on a visualisé les données, on a vu c’est cette aberration totale, qui fait que si on fait la moyenne d’âge des gens elle va être de 6 ans ou 7 ans ce qui n’est pas très crédible. Donc dans la réalité, quand on regarde les données on a toujours des surprises, des choses inattendues et donc on peut, en faisant ensuite des analyses sans savoir qu’il y a ces trucs bizarres, faire des erreurs gigantesques. Donc oui je pense que c’est vraiment important de répéter ce message, que regarder les données avant de commencer à les traiter, avant de faire du calcul, avant de faire du machine learning, avant autre chose, parce que si vous ne le faites pas, vous vous exposez à des choses bizarres, des erreurs, des mauvaises interprétations, etc, c’est clair.
Les entreprises ont-elles la conscience suffisante de l’importance de la visualisation de données ?
Je pense que c’est très variable selon les entreprises. Maintenant il y a des produits commerciaux comme Tableau par exemple, qui sont très connus et donc les gens qui l’adoptent ils l’utilisent et c’est facile à utiliser. J’ai discuté avec des gens comme Arianespace qui cherchent à prendre des décisions avec beaucoup de paramètres. Donc j’ai le sentiment qu’il y a une très grande dispersion entre les entreprises qui connaissent ces outils, qui les utilisent et ceux qui ne les connaissent pas et encore une fois moi mon sentiment c’est que ce sont les étudiants essentiellement qui vont colporter la bonne parole aux entreprises. Quand un étudiant va sortir d’une formation où il va avoir vu les bons outils, il va arriver dans une entreprise et dire si on utilisait un produit, même gratuit en fait il y en a quelques-uns ou payant, on pourrait probablement mieux comprendre ou bien trouver des erreurs, nettoyer les données. Je pense que les les étudiants sont un vecteur parfait, après la communication, le fait de dire essayez le ça veut dire aussi avoir des gens qui sont capables de l’utiliser, comme on le disait un peu au début, tout le monde n’a pas forcément cette sensibilité initiale. Donc pareil, un étudiant c’est impeccable, ils utilisent des jeux vidéo qui utilisent des représentations visuelles super compliquées donc ils sont très bons pour pour utiliser ces outils.
Quels sont les mécanismes utilisés pour traiter les informations et obtenir des visualisations de données ?
Donc, il y a plusieurs produits commerciaux, Tableau en est un, Tulip en est un autre. Donc c’est des produits avec des prix variables. Aujourd’hui l’offre est assez importante, l’idée principale c’est que ces offres se connectent à une base de données d’entreprise et ensuite la visualisation est très facile à faire et on peut les préparer à l’avance donc on peut avoir des représentations récurrentes, si on veut faire le bilan à la fin du mois et montrer les évolutions on peut avoir des des templates pour montrer régulièrement les choses. Après il y a une énorme quantité d’outils libres qui sont, on va dire facile d’accès encore une fois ça dépend pour qui, mais relativement faciles d’accès, ces outils sont vraiment d’une qualité qui s’améliore, on va dire presque de jour en jour. La grande nouveauté c’était il y a une dizaine d’années, il y a un formalisme on va dire, qui s’appelle Grammar of Graphics qui est sorti et qui permet de pouvoir créer des visualisations de façon très flexible, fluide sans programmer du tout. Donc ça existe dans des environnements comme Air pour les statistiques mais aussi sur les navigateurs standards en Javascript, etc, donc avec des systèmes comme Vega Lite qui sont gratuits, qui sont utilisables mais il y en a d’autres comme Apache, iChart, etc. Il y en a beaucoup maintenant et donc ce genre d’outils gratuits, quand je dis gratuits ça veut dire quand même qu’il faut quelqu’un et la capacité d’aller les chercher, de les installer donc c’est pas forcément gratuit donc dans ce cas là il faut une certaine compétence, pas très élevée mais qui existe, mais ces outils là permettent vraiment de faire de la visualisation très poussée et très rapidement , interactive, vraiment bien choisie. Aujourd’hui le coût pour entrer dans le monde de la visualisation devient très léger je pense, après il faut malgré tout s’investir et commencer à vraiment utiliser l’outil pour le comprendre. Je suis tous les jours contacté par des entreprises qui ont besoin de visualisation, ils me contactent moi quand ils ont besoin de choses un peu extrêmes qui sortent du quotidien. Je parlais de la CNAM par exemple, c’est des millions et des millions de personnes sur des dizaines d’années, c’est des quantités de données très importantes donc là il n’y a pas de solution clé en main, mais par contre bien souvent quand les gens viennent me voir, je leur dis, voilà vous avez 5 solutions clé en main allez y, entre les solutions purement commerciales, les solutions libres faciles et les solutions libres moins faciles. Et souvent il y a aussi des entreprises comme la tienne qui permettent de faire la connexion avec les industries qui ont besoin de visualisation. Donc pour le coup il y a pas mal de d’offres de services avec des niveaux de compétences et de qualité variables mais aujourd’hui c’est tout à fait facile disons de trouver des entreprises, il y en a pas 1000 mais il y en a pas non plus deux quoi. Il y en a une dizaine et des très bonne en France.
Quels sont les freins encore aujourd’hui dans le secteur de la visualisation de données ?
Donc les choses qui sont très à la mode on va dire, qui sont très importantes dans notre domaine c’est le problème de l’incertitude. Donc il y a beaucoup de données pour lesquelles on a une certaine incertitude inhérente aux données et aujourd’hui les visualisations marquent très mal l’incertitude. Les statisticiens ont des façons de montrer l’incertitude mais personne ne les comprend et même quand les gens disent qu’ils les comprennent, ils font des erreurs avec, les expériences l’ont montré. Donc un enjeu aujourd’hui c’est d’être capable de dire que dans telle visualisation il y a une certaine incertitude. On le voit bien par exemple sur la météo, quand on regarde la météo du jour on sait bien qu’il y a de l’incertitude, on est toujours à râler en se disant ils ont dit qu’il allait pleuvoir mais il a pas plu, ils ont pas dit qu’il allait pleuvoir et il a plu. Donc toutes ces prévisions sont entachées d’incertitude et le fait d’afficher les prévisions fait que les gens qui les lisent s’ils ont pas compris qu’il y avait une incertitude, ça va les embêter. Donc là pour les ouragans qu’on entend actuellement passer, c’est le même problème, les prévisions sur les trajectoires de l’ouragan elles se font avec une grande incertitude et la plupart des gens ne comprennent pas que ces trajectoires prévues sont avec une incertitude assez forte, donc on entend des gens hurler en disant en fait j’ai été touché mais c’était pas prévu, ou j’ai pas été touché alors que c’était prévu. Ca c’est dû à l’incertitude qui est mal affichée donc ça devient un enjeu d’afficher ces incertitudes. A titre personnel moi ce qui m’intéresse, c’est ce qui à mon avis est crucial, c’est ce qu’on appelle le passage à l’échelle. Le fait de visualiser des très grandes quantités de données donc c’est utile pour des entreprises qui ont énormément de données. Il y en a pas autant qu’on le dit mais il y en a quand même beaucoup, EDF si il veut regarder comment les gens utilisent l’électricité, ils ont des millions de Français sur des dizaines d’années et des informations en très grande quantité. Le CEA et toutes les entreprises pétrolières ont ça. La CNAM j’en parlais, pour regarder. Mais donc plus prosaïquement quand on fait de la data science on utilise beaucoup de machines learning et le machine learning ça génère énormément de données et ça génère énormément d’informations. Et pour comprendre est ce que les systèmes de machine learning font un bon apprentissage, pourquoi, il faut regarder ces données, la visualisation est très efficace mais ça demande de manipuler des très grandes quantités de données. Donc ça c’est un domaine sur lequel je travaille beaucoup et pour lequel il va y avoir des solutions dans les trois, quatre, cinq ans qui viennent. Aujourd’hui les solutions ne sont pas encore là parce que ça va nécessiter des changements disons, dans les logiciels mais on y vient un petit. Avant, on voyait 10000 points, 100.000 points, un million de points, 10 millions de points, il faut qu’on aille vers les centaines de millions, milliards de points et on y va doucement mais c’est pas simple en terme de d’infrastructures. Donc ça reste les challenges avec les problèmes de s’assurer que les utilisateurs sont capables d’interpréter correctement les visualisations sans les biais cognitifs et sans d’autres biais sur les données.
Quels sont les enjeux actuels de la data visualisation ?
Tous les problèmes sont là, donc la quantité de données, le fait de les traiter, de les gérer, de faire des requêtes, mais le point bloquant jusqu’à maintenant c’est le problème de la latence. Donc si on veut afficher 1 milliard de points imaginons, on peut faire un programme qui va lire les données et puis il va mettre les points sur un écran et puis le montrer à l’utilisateur et ça va peut-être mettre deux heures à se calculer puis à la fin il aura une image. Déjà si on affiche un milliard de points sur un écran qui a un million de points, en fait il va être tout noir, avec un millions de pixels il va être tout noir et on va rien voir. Donc déjà il faut adapter les techniques, donc ça on sait le faire, il y a des techniques qui s’appelle les techniques de visualisation par densité donc on doit changer de représentation. Ca on sait à peu près faire, on peut s’améliorer là-dessus. Mais après le problème c’est que si on veut interagir, il n’est pas question d’attendre 20 minutes que l’image s’affiche puis ensuite de dire je voudrais zoomer ici, puis 20 minutes après on revient l’image est zoomé, etc, c’est absolument impossible. Les humains quand ils interagissent avec un système, ils veulent interagir en moins de 10 secondes toujours et généralement moins d’une seconde ou parfois même 100 millisecondes quand ils doivent avoir des interactions continues. Donc là le challenge c’est comment on fait pour baisser la latence, le temps de réaction quand on a des quantités de données énormes et quand on a aussi des calculs au milieu, quand on doit faire des traitements, du clustering, de l’analyse en utilisant des techniques d’analyse complexes. Jusqu’à maintenant ce qu’on essayait de faire c’était d’avoir des ressources de plus en plus grandes, des machines parallèles de plus en plus sophistiquées, mais la triste réalité c’est que si on a un cluster de machines, si on prend 1000 machines dans un cluster, chaque machine va être très rapide mais le temps de démarrer les machines, d’envoyer les données, de récupérer les données, ça va prendre de plus en plus de temps, ça va augmenter la latence. Donc les machines distribuées, elles calculent très vite quand elles commencent mais le temps de les faire commencer et de récupérer c’est très long, ça met 30 secondes, une minute. Donc les configurations actuelles ne permettent pas de baisser la latence. Donc la prochaine question c’est comment on fait pour contrôler la latence et là j’ai des solutions mais c’est de la recherche sur la latence. Donc les infrastructures, même les supercalculateurs, ne permettent pas de diminuer la latence, c’est là où le challenge devient intéressant.
L’intelligence artificielle va-t-elle remplacer les technologies de visualisation de données ?
Alors c’est un problème très intéressant. Jusqu’à maintenant c’était un peu la façon dont on posait la question, il y a trop de données, c’est trop compliqué, les humains sont pas super forts donc on va utiliser des systèmes intelligents pour prendre des décisions et dire à l’humain tu fais ça. Donc depuis maintenant deux ou trois ans, les choses sont en train de changer et la nouvelle façon d’aborder les choses c’est d’avoir soit human in the loop, soit AI in the loop, selon qu’on voit la boucle comme contrôlée par les humains ou contrôlée par la machine, mais donc moi je crois énormément dans la complémentarité entre humains et aide avec des méthodes analytiques. Donc un exemple de débat qu’on a eu depuis plusieurs années, c’était les neurologues ou les médecins qui faisaient des opérations sur des problèmes dans le cerveau, donc depuis 10 ans, les experts en machine learning leur disent on va vous indiquer comment couper le cerveau au mieux pour aller retirer un problème dans le cerveau et le neurologue leur répondait, c’est moi qui fait l’opération, c’est moi qui parle avec le malade, c’est moi qui parle avec les parents du malade, si le malade meurt ou a des problèmes, je ne peux pas lui répondre que la machine m’a dit de couper donc j’ai coupé. Ca n’est pas une réponse acceptable. Donc j’ai besoin de comprendre pourquoi je dois couper là et tant que je ne comprendrais pas pourquoi je dois couper là, je ne le ferai pas parce que c’est moi qui assume la responsabilité. Pendant de nombreuses années c’était un dialogue de sourd, les uns disaient que statistiquement c’est beaucoup plus efficace et les autres disaient c’est ma responsabilité, je ne prendrai pas la responsabilité de suivre aveuglément une machine. Donc aujourd’hui la situation est devenue un peu plus raisonnable, j’espère qu’elle va être le meilleur encore plus, dans ces discussions il y a clairement à trouver un juste milieu entre des recommandations qui peuvent être données par une machine à travers du machine learning, la recommandation pouvant être de passer par ci ou par là, des explications pour essayer de l’expliquer donc pourquoi, et d’un humain qui pourrait poser des questions en disant mais si je fais ci quel est le problème, etc. Donc aujourd’hui je pense qu’on va dans un monde où il va y avoir une complémentarité encore une fois et encore une fois la visualisation permet de pouvoir communiquer on va dire entre les algorithmes et les machines donc là on parle de visualisation analytique. On n’est pas en train de regarder les données brutes, mais de regarder les données produites par un algorithme et de pouvoir interagir avec, en disant à l’algorithme si je change ça, est-ce que ça va changer quelque chose. Donc je pense que le débat tout automatique ou tout humain, il a fait des discussions à n’en plus finir. Aujourd’hui je pense qu’on s’oriente vers cette situation où on trouve un point intermédiaire, il y a une discussion entre les deux et je pense que c’est très bien. Bien sûr les entreprises voudraient bien tout automatiser mais on imagine bien que si on automatise des choses aussi compliquées que des opérations chirurgicales au cerveau, ensuite il va y avoir une responsabilité et on le voit très bien aussi sur le problème de la conduite automatique, les machines qui font la conduite automatique, c’est une sorte de malentendu parce que le mode d’emploi dit c’est l’humain qui a le contrôle mais la machine fait des recommandations, et dans la réalité soit l’humain prend le contrôle, soit la machine prend le contrôle mais entre les deux il n’y a pas un passage très clair de l’un à l’autre. Et donc je pense que c’est sur cet aspect là qu’on va devoir travailler dans les années à venir et donc la visualisation il me semble va être toujours absolument indispensable pour discuter avec des algorithmes maintenant.
Quels futurs enjeux pour la visualisation de données ?
Liés à l’éducation je dirais, enfin comme on le disait, je crois que notre société maintenant elle repose sur les données en masse, les données sont partout, les données permettent de prendre des décisions et donc l’éducation telle qu’elle a été conçue jusqu’à maintenant, elle n’a pas vraiment introduit les données, disons centralement dans les cursus à l’école. Donc on fait pas mal d’expérimentation pour essayer de montrer comment utiliser la visualisation très tôt, je pense que c’est vraiment très utile et je pense qu’aussi pour des problèmes de démocratie c’est vraiment très utile, donc la formation disons au plus grand nombre c’est très important. On pourrait croire que c’est simple mais ça va demander un peu de temps et de mon point de vue c’est aussi un devoir citoyen, quand on discute ne serait-ce ,qu’aujourd’hui on parle du budget de la France, qui sait ce que c’est que le budget de la France, qui sait ce que c’est que la part de la défense par rapport à la part de l’éducation, en fait on n’en sait rien, les données sont là mais on ne sait pas les voir. Et donc je crois que ça ça va être critique. Donc il y a les aspects techniques clairement, plus de données, plus d’algorithmes, plus d’interactions, plus de vitesse, moins de latence, ça on va y travailler pendant les 10 prochaines années il n’y a aucun doute. Mais il y a les problèmes plus humains, formation, utilisation de ces outils appropriés, éviter les biais cognitifs, savoir comment utiliser les données, les interpréter pour prendre des meilleures décisions plus rapidement, plus efficacement.
Super résumé. Jean-Daniel, est ce qu’il y a un sujet dont on n’a pas parlé qui te tient à cœur ?
Non, on a parlé de tout, c’est vrai. Donc je pense qu’on a fait le tour de la question et c’est une très bonne idée de faire ce genre de présentation résumé pour que ceux qui pourraient se poser dles questions puissent avoir des réponses, j’espère assez rapides. Donc on peut on peut s’informer, il y a plein de sources d’informations très intéressantes. Il y a des blogs, peut-être je vous donnerai la liste de blogs connus où on a des sujets de discussions, il y a donc des sites web très bien, des vidéos, il y a des livres qui sont très beaux sur la data visualisation et donc on peut les utiliser. Et après il y a d’autres ressources comme des articles de conférence qui sont utilisables mais je pense que les livres sont probablement la meilleure façon de faire parce que c’est des beaux livres et ils donnent pleins d’informations et sont très surprenants, dans le sens où comme je le disais à un moment, quand on voit des données qu’on a pas l’habitude de voir souvent, c’est pleins de surprises. Une des choses qu’il faut dire, elle est pas assez dit je trouve, c’est que l’un des précurseurs de la visualisation telle qu’on l’entend, qui a formalisé beaucoup de règles de la visualisation, c’est Jacques Bertin qui est français, il a écrit en 1967 un livre qui s’appelle Sémiologie Graphique, qui est certainement la base qu’utilise le monde entier maintenant pour faire les visualisations. Alors je ne recommande pas de lire ce livre, il est très daté, il est très épais, il est vraiment fantastique mais il est très difficile à lire mais il faut affirmer le fait que la France a été précurseur dans le domaine de la visualisation et donc on est très bien placé.
Pour approfondir ses connaissances dans la visualisation de données, un livre, un article, une vidéo, un site à nous recommander ?
Ca dépend de la sensibilité des gens, je pense que les les jeunes sont plutôt blogs, ou ils écoutent aussi des vidéos et des choses comme ça bon donc les blogs, les vidéos sont une bonne façon de s’y atteler. Il y a une vidéo extrêmement intéressante sur la visualisation et le développement de, comment s’appelle-t-il ce Suédois dont on parlait, il est décédé il y a quelques années hélas, Hans Rosling, mais sa visualisation elle est tout à fait fantastique parce que c’est aussi un excellent orateur. Mais après moi j’aime bien les livres, les livres sont très bien, le livre de Edward Tufte, le premier est vraiment excellent, il y en a des beaucoup plus récents. Et donc après les sites web, etc. Donc oui beaucoup de ressources et comme elles sont très graphiques c’est très agréable de les consulter, donc n’hésitez surtout pas.
Merci beaucoup.
Merci beaucoup Caroline.
J’espère que cet épisode vous a plu et on se retrouve très bientôt pour un nouvel épisode de The Bridge.
TOUS NOS ÉPISODES THE BRIDGE
KILLIAN GAUMONT
Senior Manager chez Artefact
Le Data Mesh : une gestion décentralisée de la data qui crée de la valeur.