Rim Zitouni Faiz, professeure en informatique de gestion à l’Ihec et l’Université de Carthage, à La Presse : «Le NLP orientera la Machine Learning vers de nouveaux horizons»

Actuellement professeure en informatique de gestion à l’Institut des hautes études commerciales (Ihec) et à l’Université de Carthage, Rim Faiz a été décorée des insignes de l’Ordre national du mérite au titre du Secteur de l’éducation et de la science. Elle est responsable du Challenge Projet d’Entreprendre de l’Ihec et aussi responsable du Master «Big Data in E-Commerce» à l’Ihec et à l’Université de Carthage. Ses recherches portent sur l’Intelligence artificielle (IA), le Big Data, l’Apprentissage automatique, le Traitement automatique du langage naturel et le Web sémantique. Dans cet entretien, Rim Faiz est revenue sur le NLP et son importance, cette technologie qui n’est pas aussi populaire que le «big data» ou la «machine learning», mais qu’on utilise tous les jours. Et dans un contexte économique et social toujours délicat, investir et développer davantage cette technologie est une mission qui n’est, toutefois, pas aisée puisqu’on nage encore à contre-courant et on tente, à travers nos moyens assez limités, de redonner le pouvoir à l’IA, pour qu’elle devienne plus puissante, et accroître la valeur de ses analyses.

Il est difficile, aujourd’hui, de parler d’IA sans faire référence au Traitement du langage naturel (ou Natural Language Processing). Qu’est-ce donc que le NLP ?

L’une des tâches les plus utilisées, aujourd’hui, en Intelligence artificielle (IA), c’est le traitement automatique des informations présentées sous forme de texte. Il s’agit, en particulier, de représenter le texte sous forme de formules, d’équations mathématiques, de modèles afin de comprendre la sémantique du contenu du texte pour le traiter ultérieurement dans des tâches de classification, catégorisation, segmentation… De manière générale, les applications qui ont à traiter de grandes quantités de textes nécessitent une expertise en Traitement automatique du langage naturel (Taln) ou Natural language processing (NLP). A titre d’exemple : classer des textes en catégories, indexer et mener des recherches dans de grands ensembles de textes, filtrer les spam, rechercher des informations pertinentes, déterminer les sentiments (positif, négatif)… Et donc, d’une manière globale, le NLP est une discipline qui étudie la compréhension, la manipulation et la génération du langage naturel par les machines, que ce langage soit écrit ou parlé. Il allie les connaissances issues de la linguistique, de l’informatique, et de l’intelligence artificielle.

A quand remonte le NLP et sur quelles techniques repose-t-il ?

Le «Natural language processing» remonte aux années 1950. Durant la première phase, qui s’étale jusqu’aux années 1980, les premières applications étaient basées sur la traduction automatique. Et comme les débuts ne sont pas toujours les moments les plus faciles car tout est nouveau, le rapport Alpac publié en 1966 (Automatic language processing advisory committee), qui avait comme mission d’évaluer les progrès de la linguistique informatique en général et de la traduction automatique en particulier, était très critique sur les efforts en cours et suggérait de favoriser la recherche fondamentale plutôt que les applications. Vient ensuite l’apparition des premiers chatbots de l’histoire entre 1960 et 1970. On cite, à titre d’exemple, le chatbot Eliza en 1964 qui simule une psychothérapie (une reformulation des phrases du patient et questions contextuelles). Et à partir des années 1980, une approche statistique du NLP a été créée où les premières méthodes consistaient à représenter le texte sous forme de vecteurs.

Et donc, c’est seulement à la fin des années 1980 qu’on a enregistré une augmentation des capacités de traitement informatique et une introduction des algorithmes de machine learning dans le traitement du langage, ce qui a donné un nouveau souffle au NLP. A ce niveau, la machine est en mesure de créer ses propres règles, déterminées par apprentissage à partir de textes. A cet égard, les années 1990 ont marqué la révolution du deep learning ; une technologie qui apprend à représenter le monde, c’est-à-dire comment la machine va représenter la parole ou l’image par exemple, comme l’a présentée Yann LeCun. Je peux vous citer l’exemple de la mise au point du premier système basé sur les «réseaux de neurones convolutifs» ou les CNN, permettant de lire les chèques bancaires.

Et c’est seulement à partir de 2013 qu’on a enregistré l’introduction des réseaux de neurones comme Word2Vec, Glove puis Vanilla RNNs. Actuellement, grâce à la disponibilité massive des données en open source et au perfectionnement continu des algorithmes de machine learning (ex. BERT), le NLP est donc de nouveau en plein essor… Ainsi, de manière générale, les techniques principalement utilisées pour le NLP sont l’analyse syntaxique et l’analyse sémantique.

Pour la première, elle consiste à identifier les règles grammaticales dans une phrase afin d’en découvrir le sens. Quant à l’analyse sémantique, elle consiste à interpréter le sens d’un texte en utilisant des algorithmes afin d’analyser les mots et la structure des phrases. Ces algorithmes sont très complexes car ils se basent sur le contexte et également sur les textes. Il est à noter que le langage humain est, par nature, complexe et ses différentes règles sont difficiles à comprendre pour une machine.

Vous dites donc que le NLP couvre de nombreuses tâches comme la compréhension de textes, la classification de sujets, la traduction…

Le NLP sert à traiter plusieurs tâches complexes et les exemples ne manquent pas ; l’extrait des données de textes en convertissant des données non structurées en données structurées, l’extrait des informations (lister les noms des personnes et des événements auxquels ils participent, à partir d’un document), l’automatisation de la production de résumés (condenser 1 livre en 1 page…), trouver des réponses à des questions en langage naturel dans une collection de textes ou base de données, corriger l’orthographe ou la grammaire, détecter des plagiats, traduire automatiquement…

Il y a constamment de nouveaux mots, de nouvelles significations, des significations différentes dans des contextes différents. Et donc, la langue est subtile et complexe. Il y a de nombreuses variables cachées comme les connaissances sur le monde, connaissances sur le contexte, connaissance des techniques de la communication humaine, problème d’échelle…

Peut-on dire que cette technologie, qui est l’un des principaux moteurs de l’IA, a un futur sans limites ?

Aujourd’hui, environ 80% du total des données sont disponibles sous forme brute. Le Big Data provient des informations stockées dans les grandes organisations et les entreprises. Les exemples incluent des informations sur les employés, les achats de l’entreprise, les enregistrements de vente, les transactions commerciales, l’historique des organisations, les médias sociaux…

Bien que le terme «NLP» ne soit pas aussi populaire que «big data» ou «machine learning», nous utilisons le NLP tous les jours. Il y a l’exemple du résumé automatique de textes ; compte tenu du texte saisi, la tâche consiste à rédiger un résumé du texte en supprimant les points non pertinents. Je cite aussi l’analyse de texte basée sur les sentiments (il est fait sur le texte donné pour prédire le sujet du texte, par exemple, si le texte transmet un jugement, une opinion ou des critiques…). Un autre exemple, la classification des textes qui est effectuée pour catégoriser différentes revues, nouvelles selon leur domaine (et là, la classification multi-documents est également possible. Un exemple célèbre de classification de texte est la détection de spam dans les e-mails). Autre exemple, l’extraction d’informations (qui est quelque chose qui propose au programme de messagerie d’ajouter automatiquement des événements au calendrier)…

Donc, cela n’a pas de limites et, aujourd’hui, les investissements ainsi que la recherche dans le domaine du NLP sont de plus en plus remarquables. Cette technologie évoluera rapidement et les machines seront aptes de communiquer et échanger de façon naturelle avec les humains. A titre d’exemple, les avancées récentes d’Open AI s’inscrivent dans le sillon des évolutions récentes de la chaîne de valeur NLP, et s’orientent davantage dans l’IA sémantique, c’est-à-dire comment l’IA pourrait évoluer notre manière de créer et consommer du contenu. Et donc, le NLP est un domaine qui va continuer de se développer, de fructifier et de s’adapter, et il va orienter le Machine Learning vers de nouveaux horizons.

Si l’arme est efficace, elle est aussi à double tranchant. Cette innovation pourrait-elle être source de risques ?

Il y a trois niveaux de capacité du Deep Learning Intelligent pour le NLP : l’expressibilité (cette qualité décrit la capacité d’une machine à se rapprocher des fonctions universelles), la capacité de formation (dans quelle mesure un système de Deep Learning peut comprendre son problème), la généralisation (dans quelle mesure la machine peut-elle prédire des données sur lesquelles elle n’a pas été formée).

Mais les problèmes historiques restent à améliorer ou à perfectionner : compréhension du langage naturel ; robots totalement autonomes ; moteurs de recherche plus performants. Toutefois, le but ultime de l’IA n’est pas de remplacer l’humain, mais bien de le décharger afin qu’il puisse se concentrer sur des tâches de plus en plus créatives… Aujourd’hui, l’IA et le Machine Learning sont devenus des tendances de fond de la relation client : les chatbots apportent un vrai bénéfice client, les échanges en langage naturel facilitent les contacts avec les marques, les conversations se personnalisent, de nouvelles fonctions émergent…Pour les machines et algorithmes complexes, ils devraient fournir des informations sur leur comportement et leurs processus pour éviter l’effet de boîte noire.

De plus, les systèmes d’IA doivent être identifiables en tant que tels, et les humains doivent être conscients qu’ils interagissent avec un système d’IA. En outre, les systèmes d’IA et les décisions humaines connexes sont soumis au principe d’explicabilité, selon lequel il devrait être possible pour eux d’être compris et tracés par les humains.

Il faudrait donc garantir la capacité humaine, c’est-à-dire que les utilisateurs doivent être capables de comprendre et d’interagir avec les systèmes d’IA à un degré satisfaisant. Le droit des utilisateurs finaux est de ne pas être soumis à une décision fondée uniquement sur un traitement automatisé (lorsque cela produit un effet juridique sur les utilisateurs ou les affecte de manière significative).

Sur un autre plan, le métier de «data scientist» est parfois présenté comme l’un des plus sexistes au monde. Quels sont les facteurs qui freinent cette parité en IA et comment construire la société numérique de demain, éthique et égalitaire?

Seulement 12% des chercheurs en apprentissage automatique sont des femmes, une statistique inquiétante pour un domaine censé remodeler la société. En effet, les systèmes d’IA devraient être utilisés pour favoriser un changement social positif et encourager la diversité, la non-discrimination et l’équité. Ainsi, ancrer la mixité au sein de l’organisation, institution ou université est un réel atout pour continuer à dynamiser la performance, l’innovation et la croissance partagée.

Le manque de femmes dans la conception des algorithmes accroît le risque de biais. Les lignes directrices visent fortement à éviter les biais injustes lors de la conception des produits et services d’IA. Dans la pratique, les développeurs d’IA doivent s’assurer que la conception de leurs algorithmes n’est pas biaisée (par exemple en utilisant un ensemble de données inadéquat). Les parties prenantes qui peuvent être directement ou indirectement affectées par les systèmes d’IA doivent être consultées et impliquées dans leur développement et leur mise en œuvre. Les systèmes d’IA doivent être conçus en tenant compte de l’ensemble des capacités, compétences et exigences humaines.

Impliquer davantage les femmes dans l’Intelligence artificielle est un véritable enjeu sociétal. Aujourd’hui, nous observons encore une représentation très faible des femmes dans les métiers de l’IA. La diversité dans une équipe suscite l’émergence de nouveaux points de vue, de la richesse dans les idées et également des changements de comportements.

En tant qu’enseignante-chercheuse, pouvez-vous confirmer que la formation 4.0 est un atout majeur pour le développement de l’enseignement supérieur, notamment dans le monde du digital ?

En plus d’être professeur en Informatique de Gestion, je suis responsable du master Big Data in E-commerce à l’Ihec et à l’Université de Carthage, et j’ai effectué mon doctorat à l’Université Paris Dauphine dans le domaine de l’Intelligence artificielle. L’un des principaux défis à l’heure actuelle est d’assurer la maîtrise de l’IA du grand public afin que les gens soient dotés des connaissances nécessaires —et pas seulement techniques— pour s’engager avec l’IA.

La formation 4.0, en tant que levier de la transformation digitale des entreprises, joue un rôle majeur pour le développement de l’enseignement supérieur dans le monde du Digital avec deux orientations : l’adaptation en profondeur des compétences aux besoins de l’entreprise digitale et l’innovation pour une meilleure performance de cet enseignement.

Les apprenant(e)s sont de plus en plus averti(e)s, de plus en plus digitaux/digitales, ils/elles veulent des formations pratiques et ludiques. A ce niveau, il faudrait investir dans les nouvelles approches pédagogiques, dans les nouveaux formats d’apprentissage et essentiellement dans l’intégration des innovations pédagogiques dans la formation.

La formation 4.0 constitue aussi l’accélérateur attendu dans l’ingénierie pédagogique qui progresse avec le digital avec des qualités intrinsèques de personnalisation, de virtualisation, et de collaboration. Nous pourrions aussi souligner que l’Intelligence artificielle est un puissant outil de personnalisation et de gamification.

Toujours dans le domaine du numérique et de la recherche, pensez-vous que la femme tunisienne peut être la panacée et une partie de la solution pour rattraper le train de la technologie et sortir de ce marasme économique et sociétal que nous vivons ?

Il est fondamental que la femme tunisienne participe activement à la transition numérique, et ce, en tant qu’actrice de ce changement. Il faudrait renforcer davantage les capacités des femmes tunisiennes dans l’utilisation des technologies.

La transition numérique pourrait être une opportunité pour les femmes, et ce, à travers les nouvelles offres d’emploi. Les jeunes femmes tunisiennes doivent prendre conscience de cette révolution des métiers et en tenir compte dans leurs choix d’orientation. Elles pourraient être les moteurs de cette révolution, que ce soit dans la conception de ces technologies que dans des usages futurs.

Il est nécessaire de valoriser les métiers du numérique auprès des jeunes femmes tunisiennes et les sensibiliser davantage. Cela pourrait se faire par la vulgarisation scientifique, par la mise en avant de l’importance sociétale du domaine du numérique et ses dérivés et aussi par l’adaptation de l’apprentissage aux besoins du contexte tunisien.

Laisser un commentaire