Blog

LLM et modèles multimodaux pour le traitement de documents – une preuve de concept

Dans le monde effréné daujourdhui, les entreprises cherchent en permanence des moyens de rationaliser leurs processus et de maximiser leur efficacité. Un domaine qui consomme souvent un volume considérable de notre précieux temps est le traitement de documents, avec des tâches telles que le tri de CV ou lextraction dinformations pertinentes à partir de contrats ou de factures. Mais si nous pouvions le faire plus efficacement ? Voici les grands modèles de langage (LLM). Ces LLM changent la donne, en proposant une approche révolutionnaire du traitement de documents, qui promet de transformer la manière dont les organisations gèrent de grandes quantités de données textuelles.

Grands modèles de langage

Pour celles et ceux qui ne sont pas familiers avec le terme « grands modèles de langage », voyons rapidement de quoi il sagit. Les LLM, comme la série GPT dOpenAI, sont des modèles dintelligence artificielle entraînés sur dénormes volumes de données textuelles issues dInternet. Ces modèles ont été affinés sur des jeux de données variés, ce qui leur permet de comprendre et de générer un texte proche de celui dun humain, sur un large éventail de sujets et de styles. Ils sont capables deffectuer de nombreuses tâches liées au langage, notamment la traduction, la génération de texte, le résumé et, point crucial pour le traitement de documents, lextraction dinformations.

Que peuvent-ils faire pour nous ?

Prenons lexemple dun recruteur. Les recruteurs connaissent bien la tâche intimidante consistant à parcourir des piles de CV afin didentifier des candidats qualifiés pour un poste à pourvoir. Traditionnellement, ce processus est très chronophage. Avec les grands modèles de langage, il peut toutefois être automatisé dans une large mesure. Dans une POC développée en interne, nous avons utilisé un LLM (Azure OpenAI GPT-3.5 Turbo, pour être précis) afin dextraire les compétences requises à partir de lune de nos offres demploi. Ensuite, nous avons utilisé le même modèle pour évaluer un ensemble de CV fictifs en fonction de la correspondance avec ces compétences. Le résultat est un tableau présentant les compétences et le degré de correspondance de chaque CV avec les compétences requises.

En tirant parti des capacités de traitement du langage naturel du modèle, les recruteurs peuvent développer des algorithmes qui analysent les CV et en extraient les informations pertinentes selon des critères prédéfinis. Par exemple, si une offre demploi exige la maîtrise de certains langages de programmation, le LLM peut être configuré pour identifier les mentions de ces langages dans les CV et signaler les candidats qui possèdent les compétences nécessaires.

Cette approche permet non seulement déconomiser du temps et des ressources, mais aussi de réduire les biais en garantissant que tous les CV sont évalués selon les mêmes critères. En outre, les LLM peuvent apprendre et saméliorer en continu, en affinant leur capacité à identifier avec précision les informations pertinentes et à sadapter à lévolution des exigences des postes.

Au-delà du texte : les modèles multimodaux

Nous pourrions appliquer le même principe, par exemple, à l’analyse de contrats ou de factures, mais pour ces types de documents, l’analyse du seul texte peut ne pas suffire. Voici les modèles multimodaux. GPT-4 (alias ChatGPT-plus) et Gemini Pro (le concurrent de Google) en sont des exemples. Cela signifie qu’en plus du texte, ils peuvent aussi traiter d’autres types de contenu. Pour GPT-4 et Gemini Pro, la liste des types de contenu est limitée au texte et à l’image, mais GPT-4o, le dernier opus de la famille GPT d’OpenAI, présenté le 13 mai, étend l’éventail des modalités au texte, à l’image, à l’audio et à la vidéo.

Dans un contexte de chat, la multimodalité est un gadget sympathique qui améliore la convivialité et témoigne de la puissance des modèles. Mais si nous pouvions aussi exploiter cette même puissance à notre avantage pour résoudre un cas dusage métier spécifique ?

À titre dexemple, nous avons choisi dappliquer ces modèles multimodaux à lautomatisation du traitement des tickets de caisse. Le contexte est le suivant : toutes les entreprises, quil sagisse de freelances indépendants, de bouchers de quartier ou de grandes entreprises, doivent collecter, analyser, traiter et stocker des tickets à des fins comptables. Collecter les documents, en extraire le contenu et les affecter au bon compte du grand livre (p. ex. : frais de restaurant, mobilier et actifs roulants…) peut être un processus manuel fastidieux. Mais si nous pouvions utiliser lIA multimodale pour cela ?

Chez CROPLAND, nous avons mis en place un système de preuve de concept dans lequel nous surveillons une adresse e-mail utilisée spécifiquement pour la facturation. Chaque e-mail reçu à cette adresse est analysé afin de détecter la présence de pièces jointes PDF. Lorsquune pièce jointe est trouvée, un processus se déclenche et convertit la première page du PDF en image. Cette image est ensuite analysée plus en détail avec Azure OpenAI GPT-4 Turbo Vision afin de déterminer :

  • Si le document est un ticket de caisse ou un autre type de document
  • La partie créancière
  • Le numéro de TVA du créancier
  • Le total du ticket hors TVA
  • Le montant total de la TVA
  • La date du document
  • Le titre du ticket
  • La description du ticket
  • Le compte du grand livre auquel ce document pourrait appartenir

Si GPT4 détermine que le document est pertinent à des fins comptables, la pièce jointe dorigine est enregistrée dans un bucket de stockage cloud. Les informations extraites du document sont, quant à elles, enregistrées dans un classeur Excel Online, qui renvoie directement au document source dans le stockage cloud.

Points dattention

Azure OpenAI nest pas gratuit ! Pour chaque document que nous traitons, le coût de traitement sélève à environ 5 centimes deuro. Pour une PME comme CROPLAND, qui ne traite pas plus de 50 tickets par mois, ce coût nest pas rédhibitoire. Les grandes entreprises devraient toutefois évaluer le business case, car il peut être plus pertinent dexécuter ses propres instances dalternatives open source. Dans nos tests, celles-ci offrent des performances comparables à GPT-3.5 ou GPT-4. Cependant, lorsque les volumes de traitement sont assez faibles, le coût du matériel nécessaire à une inférence fluide est bien supérieur aux tarifs facturés par Microsoft Azure pour les appels API des modèles OpenAI.

Un autre point à considérer concerne les documents de plusieurs pages. La plupart des tickets ne font qu’une page ; pour notre preuve de concept sur les factures, nous pouvions donc nous permettre de simplifier et de n’utiliser que la première page. Toutefois, si vous souhaitez traiter des documents multipages contenant du texte et des images, vous pourriez vous intéresser à des modèles comme LayoutLM de Microsoft. Ces modèles ont appris les régularités quant à l’emplacement des informations (p. ex. : l’adresse de livraison se trouve généralement dans le coin supérieur gauche d’une facture) et combinent cela avec une bonne compréhension des informations textuelles et tabulaires contenues dans le document.

Conclusion

En conclusion, lintégration des LLM et des modèles dIA multimodale tels que GPT-3.5, GPT-4 et Gimini Pro Vision dans le traitement automatisé de documents représente une avancée significative pour les entreprises. En exploitant les capacités de conversion image-texte et la compréhension approfondie du texte de ces modèles, les organisations peuvent rationaliser des tâches manuelles fastidieuses telles que le traitement des factures.

Nos preuves de concept démontrent le potentiel de cette technologie pour extraire efficacement les informations clés des documents. Cela accélère non seulement le processus de traitement des documents, mais réduit également les erreurs et améliore la précision des données.

Contactez-nous

Vous avez une question sur la prise de décisions fondées sur les données dans votre entreprise ?

Vous souhaitez découvrir comment votre entreprise peut commencer à bénéficier de lIA ?

En savoir plus sur ce sujet

Blog
Management, Opérations
Le navigateur n'est plus une simple interface passive : il est devenu un véritable exécutant...