Une plateforme qui lit, classe et route des milliers de documents par mois

Un groupe d'assurance noyait ses équipes sous les sinistres et les contrats papier. On a construit la plateforme qui trie tout automatiquement, plus un assistant qui répond sur tout l'historique.

Détails anonymisés et adaptés pour des raisons de confidentialité.

Le problème

Un groupe d’assurance, plusieurs entités dans plusieurs pays. Chaque mois, des milliers de documents arrivent : déclarations de sinistre, avenants, polices, pièces justificatives, courriers. Le tout en PDF, en photos, en scans de mauvaise qualité, en trois langues.

Le tri était manuel. Les gestionnaires passaient une grande partie de leur journée à ouvrir des pièces jointes, à deviner ce qu’était chaque document, et à le déposer dans le bon dossier de la bonne entité. Temps moyen avant qu’un document arrive au bon endroit : 2 à 3 jours. Et personne n’avait la vue d’ensemble : chaque entité travaillait dans son coin.

Ce qu’on a construit

Pipeline d’ingestion - Chaque document entrant est lu par OCR, puis un modèle de langage en extrait le type, l’entité concernée, le numéro de police et les dates clés. Du texte structuré en sortie, prêt à router.

Classification et routage - Le document est classé automatiquement dans le bon dossier de la bonne entité, avec un score de confiance. Sous un seuil, il part dans une file de relecture humaine plutôt que d’être deviné.

Assistant RAG sur tout l’historique - Un gestionnaire pose une question en langage courant et obtient une réponse sourcée, avec les liens vers les documents exacts. Fini de fouiller dix dossiers pour reconstituer un cas.

Tableau de bord par entité - Volumes, délais, taux d’automatisation, files de relecture. Chaque entité voit ses chiffres, le groupe voit l’ensemble.

Le résultat

Temps de routage passé de 2-3 jours à quelques minutes pour la grande majorité des documents.
Environ 85% des documents classés sans intervention humaine, le reste envoyé en relecture ciblée.
Plusieurs heures récupérées par jour pour les gestionnaires, réinvesties dans le traitement réel des dossiers.
Une source de vérité unique multi-entités, fini les silos par pays.
Un historique consultable en secondes au lieu d’une fouille manuelle.

La stack

OCR + modèles de langage pour l’extraction et la classification
Pipeline d’ingestion asynchrone, qui encaisse les pics de volume
RAG avec base vectorielle sur tout l’historique documentaire
API d’intégration avec les systèmes métier existants des entités
Seuils de confiance et file de relecture humaine pour les cas ambigus

Le problème

Ce qu’on a construit

Le résultat

La stack

Un problème proche d'un de ces cas ?