Post · bonfire.cafe

Post

@CharlesNepote@mastodon.social · last month

Hé les communautés #archives et #genealogie, ne vous précipitez pas bêtement comme moi sur Mistral OCR3 sorti il y a quelques heures et dont la page d'accueil arbore fièrement un texte manuscrit : https://mistral.ai/fr/news/mistral-ocr-3

Introducing Mistral OCR 3 | Mistral AI

Achieving a new frontier for both accuracy and efficiency in document processing.

CharlesNepote

@CharlesNepote@mastodon.social replied · last month

Les résultats sont totalement inexploitables sur des textes du XVIIIe et antérieurs.

Pour le XIXe, 2 à 3 mots sur 4 sont corrects, mais je considère que c'est inutilisable, je mets moins de temps à saisir les textes qu'à les relire.

Résultats produits à partir d'un choix rigoureusement pifométrique de quelques documents.

CharlesNepote

@CharlesNepote@mastodon.social replied · last month

Honnêtement, je ne pense pas que ça a un sens de pousser plus loin. Je n'ai pas testé de textes du XXe mais je reste sceptique sur tout document qui sort un peu d'un truc très calibré (écriture et format).

Je comprends très bien que l'OCR de textes anciens n'est probablement pas un cas d'usage qui les intéresse.

d'aïeux et d'ailleurs

@daieuxetdailleurs@framapiaf.org replied · last month

@CharlesNepote ça fait 20 ans que l'INRIA est dessus mais le taux d'erreur est encore trop important...

CharlesNepote

@CharlesNepote@mastodon.social replied · last month

@daieuxetdailleurs oui c'est tout le problème, il faut vraiment de bons taux pour que ça commence à valoir le coup. Je dirais qu'au-dessus de 4-5 erreurs par ligne on passe autant de temps à corriger qu'à saisir.
Certes, on peut toujours indexer ces textes à part dans un dossier "OCR non relu", mais on risque de manquer beaucoup de choses.

CharlesNepote

@CharlesNepote@mastodon.social replied · 2 weeks ago

@daieuxetdailleurs pour prolonger la conversation :
https://www.inria.fr/en/comma-medieval-manuscripts-transcribed

CoMMA: thousands of medieval manuscripts finally transcribed

Transcribing thousands of medieval manuscripts by hand would be a monumental undertaking. Fortunately, researchers in computational humanities at the Inria Paris Centre have been able to automate the task through the use of generative AI. Their creation is CoMMA, a giant, one-of-a-kind corpus that will now be available to specialists in the humanities, revolutionising the exploration of writing from the Middle Ages.

bonfire.cafe

A space for Bonfire maintainers and contributors to communicate

bonfire.cafe: About · Code of conduct · Privacy · Users · Instances

Bonfire social · 1.0.1 no JS en

Automatic federation enabled