Hé les communautés #archives et #genealogie, ne vous précipitez pas bêtement comme moi sur Mistral OCR3 sorti il y a quelques heures et dont la page d'accueil arbore fièrement un texte manuscrit : https://mistral.ai/fr/news/mistral-ocr-3
Hé les communautés #archives et #genealogie, ne vous précipitez pas bêtement comme moi sur Mistral OCR3 sorti il y a quelques heures et dont la page d'accueil arbore fièrement un texte manuscrit : https://mistral.ai/fr/news/mistral-ocr-3
Les résultats sont totalement inexploitables sur des textes du XVIIIe et antérieurs.
Pour le XIXe, 2 à 3 mots sur 4 sont corrects, mais je considère que c'est inutilisable, je mets moins de temps à saisir les textes qu'à les relire.
Résultats produits à partir d'un choix rigoureusement pifométrique de quelques documents.
Honnêtement, je ne pense pas que ça a un sens de pousser plus loin. Je n'ai pas testé de textes du XXe mais je reste sceptique sur tout document qui sort un peu d'un truc très calibré (écriture et format).
Je comprends très bien que l'OCR de textes anciens n'est probablement pas un cas d'usage qui les intéresse.
@CharlesNepote ça fait 20 ans que l'INRIA est dessus mais le taux d'erreur est encore trop important...
@daieuxetdailleurs oui c'est tout le problème, il faut vraiment de bons taux pour que ça commence à valoir le coup. Je dirais qu'au-dessus de 4-5 erreurs par ligne on passe autant de temps à corriger qu'à saisir.
Certes, on peut toujours indexer ces textes à part dans un dossier "OCR non relu", mais on risque de manquer beaucoup de choses.
@daieuxetdailleurs pour prolonger la conversation :
https://www.inria.fr/en/comma-medieval-manuscripts-transcribed