Discussion
Loading...

Post

Log in
  • About
  • Code of conduct
  • Privacy
  • Users
  • Instances
  • About Bonfire
CharlesNepote
CharlesNepote
@CharlesNepote@mastodon.social  ·  activity timestamp last month

Hé les communautés #archives et #genealogie, ne vous précipitez pas bêtement comme moi sur Mistral OCR3 sorti il y a quelques heures et dont la page d'accueil arbore fièrement un texte manuscrit : https://mistral.ai/fr/news/mistral-ocr-3

Introducing Mistral OCR 3 | Mistral AI

Achieving a new frontier for both accuracy and efficiency in document processing.
  • Copy link
  • Flag this post
  • Block
CharlesNepote
CharlesNepote
@CharlesNepote@mastodon.social replied  ·  activity timestamp last month

Les résultats sont totalement inexploitables sur des textes du XVIIIe et antérieurs.

Pour le XIXe, 2 à 3 mots sur 4 sont corrects, mais je considère que c'est inutilisable, je mets moins de temps à saisir les textes qu'à les relire.

Résultats produits à partir d'un choix rigoureusement pifométrique de quelques documents.

  • Copy link
  • Flag this comment
  • Block
CharlesNepote
CharlesNepote
@CharlesNepote@mastodon.social replied  ·  activity timestamp last month

Honnêtement, je ne pense pas que ça a un sens de pousser plus loin. Je n'ai pas testé de textes du XXe mais je reste sceptique sur tout document qui sort un peu d'un truc très calibré (écriture et format).

Je comprends très bien que l'OCR de textes anciens n'est probablement pas un cas d'usage qui les intéresse.

  • Copy link
  • Flag this comment
  • Block
d'aïeux et d'ailleurs
d'aïeux et d'ailleurs
@daieuxetdailleurs@framapiaf.org replied  ·  activity timestamp last month

@CharlesNepote ça fait 20 ans que l'INRIA est dessus mais le taux d'erreur est encore trop important...

  • Copy link
  • Flag this comment
  • Block
CharlesNepote
CharlesNepote
@CharlesNepote@mastodon.social replied  ·  activity timestamp last month

@daieuxetdailleurs oui c'est tout le problème, il faut vraiment de bons taux pour que ça commence à valoir le coup. Je dirais qu'au-dessus de 4-5 erreurs par ligne on passe autant de temps à corriger qu'à saisir.
Certes, on peut toujours indexer ces textes à part dans un dossier "OCR non relu", mais on risque de manquer beaucoup de choses.

  • Copy link
  • Flag this comment
  • Block
CharlesNepote
CharlesNepote
@CharlesNepote@mastodon.social replied  ·  activity timestamp 2 weeks ago

@daieuxetdailleurs pour prolonger la conversation :
https://www.inria.fr/en/comma-medieval-manuscripts-transcribed

CoMMA: thousands of medieval manuscripts finally transcribed

Transcribing thousands of medieval manuscripts by hand would be a monumental undertaking. Fortunately, researchers in computational humanities at the Inria Paris Centre have been able to automate the task through the use of generative AI. Their creation is CoMMA, a giant, one-of-a-kind corpus that will now be available to specialists in the humanities, revolutionising the exploration of writing from the Middle Ages.
  • Copy link
  • Flag this comment
  • Block

bonfire.cafe

A space for Bonfire maintainers and contributors to communicate

bonfire.cafe: About · Code of conduct · Privacy · Users · Instances
Bonfire social · 1.0.1 no JS en
Automatic federation enabled
Log in
  • Explore
  • About
  • Members
  • Code of Conduct