Modèle innovant pour la préservation du patrimoine
OCRonos-Vintage est un modèle spécialisé pour la correction OCR des archives culturelles, pré-entraîné avec 18 milliards de tokens provenant de bibliothèques renommées. Avec ses 124 millions de paramètres, il offre des corrections de qualité comparable aux modèles avancés comme GPT-4, tout en étant accessible sur CPU et GPU. Ce modèle se concentre sur les textes historiques, principalement publiés entre 1880 et 1920, et est conçu pour traiter les Archives du Patrimoine Culturel.
Points clés
- OCRonos-Vintage a été pré-entraîné sur 18 milliards de tokens provenant de la Library of Congress, de l’Internet Archive et de Hathi Trust.
- Le modèle contient 124 millions de paramètres, permettant des corrections à grande échelle sur GPU.
- Il a été formé sur le cluster Jean Zay H100 avec une durée d’entraînement de deux heures et demie.
- 65 % du contenu traité par le modèle provient de publications antérieures à 1940, principalement entre 1880 et 1920.
- OCRonos-Vintage est considéré comme un modèle de langage ouvert, sans restrictions sur les sorties du modèle.
À retenir
Alors, si vous avez des archives culturelles poussiéreuses qui ont besoin d’un petit coup de frais, OCRonos-Vintage est votre meilleur ami ! Qui aurait cru qu’un modèle d’intelligence artificielle pourrait faire mieux que votre oncle qui prétend être un expert en histoire ? N’oubliez pas de lui donner un bon vieux texte à corriger, pas un tweet moderne, sinon il risque de se perdre dans le temps !
Sources





