samedi 17 mai 2003, par Stephane Cottin
La reconnaissance optique de caractères, (ROC) ou l’ optical caracter recognition (OCR), est la technique qui permet de transformer un texte imprimé (analogique) en un fichier numérique, composé de caractères ASCII, et non plus de pixels (fichier analogique). Il s’agit donc de la phase complémentaire (mais pas forcément obligatoire) à une numérisation de document.
Le matériel à utiliser est un scanneur (voir aussi http://www.01net.com/article/192356.html). Ce dernier doit ensuite être couplé à un logiciel de reconnaissance de caractères.
L’avantage théorique est indéniable. Quand une page de texte n’est qu’une image fixe, non modifiable et non lisible directement par un ordinateur, elle est aussi notablement plus ’lourde’ en termes de pixels. Il est donc tout à fait utile de transformer cette série de points en un fichier texte, beaucoup plus léger en octets, et surtout indexable par n’importe quel moteur de recherche.
La technique utilisée par les logiciels d’OCR consiste à isoler les différents signes, à les comparer à sa bibliothèque de symboles. Il est évident qu’un texte manuscrit aura un taux de reconnaissance très faible, même s’il est très bien écrit. Les logiciels d’OCR ont acquis aussi de l’intelligence artificielle en ayant d’une part des dictionnaires syntaxiques et grammaticaux qui contrôlent la cohérence de leur lecture, et d’autre part acquièrent la mémoire des typographies qu’ils lisent fréquemment. Un OCR sera donc d’autant plus efficace qu’il lira un grand nombre de pages typographiées de façon identique, après une certaine période d’apprentissage.
Pour autant, aucun OCR, aussi puissant qu’il soit, n’affirme avoir 100 % de réussite. Les plus optimistes garantissent 99 %. Sur une page de Journal officiel de 6000 signes, 99 % de réussite, c’est 60 fautes. En plus, ce sont des fautes qui sont passées au travers d’un correcteur orthographique et grammatical : le mot fauté est bien écrit et grammaticalement logique = le contresens assuré.
L’OCR est évidemment une technique utile, mais il faut en connaître les limites et en tenir compte, en prévoyant une ou plusieurs relectures humaines du document.