gocr - La reconnaissance de caractères sous GNU/Linux

gocr est une commande qui permet de faire de la reconnaissance de caractères sous GNU/Linux.

Elle utilise des fichiers au format pnm.

Pré requis :

Pour utiliser gocr, il est nécessaire d'installer le programme djpeg qui permet de convertir un fichier jpeg en pnm.

$ sudo apt-get install gocr libjpeg-progs

Utilisation :

Je vais partir du cas le plus complet c'est à dire effectuer une reconnaissance de caractères à partir d'un fichier PDF (une facture par exemple).

Je dois donc convertir ce fichier PDF en fichier PNM.

Je vais utiliser la commande convert qui permet de convertir un fichier PDF en JPEG, puis la commande djpeg pour convertir mon fichier JPEG en PNM.

Il faut que le fichier JPEG généré à partir du fichier PDF soit d'une excellente qualité ( -density 500).

convert -density 500 exempleFactureMicroRemise.pdf exempleFactureMicroRemise.jpg

Pour finir, conversion du fichier JPEG en PNM avec la commande djpeg puis envoi du résulat à la commande gocr qui va écrire le contenu dans un fichier texte.

djpeg -pnm -gray exempleFactureMicroRemise.jpg | gocr - > exempleFactureMicroRemise.txt

Le résultat obtenu est assez satisfaisant.

Etiquettes: