Remise en forme, reformatage, OCR, de fichiers PDF récalcitrants à la recherche de texte

7th février 2009, 02:24 pm

Problème 1:

Des fichiers PDF qui affichent convenablement le texte, qui permettent d’y sélectionner le texte, mais quand on colle ce texte sélectionné ailleurs, on obtient une suite de caractères illisibles (points d’interrogation par exemple).
La recherche dans le texte (au moyen d’Acrobat) ne fonctionne pas.
Le moteur d’indexation que j’utilise est également incapable d’indexer ces documents.

Problème 2 (différent du précédent, mais dont la solution est la même): le document PDF ne permet pas d’y faire de sélection. Si on veut appliquer la ROC, Acrobat donne le message d’erreur: « Acrobat n’a pas pu procéder à la reconnaissance (ROC) de la page pour la raison suivante: La page contient du texte générable. »

Voici une solution qui permet de remettre ces documents en forme, et qui utilise la version complète d’Acrobat (le Reader ne suffit pas):

Dans Acrobat: Fichier > Enregistrer sous > Format Tiff, en réglant la résolution à la main pour avoir quelque chose de correct.
Rapatrier toutes les images TIFF dans Acrobat pour refaire un PDF .
Passer à l’OCR via Document > Reconnaissance de texte par ROC.

Plus d’infos et exemple: http://www.adobeforums.com/webx/.59b708f3/3

Voir aussi: http://kb.adobe.com/selfservice/viewContent.do?externalId=333110

On peut également imaginer de transformer le fichier PDF en fichier DOC, RTF, ou autre, puis de repasser en PDF. A priori ça devrait être plus simple, mais il y a des difficultés! Voici un exemple:

le fichier PDF original, qui contient du « texte générable »
le fichier converti par pdftoword: catastrophique !
media-convert refuse de convertir le fichier
Zamzar donne une erreur de conversion
le fichier converti par « enregistrer sous » avec Acrobat 9.1 : catastrophique!

Update (07/2010): AnyBizSoft PDF to Word Converter (voir ici) convertit en .doc les PDF cryptés. Pas essayé.

Category: Informatique | Commentaire (RSS) | Rétrolien

Warning: Undefined variable $user_ID in /home/clients/6f1e08439eb2693ed692daa4560a2fc5/web/wordpress/wp-content/themes/Blue-Green-Core/comments.php on line 66

You must be logged in to post a comment.

Blog GT

Remise en forme, reformatage, OCR, de fichiers PDF récalcitrants à la recherche de texte

Leave a comment

Pages

Catégories

Méta