{"id":208,"date":"2009-02-07T14:24:56","date_gmt":"2009-02-07T13:24:56","guid":{"rendered":"http:\/\/tayeb.fr\/wordpress\/?p=208"},"modified":"2010-07-07T15:44:25","modified_gmt":"2010-07-07T14:44:25","slug":"remise-en-forme-reformatage-ocr-de-fichiers-pdf-recalcitrants-a-la-recherche-de-texte","status":"publish","type":"post","link":"https:\/\/tayeb.fr\/wordpress\/2009\/02\/remise-en-forme-reformatage-ocr-de-fichiers-pdf-recalcitrants-a-la-recherche-de-texte\/","title":{"rendered":"Remise en forme, reformatage, OCR, de fichiers PDF r\u00e9calcitrants \u00e0 la recherche de texte"},"content":{"rendered":"<p>Probl\u00e8me 1:<\/p>\n<ul>\n<li>Des fichiers PDF qui affichent convenablement le texte, qui permettent d&rsquo;y s\u00e9lectionner le texte, mais quand on colle ce texte s\u00e9lectionn\u00e9 ailleurs, on obtient une suite de caract\u00e8res illisibles (points d&rsquo;interrogation par exemple).<\/li>\n<li>La recherche dans le texte (au moyen d&rsquo;Acrobat) ne fonctionne pas.<\/li>\n<li>Le moteur d&rsquo;indexation que j&rsquo;utilise est \u00e9galement incapable d&rsquo;indexer ces documents.<\/li>\n<\/ul>\n<p>Probl\u00e8me 2 (diff\u00e9rent du pr\u00e9c\u00e9dent, mais dont la solution est la m\u00eame): le document PDF ne permet pas d&rsquo;y faire de s\u00e9lection. Si on veut appliquer la ROC, Acrobat donne le message d&rsquo;erreur: \u00ab\u00a0Acrobat n&rsquo;a pas pu proc\u00e9der \u00e0 la reconnaissance (ROC) de la page pour la raison suivante: La page contient du texte g\u00e9n\u00e9rable.\u00a0\u00bb<\/p>\n<p>Voici une solution qui permet de remettre ces documents en forme, et qui utilise la version compl\u00e8te d&rsquo;Acrobat (le Reader ne suffit pas):<\/p>\n<ul>\n<li>Dans Acrobat: Fichier &gt; Enregistrer sous &gt; Format Tiff, en r\u00e9glant la r\u00e9solution \u00e0 la main pour avoir quelque chose de correct.<\/li>\n<li>Rapatrier toutes les images TIFF dans Acrobat pour refaire un PDF .<\/li>\n<li>Passer \u00e0 l&rsquo;OCR via Document &gt; Reconnaissance de texte par ROC.<\/li>\n<\/ul>\n<p>Plus d&rsquo;infos et exemple: <a href=\"http:\/\/www.adobeforums.com\/webx\/.59b708f3\/3\">http:\/\/www.adobeforums.com\/webx\/.59b708f3\/3<\/a><\/p>\n<p>Voir aussi: <a href=\"http:\/\/kb.adobe.com\/selfservice\/viewContent.do?externalId=333110\">http:\/\/kb.adobe.com\/selfservice\/viewContent.do?externalId=333110<\/a><\/p>\n<p>On peut \u00e9galement imaginer de transformer le fichier PDF en fichier DOC, RTF, ou autre, puis de repasser en PDF. A priori \u00e7a devrait \u00eatre plus simple, mais il y a des difficult\u00e9s! Voici un exemple:<\/p>\n<ul>\n<li>le <a href=\"http:\/\/tayeb.fr\/wordpress_uploads\/QSF_original.texte.generable.pdf\">fichier PDF original<\/a>, qui contient du \u00ab\u00a0texte g\u00e9n\u00e9rable\u00a0\u00bb<\/li>\n<li>le <a href=\"http:\/\/tayeb.fr\/wordpress_uploads\/QSF_pdftoword.doc\">fichier converti<\/a> par <a href=\"http:\/\/www.pdftoword.com\/\">pdftoword<\/a>: catastrophique !<\/li>\n<li><a href=\"http:\/\/media-convert.com\/convertir\/\">media-convert<\/a> refuse de convertir le fichier<\/li>\n<li><a href=\"http:\/\/www.zamzar.com\/\">Zamzar<\/a> donne une erreur de conversion<\/li>\n<li>le <a href=\"http:\/\/tayeb.fr\/wordpress_uploads\/QSF_export_avec_Acrobat.doc\">fichier converti<\/a> par \u00ab\u00a0enregistrer sous\u00a0\u00bb avec Acrobat 9.1 : catastrophique!<\/li>\n<\/ul>\n<p>Update (07\/2010): AnyBizSoft PDF to Word Converter (<a href=\"http:\/\/dottech.org\/freebies\/16615\" target=\"_blank\">voir ici<\/a>) convertit en .doc les PDF crypt\u00e9s. Pas essay\u00e9.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Probl\u00e8me 1: Des fichiers PDF qui affichent convenablement le texte, qui permettent d&rsquo;y s\u00e9lectionner le texte, mais quand on colle ce texte s\u00e9lectionn\u00e9 ailleurs, on obtient une suite de caract\u00e8res illisibles (points d&rsquo;interrogation par exemple). La recherche dans le texte (au moyen d&rsquo;Acrobat) ne fonctionne pas. Le moteur d&rsquo;indexation que j&rsquo;utilise est \u00e9galement incapable d&rsquo;indexer [&hellip;]<\/p>\n","protected":false},"author":8,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":false,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2}},"categories":[5],"tags":[],"class_list":["post-208","post","type-post","status-publish","format-standard","hentry","category-informatique"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/p4nbll-3m","_links":{"self":[{"href":"https:\/\/tayeb.fr\/wordpress\/wp-json\/wp\/v2\/posts\/208","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/tayeb.fr\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/tayeb.fr\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/tayeb.fr\/wordpress\/wp-json\/wp\/v2\/users\/8"}],"replies":[{"embeddable":true,"href":"https:\/\/tayeb.fr\/wordpress\/wp-json\/wp\/v2\/comments?post=208"}],"version-history":[{"count":9,"href":"https:\/\/tayeb.fr\/wordpress\/wp-json\/wp\/v2\/posts\/208\/revisions"}],"predecessor-version":[{"id":210,"href":"https:\/\/tayeb.fr\/wordpress\/wp-json\/wp\/v2\/posts\/208\/revisions\/210"}],"wp:attachment":[{"href":"https:\/\/tayeb.fr\/wordpress\/wp-json\/wp\/v2\/media?parent=208"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/tayeb.fr\/wordpress\/wp-json\/wp\/v2\/categories?post=208"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/tayeb.fr\/wordpress\/wp-json\/wp\/v2\/tags?post=208"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}