Comment extraire le texte d'un PDF protégé ou non

illustration2009120909.jpgTout le monde et son petit prince connaissent le format PDF, une techno d’Adobe très efficace pour faire circuler de l’information dont on veut préserver la mise en forme. Ainsi, un directeur artistique peut envoyer une maquette ou un rédacteur, la première version d’un manuel. Selon la sécurité déployée, le PDF pourra être totalement, partiellement ou aucunement verrouillé, selon qu’il sera possible ou impossible de l’imprimer ou de le copier dans un logiciel de bureautique. Cela fait partie de la magie de ce gros fardier qu’est Adobe Acrobat 9. Sauf que le Net étant ce qu’il est, plein de monde a réussi à déjouer ces verrouillages. Sans oublier les systèmes d’exploitation alternatifs à Windows …

illustration2009120901.jpgOn sait qu’il est possible d’extraire le texte et les images d’un PDF non cadenassé. Par exemple, si vous ouvrez ce manuel Apple, c’est celui du iPhone, vous n’avez qu’à saisir le texte qui vous intéresse et le coller dans un éditeur ou dans un traitement de texte. Plusieurs sites Web procèdent ainsi pour « ajouter de la valeur » à leur contenu. Si le « copie-colle » est permis, c’est que ça ne pose pas de problème, non ? Évidemment, la mise en page ne passe pas telle quelle, même si on choisit le menu « copier avec formatage ». Il faut tout retravailler. (Pour copier tel quel un beau PDF couleur plein d’images et d’info, on doit créer des prises d’écran que l’on rogne à son goût, ou encore on doit imprimer le document si cette fonction est permise.)

Ouvrez maintenant ce document de Sony, le manuel de la Cyber-shot DSC-T70. On a beau essayer de saisir le texte, c’est impossible. Le document a été protégé. Quelle frustration ! Regardez les deux illustrations qui suivent (j’ai superposé les deux PDF) et portez attention au contenu du menu contextuel (obtenu avec l’interrupteur droit de la souris après avoir sélectionné un mot).

ligne.jpg

illustration2009120902.jpg

Dans le document d’Apple, je peux copier le texte qui m’intéresse.

ligne.jpg

illustration2009120903.jpg

Dans celui de Sony a protégé, je ne le peux.ligne.jpg

Mais que faire si je dois absolument copier le texte de Sony (geste qui peut me procurer un tas d’ennui sur le plan violation de copyright) ? Il y a essentiellement deux possibilités : soit me procurer un logiciel spécialisé, soit utiliser un service Web.

Dans le premier cas, plusieurs gratuiciels se prêtent à cette tâche et le plus connu semble être A-PDF Text Extractor. On l’ouvre, on lui indique où se trouve le PDF dont on veut extraire du texte, on lui dit où on veut qu’il enregistre le fichier texte et on appuie sur le bouton « Extract Text ». C’est tout. On obtient un document Bloc-notes prêt à potasser. La première prise d’écran nous montre le manuel protégé de Sony une fois traité. La seconde nous indique que … ça ne marche pas tout le temps. Certains PDF sont vraiment cadenassés.

ligne.jpg

illustration2009120904.jpg

ligne.jpg

illustration2009120905.jpg

ligne.jpg

Heureusement, d’autres produits peuvent y arriver. C’est le cas du service Web PDF Text Online qui, lui, a su extraire le texte auquel se réfère la dernière prise d’écran. Mais souffrez que je ne vous en donne pas la preuve, le collègue qui m’a envoyé la maquette « vraiment cadenassée » de son magazine me détesterait … Quoi qu’il en soit, on indique où se trouve le PDF, on appuie sur le bouton « Start », l’extraction s’effectue et le texte apparaît (prise d’écran ci-après). Mais il n’est pas « traitable ». On doit le saisir et le coller dans un éditeur/traitement de texte.

ligne.jpg

illustration2009120906.jpg

ligne.jpg

Évidemment, tout cela ne s’applique pas si on est sous Mac OS X ou sous Linux. À preuve, voici mon PDF protégé de Sony dont le texte se retrouve extrait dans Beans, un traitement de texte Mac, et dans OpenOffice.org sous Ubuntu 9.10.

ligne.jpg

illustration2009120908.jpg

Ici, le Mac a ouvert le PDF avec son logiciel « Aperçu » (le lecteur de PDF par défaut) et a accepté que j’en copie-colle le texte dans Beans.

ligne.jpg

illustration2009120907.jpg

Ici, « Document Viewer » (le lecteur de PDF par défaut) m’a laissé saisir le texte de Sony et le refiler au traitement de texte d’OpenOffice.ligne.jpg

Soit dit en passant, le document « très protégé » de mon collègue a également vu son texte se faire extraire sous ces deux plates-formes. Amusant !

Voilà pour ce matin !

P.S. – Y a quand même quelque chose que je trouve bizarre dans cette réalité que je viens de vous résumer …

Avis : j’utilise personnellement des machines sous Windows, Mac OS X et Linux et je n’ai aucune préférence; en fait j’ai une relation d’amour-haine avec chacune. Si vous croyez que je suis parti-pris envers l’une ou l’autre de ces plates-formes, je vous soumets respectueusement que vous avez tort et ne peux vous recommander que de consulter mes chroniques antérieures.

ligne.jpg

Publicités

17 réflexions sur “Comment extraire le texte d'un PDF protégé ou non

  1. C’est ironique en effet, surtout que le pire logiciel qui soit pour lire des PDFs (format créé par Adobe) soit… Adobe Acrobat Reader lui-même!! Çelà fait longtemps que j’ai « flushé » cette abomination de logiciel de mes environnements informatiques, et quand je configure ou répare une machine Windows, une des premières choses que je fait c’est justement de désinstaller ce paquebot qu’est Adobe Acrobat Reader pour le remplacer par quelque chose de plus léger tel FoxitReader. C’est insupportable le temps requis juste pour « loader » le logiciel d’Adobe quand on veut simplement visionner rapidement un fichier PDF! Surtout quand il existe tant d’alternatives bien plus légères et rapides, je ne comprends vraiment pas ceux qui insistent pour installer et utiliser la version officielle d’Adobe…

  2. Merci pour l’information. Je suis traducteur et mes clients ne cessent de m’envoyer des documents à traduire, mais en format .pdf que je ne peux que lire sans pouvoir les éditer. Dans la plupart des cas, ils ont la version originale en format Word mais se disent que c’est trop gros à envoyer…

  3. Comme en témoigne cette image, je n’ai eu aucune difficulté à ouvrir le document de Sony (DSC-T70) et à en copier un bout dans un éditeur de texte.

    Le lecteur utilisé ici est le « Document viewer », l’application par défaut sous Ubuntu pour ouvrir des PDF. Par contre, s’il y a des colonnes de texte, ça devient tout mélangé (ça copie les 2 colonnes à la fois), bref, ça aide pas ben ben dans ce cas-là.

    Avec Inkscape, les choses s’améliorent, parce que les blocs de texte (les colonnes) sont distincts, évitant ainsi de copier un bout de la colonne gauche et de la colonne droite en même temps (comme sous Document viewer). Par contre, Inkscape ne permet l’ouverture que d’une page à la fois!

    Et pour ce qui est du verrouillage ou de la protection dudit PDF, je n’en ai pas vu la manifestation, sauf pour le petit cadenas apposée à l’icone du PDF sur mon bureau…

  4. Notez bien que faire un « scan » permet tout simplement de traduire les caractères vers un traitement de texte des plus facilement. Cela se fait tout seul en indiquant au « scanner » sous quel format on veut le résultat.
    Michel
    PS.: et pour les images, c’est une évidence.

  5. Bien d’accord mon bonhomme vert, j’ai aussi pris l’habitude d’installer FoxitReader et simplement Aperçu sous OS X. Mais quels emmerdements au bureau, pour copier une citation ou un extrait, de ne pouvoir le faire. Porque yé né souis pas l’administrator à la officina et né peux donc installer dé logiciels à mon goût ! Hé !

    @ racoon

    Ça se peut bien que tes clients ne connaissent pas la différence entre les fichiers PDF et DOC. Pour un document constitué uniquement de texte, la taille est à peu près la même. Je viens de tester avec un texte de 100 pages ; 390 ko en Word et en PDF ; 345 ko. L’uitlité d’un PDF est que sur n’importe quelle machine ça sortira toujours pareil. Supposé. Mais quand c’est un texte à travailler, ce n’est vraiment pas le bon format.

    Je viens de tester PDF Text Online ; ti-guedou. Qu’est-ce qu’on dit ?

    – Merci tonton Nelson !

    Alex.

  6. Ça fait un bout que je ne suis plus sur mac, mais me semble que dans le bon vieux temps, on pouvait configurer le option+clic sur une image pour l’ouvrir dans photoshop. Ou peut-être était-ce seulement avec Acrobat
    Exchange?

  7. @alexanticosti

    Si tu n’es pas administrateur de ton ordinateur et tu veux utiliser une application comme Foxit Reader ou FireFox sous Windows? Facile cherche la version portable (pour cle USB), l’applications a été adaptée pour que tu puisses l’utiliser sans avoir à l’installer. Présentement ce message est envoyer sur un FireFox portable!!!

    Remi.Net

  8. Malheureusement, faut encore faire des cabrioles pou simplement refaire un document à partir d’un PDF
    (passer de PDF à Word,Pages,OOoWriter) …

    Mais rééditer le PDF lui-même ça prend encore des logiciels très dispendieux pour y parvenir . Comme Adobe Acrobat* par exemple .

    * Pas la version Reader gratos, mais la version intégrale $$$

  9. Bonjour !
    Pour les applications libres et portables sans avoir besoin d’installer, il y a une adresse que tous vous devez connaître, c’est celle de Framakey.
    Je vous la donne ici, question de faire ma BA de la journée. 😉

    http://www.framakey.org/

    Bonne fin de journée!

  10. @Alex

    Va voir Sumatra pdf. C’est simplement un exécutable, pas besoin de l’installer. Et encore plus léger et rapide que Foxit.

    Sinon, pour l’installation sans droit admin, installe Foxit a un endroit ou tu as les droit d’écriture: mes documents par exemple.. C’est pas comme si tu voulait l’insatller sur un OS sécure!

  11. Bonjour,

    @ alexanticosti

    Mais quels emmerdements au bureau, pour copier une citation ou un extrait, de ne pouvoir le faire. Porque yé né souis pas l’administrator à la officina et né peux donc installer dé logiciels à mon goût ! Hé !

    Pour toi certainement, mais pour nous les techs en entreprise quel plaisir.
    Pas de comique qui installe des jeux des softs pirates et autres virus microsoftien. Que de mauvais souvenirs de l’époque win 95 et 98……

  12. Sumatra, j’adore! Léger et efficace, je le refile à tous mes clients à la place de l’usine à gaz d’Adobe et du pas-si-tant-convivial-que-ça-en-fin-du-compte Foxit.

    Perso, j’utilise Abbyy Screenshot Reader, qui vient avec Abbyy Fine Reader. Pas de taponnage, ça vous capture et transforme n’importe quelle partie d’écran en traitement de texte… avec mise en page sioupplait!
    Avec pas de fautes… ou presque.

  13. @ Buckaroo

    OH yes. J’en ai fait travailler des tech de support ! J’ai ajouté quelques nouvelles façons de faire planter WIN 3.1 puis NT 4 à leur connaissances ça c’est certain. Je respecte leur travail les pôvres. Entretenir des dizaines de XP m’a toujours semblé tenir de la peine du pauvre Sisyphe ; aussitôt que ça semble bien aller, ça ne rate pas il y a une nouvelle tuile.

    Mais je vais essayer la clef comme plusieurs me l’ont suggéré. Et pas chien, je vais en parler (hors micro) avec mes chums du support.

    @ tous

    Merci des conseils et infos.

    @ ce pauvre dubeau

    T’es chanceux d’être loin, et que les coups de fouet virtuel ne fassent pas plus mal que ça. Tu me donnerais du Marquis menèm !

    Alex.

  14. Je me rappel avoir trouvé Foxit PDF Reader il y a quelques années tout à fait par hasard et depuis il fait moi aussi parti de mon « kit » de départ de toute nouvelle installation.

    Par contre, un petit logiciel peu connu : Adobe Digital Editions. Encore plus petit que Foxit, simple, rapide et gratuit. Très surprenant.

    http://www.adobe.com/products/digitaleditions/

    Adobe ne fait pas de promo active pour ce logiciel car la justification pour l’installation de sa pieuvre obèse qu’est Acrobat Reader serait difficile à faire. En fait, il n’est même pas sur leur site à l’onglet « products ».

    C’est un gars d’un site de vente de livres électroniques qui a répondu à un courriel dans lequel je demandais une alternative à Acrobat Reader pour lire leurs fichiers protégés. Dans le temps, il n’était même pas hébergé sur le site d’Adobe (!!).

    Il lit tout : ebooks, magazines, journaux, sites, … Pas mal du tout.

    En passant, pour Sumatra et Foxit, conservez vos vieilles versions. Les plus récentes sont beacoup plus lourdes que les premières. Ils nous font le même coup que Adobe. Foxit pourrait bien devenir une grosse baleine lui aussi s’il est acheté par une grosse firme.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s