Le PDF a déformé le texte lors du copier-coller

Question

2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000

26

Le PDF a déformé le texte lors du copier-coller

J'essaie de copier et de coller du texte à partir d'un fichier PDF.

Cependant, chaque fois que je colle le texte original, c'est un énorme fouillis de caractères déformés. Le texte ressemble à ce qui suit (ce n'est qu'un petit extrait) :

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

Je l'ai essayé dans les lecteurs de PDF d'Adobe et de Foxit. J'ai fait un “Save as text” dans Adobe Reader et le fichier texte qui en résulte est le même texte déformé.

Avez-vous des idées sur la manière de faire sortir ce texte sans le déformer ? (Autre que la frappe manuelle… il y a beaucoup de texte à extraire).

Source

ngm http://superuser.stackexchange.com/users/17281

Réponses (11)

Questions connexes

10

Supprimer ou empêcher l'ouverture de la barre latérale par défaut sur Adobe Reader 280

19

Comment comparer les différences entre deux fichiers PDF sous Windows ? 209

12

Comment convertir la démarque au goût de Github en un PDF 159

8

PowerShell équivalent de curl 155

9

Combiner/fusionner des fichiers PDF sous Windows ? 137

acatalept http://superuser.stackexchange.com/users/17281 · Answer 1 · 2011-04-08 14:40:29 +0000

Le moyen le plus simple de contourner ce problème est d'ouvrir le fichier dans une version récente de Google Chrome avec le plugin de lecture de PDF intégré. Vous pouvez ensuite utiliser la fonction de recherche de Chrome pour trouver du texte, et le copier-coller fonctionne correctement.

J'aimerais voter pour le commentaire de pipitas sur la réponse de Shiki, mais je n'ai pas les compétences nécessaires :( Le problème peut être l'encodage de la police personnalisée, pas le cryptage. Dans Acrobat, cliquez sur Fichier -> Propriétés, puis sur l'onglet Polices pour voir le codage, et sur l'onglet Sécurité pour voir s'il est crypté.

Nick Olszanski http://superuser.stackexchange.com/users/17281 · Answer 2 · 2012-03-18 14:36:54 +0000

4

2012-03-18 14:36:54 +0000

Il existe un autre moyen très simple de contourner le problème :)

Il suffit d'imprimer le document en utilisant l'imprimante CutePdf, Adobe 2 Pdf ou tout autre matériel similaire. En fin de compte, vous devez l'imprimer au format pdf.

Dans de nombreux cas, cela résoudra facilement le problème.

Source

Nick Olszanski http://superuser.stackexchange.com/users/17281

Daniel http://superuser.stackexchange.com/users/17281 · Answer 3 · 2010-05-18 22:18:44 +0000

J'ai découvert ce problème avec les PDF que j'ai créés, et je crois avoir trouvé la source du problème : l'utilisation de l'aperçu de Mac OS X pour réduire la taille du fichier PDF.

J'avais créé des filtres Quartz en utilisant l'utilitaire Colorsync pour compresser les images dans les PDF afin de réduire la taille globale des fichiers PDF contenant des images. Tels que décrits ici : http://www.macosxhints.com/article.php?story=20031106133852693 ](http://www.macosxhints.com/article.php?story=20031106133852693)

J'ai constaté que je suis capable de copier et de coller facilement du texte à partir du fichier PDF original (non compressé), mais après avoir fait passer ce PDF par un filtre de réduction de la taille du fichier que j'ai créé, le PDF compressé qui en résulte ne se copie pas et ne se colle pas clairement (il ressemble aux chaînes de caractères que vous avez affichées).

Cependant, en exécutant ce même PDF original avec la fonction “Document” d'Adobe Acrobat Pro > Réduire la taille du fichier, le PDF compressé résultant peut copier et coller le texte avec succès.

Cela n'est donc pas totalement utile dans votre cas, en supposant que votre fichier PDF a été reçu d'ailleurs et que vous ne pouvez pas accéder à la version originale, s'il a effectivement été compressé d'une manière ou d'une autre. Mais c'est peut-être l'explication : le fichier a été modifié d'une manière ou d'une autre pour en réduire la taille.

Cela pourrait être utile aux créateurs de contenu qui rencontrent des problèmes similaires pour copier et coller du texte à partir de PDF - faites attention en utilisant les filtres Quartz OS X pour réduire vos PDF !

–edit– J'ai également remarqué ce problème lors de la combinaison de PDF avec la prévisualisation. Les deux PDF sources peuvent être copiés et collés sans problème, mais lorsque l'on fait glisser une page d'un fichier dans l'autre, puis que l'on enregistre le PDF combiné, le texte du document combiné ne peut pas être copié/collé. Il s'agit de deux documents générés en même temps avec Filemaker Pro 11 sur Mac - je ne peux pas imaginer qu'ils aient des codages différents ou quoi que ce soit d'autre.

Gavin Miller http://superuser.stackexchange.com/users/17281 · Answer 4 · 2013-01-03 20:36:58 +0000

3

2013-01-03 20:36:58 +0000

Une solution qui a fonctionné pour moi :

Téléchargez le document sur Google Drive/Docs
Google l'importera (à partir de 2013) au format PDF
Ouvrez la vue PDF et choisissez Fichier > Ouvrir avec > Google Docs
Cela prendra environ une minute pour exporter le document

Les résultats n'étaient pas parfaits, mais m'ont permis d'arriver à 80 % et de me fournir suffisamment de texte pour ne pas avoir à tout réécrire !

Source

Gavin Miller http://superuser.stackexchange.com/users/17281

user210118 http://superuser.stackexchange.com/users/17281 · Answer 5 · 2013-03-24 23:59:49 +0000

SOLVÉ : (a travaillé pour moi sur Windows 8, Acrobat XI, Office 2010)

Option 1 :

Imprimer à partir d'Acrobat en utilisant “Microsoft XPS Document Writer” La sortie est : “votre nom de fichier .oxps”
Ouvrir “…oxps” avec XPS Viewer. *(voir le lien de téléchargement dans les commentaires ci-dessous)
Imprimer au format PDF (Acrobat PDF, ou CutePDF), en utilisant la plus haute résolution (600 DPI).
Ouvrir avec Acrobat et utiliser l'option OCR (Searchable Image (Exact)).

BINGO !

Commentaires :

L'utilisation de la plus haute résolution et de l'option Image recherchable (exacte) permettra d'enregistrer votre texte sans perdre son aspect propre. La basse résolution rendra votre texte lisible, mais d'une apparence peu soignée.
Téléchargez Microsoft XPS (fichiers) : http://www.microsoft.com/en-us/download/details.aspx?id=11816
Si vous ne savez pas ce qu'est l'OCR, ni où trouver l'image recherchable (exacte), ni comment imprimer en utilisant “Microsoft XPS Document Writer”, S'IL VOUS PLAÎT, faites-le vous-même sur Google, pour une meilleure expérience.

*Téléchargez uniquement si vous n'avez pas installé XPS.

Option 2 :

Faites de même, mais enregistrez sous forme d'image (png, tiff, …), puis vous devrez combiner toutes les pages en un seul fichier “PDF”.

Reuti http://superuser.stackexchange.com/users/17281 · Answer 6 · 2011-10-26 18:58:50 +0000

Un de mes utilisateurs vient de me signaler le même problème (le PDF a été créé avec Distiller pour Windows), à savoir que le texte copié n'est qu'un texte déformé et qu'il ne pouvait pas faire de recherche à l'intérieur d'un document. J'ai essayé sur mon Mac et je n'ai trouvé aucun problème. Il s'est avéré que j'ai utilisé l'application Preview d'Apple, alors qu'il utilisait Adobe Reader sur sa machine Windows. J'ai ensuite essayé Adobe Reader sur mon Mac et j'ai obtenu le même résultat. Il me semble que c'est le cas :

Adobe Reader fait des recherches dans le texte sauvegardé.
L'aperçu d'Apple copie et recherche après avoir appliqué le vecteur d'encodage.

Je ne peux pas le dire avec certitude, mais cela expliquerait mon observation. Et cela permettrait en effet de faire toutes sortes d'encodages lors de la sauvegarde de fichiers combinés/réduits comme décrit dans un autre post ici : avec Preview vous pouvez toujours sortir le texte à nouveau.

Au début, j'ai pensé qu'il serait plus logique d'encoder le sous-ensemble de polices intégrées en tant qu'entrées contiguës au lieu de laisser des trous à l'intérieur et d'utiliser l'emplacement des caractères d'origine. Mais j'ai ensuite réalisé qu'en utilisant un vecteur de codage pour le sous-ensemble de polices avec les entrées originales, les caractères qui sont souvent utilisés peuvent avoir moins de bits mis à 1 dans leur octet et peuvent être compressés de façon plus efficace (cela peut réduire l'entrophie du texte global de cette façon).

Emil http://superuser.stackexchange.com/users/17281 · Answer 7 · 2010-06-21 20:51:02 +0000

Il y a un risque que les informations ne puissent pas être récupérées du tout. Les documents PDF sont essentiellement un document superposé à un autre, un texte simple, l'autre une image. Lorsque vous faites un copier-coller à partir du document, vous marquez le texte tout en regardant l'image, mais ce qui est copié dans votre presse-papiers est la partie correspondante du texte.

Selon la façon dont le document est créé, la qualité et la disponibilité de la partie texte peuvent être très différentes. Si vous enregistrez un document de traitement de texte au format PDF, en utilisant Acrobat, Word, un pilote d'imprimante PDF ou toute autre méthode, la qualité sera généralement excellente, puisque le fichier texte peut être créé à partir du texte de l'original. Certains caractères spéciaux peuvent être déformés, mais un texte simple est généralement de bonne qualité.

Si le document est créé à partir d'une image numérisée, cependant, la partie texte est généralement créée par traitement OCR de l'image, ce qui peut donner des résultats plutôt désolants, surtout si l'original n'est pas optimal pour l'usage prévu.

Un mauvais programme utilisé pour créer le PDF, ou des paramètres incorrects, peuvent également entraîner une altération complète de la partie texte, comme on peut le constater, certaines formes de cryptage s'exécutent sur le fichier après sa création.

En fin de compte, si la partie texte du document est vraiment mauvaise, il n'y a aucun moyen de l'améliorer. Le mieux serait de supprimer complètement la partie texte et de demander au programme de refaire le processus d'OCR. Je pense que cela peut être fait à partir d'Acrobat, mais je n'en suis pas tout à fait sûr.

Kurt Pfeifle http://superuser.stackexchange.com/users/17281 · Answer 8 · 2010-06-24 14:23:21 +0000

L'une des raisons possibles de cette situation pourrait être que l'intégration des polices dans le PDF utilisait un codage personnalisé, qui n'est pas correctement appliqué lors de la copie du texte du PDF.

Vous pouvez appliquer différentes méthodes pour vous éviter de devoir taper manuellement tout le contenu.

avez-vous essayé d'extraire le texte avec l'un des outils “pdftotext.exe” téléchargeables sur le “net” ? (je vous recommande celui qui figure dans ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
La dernière version d'Acrobat Reader comporte une option “Enregistrer sous forme de texte…”. Cette option n'utilise pas le “copier-coller” (qui vous a donné le texte déformé), mais utilise probablement les mêmes routines logicielles que celles utilisées pour rendre le texte à l'écran, et peut donc produire des résultats plus utilisables.
Si le “2.” ne fonctionne pas et si vous avez accès à Acrobat Professional, essayez de redistiller le PDF en utilisant un des profils de distillation incorporant des polices.
Si “3.” ne fonctionne pas, bien que vous ayez accès à Acrobat Professional : essayez de re-distiller le PDF, mais cette fois, vous devez utiliser l'option “Imprimer comme image” (disponible via le bouton “Avancé” dans le coin inférieur gauche de la boîte de dialogue principale d'impression). Assurez-vous d'utiliser 600 dpi (bien que cela puisse produire un énorme fichier). Le fichier PDF résultant est ensuite ouvert à nouveau dans Acrobat Pro. Appliquez maintenant l'algorithme “OCR” d'Acrobat au fichier, ce qui donnera du texte intégré (non utilisé pour le rendu à l'écran dans le Reader, mais utilisé pour la recherche et la mise en évidence de chaînes de caractères). Vous pouvez à présent essayer d'extraire le texte de ce PDF en utilisant l'une des méthodes décrites ci-dessus.

Jhonrie http://superuser.stackexchange.com/users/17281 · Answer 9 · 2013-03-15 21:19:30 +0000

-->

Je n'ai pas essayé l'option Google Docs car elle n'est toujours pas prise en charge dans mon bureau. Cependant, en imprimant le fichier dans “ScanSoft PDF Create !” à partir d’“Acrobat 9” (imprime le fichier entier en image) et en ouvrant le fichier imprimé dans “Nuance PDF Converter” (il m'a demandé si je voulais rendre le fichier image consultable et modifiable, ce que j'ai fait), j'ai pu obtenir un document Word que je peux facilement copier et coller. Ce n'est pas parfait, mais avec une précision d'environ 80 à 90 % seulement. Mais bon, vous avez toujours le fichier PDF original pour comparer et compenser les parties qui ne peuvent pas être réparées. Cela permet de gagner du temps de taper le tout. Mon 2c.

Ankit http://superuser.stackexchange.com/users/17281 · Answer 10 · 2012-10-02 19:05:44 +0000

1

2012-10-02 19:05:44 +0000

En le téléchargeant sur Google docs et en utilisant l'option View > Plain HTML , on obtient un texte copiable correct à environ 80%, avec quelques petits espaces manquants. This thread avec réponse acceptée à même question explique cela avec un exemple de travail.

Source

Ankit http://superuser.stackexchange.com/users/17281

Jimbo http://superuser.stackexchange.com/users/17281 · Answer 11 · 2011-10-16 21:34:19 +0000

J'ai créé des PDF au texte modifiable avec une ancienne version de Scansoft PDF Converter pour Windows XP, puis j'ai combiné les pages dans le programme Preview de Mac. Pour chacune des pages séparées, j'ai pu rechercher, copier et exporter correctement le texte à partir d'Adobe Reader sur le Mac. Une fois combinés par Preview et enregistrés dans un seul fichier, tout avait l'air bien à l'écran, mais seuls quelques passages étaient correctement recherchables/exportables. C'est ce problème qui m'a amené ici.

Les posts ici m'ont donné de bons conseils (merci !). J'ai regardé les propriétés des fichiers pour les polices. Les fichiers d'une seule page de Win XP (où tout va bien) indiquaient que l'encodage était ANSI. Le fichier combiné dans Preview (où le texte copié est déformé) montrait un encodage pour la plupart des polices comme “Built-in” avec quelques unes comme “Roman”.

La solution à mon problème était sous mon nez tout le temps - le programme Scansoft lui-même peut combiner des fichiers. Lorsque j'ai utilisé le combinateur de Scansoft et que j'ai ouvert le fichier sur le Mac, toutes les polices étaient codées en ANSI et tout le texte était parfaitement exporté/copié. Pourquoi diable je ne les ai pas combinées dans PDF Converter au départ, je ne sais pas. Merci, les affiches !

C'est la même chose que d'ouvrir les fichiers sur un système Linux.

Je sais que cela n'explique pas les problèmes propres à Windows - à moins que le PDF n'ait des origines mixtes similaires ?