Comment copier du texte d'un fichier PDF sans perdre le formatage ?

Question

2010-10-11 21:13:58 +0000 2010-10-11 21:13:58 +0000

40

Comment copier du texte d'un fichier PDF sans perdre le formatage ?

Lorsque je copie du texte d'un fichier PDF dans un éditeur de texte, il se retrouve mutilé de différentes façons. Les formats comme le gras et l'italique sont perdus, les sauts de ligne dans un paragraphe sont convertis en sauts de ligne, les tirets pour couper un mot sur deux lignes sont conservés même s'ils ne devraient pas l'être, et les guillemets simples et doubles sont remplacés par des signes ?.

Idéalement, j'aimerais pouvoir copier du texte d'un PDF et avoir un formatage converti en codes HTML, des “guillemets intelligents” convertis en “ et ‘, et des sauts de ligne correctement effectués. Y a-t-il un moyen de le faire ?

pdf

Source

Colen http://superuser.stackexchange.com/users/613

Réponses (9)

8

2013-01-24 07:05:37 +0000

Une autre option consiste à télécharger et à commencer à utiliser le visualiseur de pdf gratuit, Foxit (son bien). Vous pouvez ensuite “Enregistrer sous” et choisir .txt pour le convertir en fichier texte. Cela permettra de conserver tout le formatage. Je ne sais pas si vous pouvez faire la même chose avec Adobe car j'ai arrêté de l'utiliser il y a quelque temps lorsque j'ai converti à Foxit.

Source

chris http://superuser.stackexchange.com/users/613

5

2012-12-01 13:48:55 +0000

Ouvrez votre fichier PDF avec un navigateur (Google chrome et firefox sont testés) puis copiez votre texte.

Source

harsini http://superuser.stackexchange.com/users/613

5

2012-12-01 14:29:34 +0000

Il existe un très bon outil en ligne appelé Sej-da. Il traite de la manipulation avancée des PDF. Il n'y a pas de logiciel à télécharger. Comme il s'agit d'un nouvel outil en ligne, il est actuellement encore en version bêta. Il vous permet d'extraire du texte d'un PDF, tout en fournissant une myriade d'autres fonctionnalités PDF http://www.sejda.com/

Une brève revue vidéo des fonctions du sejda a été réalisée le 14 novembre 2012 par la révision 3 ; elle peut être consultée ici : http://revision3.com/tzdaily/sejda-online-pdf

Source

Simon http://superuser.stackexchange.com/users/613

4

2012-09-06 19:00:19 +0000

Vous pouvez utiliser Adobe Acrobat Pro pour cela.

Pour les tableaux : Avec Acrobat 9/10, il y avait une fonction de sélection des tableaux. Avec Acrobat X, vous pouvez simplement cliquer sur Enregistrer sous > Spreadsheet > Excel. Il permet même de concaténer des pages en une longue feuille de calcul. Une fonction géniale.

Pour le texte : Une fonction similaire existe pour l'exportation vers MS Word. Save As > Word > Word Doc.

Sources :

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
Je viens de le faire et ça a marché comme sur des roulettes.

Source

user156787 http://superuser.stackexchange.com/users/613

0

2015-04-13 11:19:56 +0000

Foxit basculera entre l'affichage du fichier original en PDF normal ou en texte en appuyant sur Ctrl + 6 (Avec un peu de manipulation sur le niveau de zoom du mode texte, il n'y a pas beaucoup de saut de position entre la lecture et la copie)

Source

Stoatly http://superuser.stackexchange.com/users/613

0

2017-02-25 23:17:51 +0000

J'ai trouvé cela très utile ( Remove Line Breaks ) :

Voici une astuce utile pour résoudre rapidement ce problème sans avoir à supprimer manuellement tous les sauts de ligne. En gros, il suffit de remplacer automatiquement tous les sauts de ligne indésirables par un seul espace, ce qui fait que tout le texte est regroupé dans un seul paragraphe :

1- copiez le texte que vous voulez à partir du PDF.

2- collez dans un nouveau document Word.

3- cliquez sur “edit” puis “replace”

4- assurez-vous que vous êtes dans le champ “find what”

5- cliquez sur “more” puis “special”

6- sélectionnez “paragraph mark” (en haut de la liste)

7- cliquez dans le champ “replace with”

8- appuyez une fois sur la barre d'espacement

9- cliquez sur “replace all”

10- cliquez sur “ok” puis fermez la boîte “find & replace”.

Source

sky-light http://superuser.stackexchange.com/users/613

-1

2016-01-22 16:15:08 +0000

J'essayais de sauvegarder le texte et le format d'un pdf qui était organisé dans un tableau. Dans Acrobat Professional, je me suis rendu compte qu'il existe une option “Enregistrer sous” qui permet d'enregistrer sous forme de document Excel. Cela a bien fonctionné pour mes besoins. J'ai également remarqué qu'il y a une option “Enregistrer sous” pour les documents Word. Mais je n'ai pas essayé.

Source

Douglas Thompson http://superuser.stackexchange.com/users/613

-1

2015-12-11 04:23:43 +0000

-->

Vous pouvez copier depuis adobe reader vers MS Excel et formater (tableau) comme vous le souhaitez, puis copier et coller depuis Excel. Cette solution fonctionne très bien. Vous n'avez pas besoin d'acheter une copie professionnelle coûteuse d'adobe.

Source

Murali Sastry http://superuser.stackexchange.com/users/613

Questions connexes

19

Comment comparer les différences entre deux fichiers PDF sous Windows ? 209

12

Comment convertir la démarque au goût de Github en un PDF 159

9

Combiner/fusionner des fichiers PDF sous Windows ? 137

13

Comment savoir quelles polices sont utilisées dans la partie sélectionnée d'un document PDF 121

6

Comment réinstaller GRUB2 EFI ? 56

frabjous http://superuser.stackexchange.com/users/613 · Accepted Answer · 2010-10-11 21:30:12 +0000

Tout d'abord, vous devez comprendre ce qu'est un PDF. Les PDF sont conçus pour imiter une page imprimée, et ils sont conçus seulement comme un format de sortie, et non comme un format d'entrée. Un PDF est essentiellement une carte contenant l'emplacement exact des caractères (lettres individuelles ou ponctuation, etc.) ou des images. Dans la plupart des cas, un PDF ne stocke même pas d'informations sur l'endroit où un mot se termine et où un autre commence, et encore moins sur des éléments tels que les coupures douces ou les coupures dures pour les fins de paragraphe.

(Quelques PDF récents stockent des informations à ce sujet, mais c'est une nouvelle technologie, et vous auriez de la chance de trouver des PDF de ce type. Quoi qu'il en soit, c'est à votre logiciel de mettre en œuvre une sorte d’“intelligence artificielle” pour extraire simplement à partir des emplacements des caractères individuels ce qu'est un mot, ce qu'est un paragraphe, et ainsi de suite. Différents logiciels le feront mieux que d'autres, et cela dépendra aussi de la façon dont le PDF a été créé. Dans tous les cas, vous ne devez jamais vous attendre à des résultats parfaits. Avoir le PDF de sortie n'est pas la même chose que d'avoir le document source. Il vaut bien mieux essayer de l'obtenir si vous le pouvez.

La solution standard à votre type de problème est d'utiliser Adobe Acrobat Professional (le plus cher, pas le lecteur gratuit) pour convertir le PDF en HTML. Il existe des logiciels gratuits qui peuvent être utilisés pour extraire le texte des PDF avec une partie du formatage intacte, mais là encore, n'espérez pas des résultats parfaits. Voir, par exemple, calibre (qui peut convertir au format RTF), pdftohtml/pdfreflow ou le traitement de texte AbiWord (avec tous les plugins d'importation/exportation activés). Il existe également un plugin d'importation de PDF pour OpenOffice.

Mais n'attendez pas la perfection avec ces résultats. Vous allez à contre-courant. Le PDF n'est pas un format d'entrée modifiable.