Tout d'abord, vous devez comprendre ce qu'est un PDF. Les PDF sont conçus pour imiter une page imprimée, et ils sont conçus seulement comme un format de sortie, et non comme un format d'entrée. Un PDF est essentiellement une carte contenant l'emplacement exact des caractères (lettres individuelles ou ponctuation, etc.) ou des images. Dans la plupart des cas, un PDF ne stocke même pas d'informations sur l'endroit où un mot se termine et où un autre commence, et encore moins sur des éléments tels que les coupures douces ou les coupures dures pour les fins de paragraphe.
(Quelques PDF récents stockent des informations à ce sujet, mais c'est une nouvelle technologie, et vous auriez de la chance de trouver des PDF de ce type. Quoi qu'il en soit, c'est à votre logiciel de mettre en œuvre une sorte d’“intelligence artificielle” pour extraire simplement à partir des emplacements des caractères individuels ce qu'est un mot, ce qu'est un paragraphe, et ainsi de suite. Différents logiciels le feront mieux que d'autres, et cela dépendra aussi de la façon dont le PDF a été créé. Dans tous les cas, vous ne devez jamais vous attendre à des résultats parfaits. Avoir le PDF de sortie n'est pas la même chose que d'avoir le document source. Il vaut bien mieux essayer de l'obtenir si vous le pouvez.
La solution standard à votre type de problème est d'utiliser Adobe Acrobat Professional (le plus cher, pas le lecteur gratuit) pour convertir le PDF en HTML. Il existe des logiciels gratuits qui peuvent être utilisés pour extraire le texte des PDF avec une partie du formatage intacte, mais là encore, n'espérez pas des résultats parfaits. Voir, par exemple, calibre (qui peut convertir au format RTF), pdftohtml/pdfreflow ou le traitement de texte AbiWord (avec tous les plugins d'importation/exportation activés). Il existe également un plugin d'importation de PDF pour OpenOffice.
Mais n'attendez pas la perfection avec ces résultats. Vous allez à contre-courant. Le PDF n'est pas un format d'entrée modifiable.