in

Comment convertir un fichier PDF en texte modifiable à l’aide de la ligne de commande sous Linux

Il existe plusieurs raisons pour lesquelles vous souhaiterez peut-être convertir un fichier PDF en texte modifiable. Peut-être avez-vous besoin de réviser un ancien document et tout ce que vous avez est la version PDF de celui-ci. La conversion de fichiers PDF sous Windows est facile, mais que faire si vous utilisez Linux?

Pas de soucis. Nous allons vous montrer comment convertir facilement des fichiers PDF en texte modifiable en utilisant un outil de ligne de commande appelé pdftotext, qui fait partie du package «poppler-utils». Cet outil est peut-être déjà installé. Pour vérifier si pdftotext est installé sur votre système, appuyez sur « Ctrl + Alt + T » pour ouvrir une fenêtre de terminal. Tapez la commande suivante à l’invite et appuyez sur « Entrée ».

dpkg –s poppler-utils

REMARQUE: Lorsque nous disons de taper quelque chose dans cet article et qu’il y a des guillemets autour du texte, NE tapez PAS les guillemets, sauf indication contraire.

Si pdftotext n’est pas installé, tapez la commande suivante à l’invite et appuyez sur «Entrée».

sudo apt-get install poppler-utils

Tapez votre mot de passe lorsque vous y êtes invité et appuyez sur «Entrée».

Il existe plusieurs outils disponibles dans le package poppler-utils pour convertir des PDF en différents formats, manipuler des fichiers PDF et extraire des informations à partir de fichiers.

Voici la commande de base pour convertir un fichier PDF en fichier texte modifiable. Appuyez sur « Ctrl + Alt + T » pour ouvrir une fenêtre de terminal, tapez la commande à l’invite et appuyez sur « Entrée ».

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Modifiez le chemin d’accès à chaque fichier pour qu’il corresponde à l’emplacement et au nom de votre fichier PDF d’origine et à l’emplacement où vous souhaitez enregistrer le fichier texte résultant. Modifiez également les noms de fichiers pour qu’ils correspondent aux noms de vos fichiers.

Le fichier texte est créé et peut être ouvert comme vous le feriez pour tout autre fichier texte sous Linux.

Le texte converti peut avoir des sauts de ligne à des endroits que vous ne voulez pas. Des sauts de ligne sont insérés après chaque ligne de texte dans le fichier PDF.

Vous pouvez conserver la mise en page de votre document (en-têtes, pieds de page, pagination, etc.) à partir du fichier PDF d’origine dans le fichier texte converti à l’aide de l’indicateur «-layout».

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Si vous souhaitez convertir uniquement une plage de pages dans un fichier PDF, utilisez les indicateurs «-f» et «-l» (un «L» minuscule) pour spécifier les première et dernière pages de la plage à convertir.

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Pour convertir un fichier PDF protégé et chiffré avec un mot de passe propriétaire, utilisez l’indicateur «-opw» (le premier caractère de l’indicateur est une lettre minuscule «O» et non un zéro).

pdftotext -opw ‘mot de passe’ /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Remplacez le «mot de passe» par celui utilisé pour protéger le fichier PDF original en cours de conversion. Assurez-vous qu’il y a des guillemets simples, et non doubles, autour de «mot de passe».

Si le fichier PDF est protégé et chiffré avec un mot de passe utilisateur, utilisez l’indicateur «-upw» au lieu de l’indicateur «-opw». Le reste de la commande est le même.

Vous pouvez également spécifier le type de caractère de fin de ligne appliqué au texte converti. Ceci est particulièrement utile si vous prévoyez d’accéder au fichier sur un système d’exploitation différent comme Windows ou Mac. Pour ce faire, utilisez l’indicateur «-eol» (le caractère du milieu de l’indicateur est une lettre minuscule «O» et non un zéro) suivi d’un espace et du type de caractère de fin de ligne que vous souhaitez utiliser (« unix »,« dos »ou« mac »).

REMARQUE: Si vous ne spécifiez pas de nom de fichier pour le fichier texte, pdftotext utilise automatiquement la base du nom de fichier PDF et ajoute l’extension «.txt». Par exemple, «fichier.pdf» sera converti en «fichier.txt». Si le fichier texte est spécifié comme «-», le texte converti est envoyé à stdout, ce qui signifie que le texte est affiché dans la fenêtre du Terminal et non enregistré dans un fichier.

Pour fermer la fenêtre Terminal, cliquez sur le bouton «X» dans le coin supérieur gauche.

Pour plus d’informations sur la commande pdftotext, tapez «page de manuel pdftotext» à l’invite dans une fenêtre de terminal.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Quelle est la différence entre Chromecast et Google TV?

Quelle est la différence entre Chromecast et Google TV?

Comment désactiver Javascript dans Adobe Reader et corriger le dernier trou de sécurité massif

Comment désactiver Javascript dans Adobe Reader et corriger le dernier trou de sécurité massif