Dans ce tutoriel Java, nous vous montrons comment lire des fichiers PDF en Java.
Tutoriel gratuit Java / cours gratuit Java / Tuto java gratuit / apprendre Java en ligne / programmation en langage Java
Il n’est pas difficile de lire des fichiers PDF en Java en utilisant des bibliothèques facilement disponibles. La lecture de fichiers PDF vous permet d’écrire des programmes Java capables de traiter le texte de ces fichiers. Une option pour lire les fichiers PDF est la bibliothèque PDFBox gratuite et open source disponible auprès d’Apache. La plate-forme de développement Java Eclipse facilite ce travail et gère les bibliothèques que vous allez télécharger. Vous devez être familiarisé avec la programmation Java pour utiliser ces bibliothèques Java.
Instructions
1
Téléchargez le JDK Java à partir du site Web de Sun. Il s’agit d’un fichier exécutable qui peut être installé sur votre système en l’exécutant. Versions disponibles pour Windows, Mac et Linux. Cliquez sur le bouton rouge \ “Télécharger \”. Enregistrez un fichier appelé \ “jdk-6uxx-windows-xxx.exe \” lorsque vous y êtes invité. Enregistrez le fichier, puis double-cliquez dessus pour démarrer le programme d’installation Java.
2
Téléchargez le système de développement Eclipse et décompressez-le dans un répertoire de niveau supérieur. Sélectionnez \ “Eclipse IDE for Java Developers. \” Lancera le téléchargement du programme \ “eclipse-java-galileo-SR2-win32.zip. \” Double-cliquez sur le fichier pour le décompresser après avoir terminé le téléchargement. Sélectionnez le chemin du répertoire \ “C: \” pour décompresser Eclipse de la racine.
3
Démarrez Eclipse en double-cliquant sur \”eclipse.exe\” dans le répertoire nouvellement créé en décompressant le fichier zip eclipse. Dans le système Eclipse, créez un projet nommé \”PrintPdf.\” Sélectionnez \”Fichier\” puis \”Nouveau\” puis \”Projet Java.\” Tapez le nom du projet \”PrintPdf\” dans la boîte de dialogue qui apparaît. Assurez-vous que le bouton radio est sélectionné et indique \ “Créer des dossiers séparés pour les fichiers source et de classe. \” Cliquez sur \ “Terminer. \”
4
Créez un dossier \”lib\” dans votre projet \”PrintPdf\”. Faites un clic droit sur le projet \ “PrintPdf \” et sélectionnez \ “Nouveau \” puis \ “Dossier. \” Entrez le nom \ “lib \” et cliquez sur \ “Terminer. \”
5
Téléchargez Apache \ “PDFBox.jar \” à partir du site Apache et copiez-le dans le répertoire lib nouvellement créé. Sur la même page Web, téléchargez le fichier \”fontbox-nn.jar\” et le fichier \”jempbox-nn.jar\”. Dans tous les cas, lorsque vous cliquez sur ce fichier jar, cela vous amènera à une page où vous pourrez sélectionner l’un des différents serveurs pouvant fournir ce fichier. Choisissez chacun d’eux et il téléchargera les fichiers jar. Copiez les fichiers jar dans le répertoire lib que vous venez de créer.
6
Téléchargez le package Apache log4j.jar de la même manière et copiez le fichier log4j.jar dans le répertoire. La bibliothèque Apache PDFBox utilise cette bibliothèque d’enregistrement Apache, ce fichier doit donc être présent.
7
Téléchargez le package Apache Commons Discovery sous forme de fichier zip. Double-cliquez sur le fichier zip, sélectionnez le \”commons-discovery-nn.jar\” et extrayez-le dans le répertoire lib.
8
Dans Eclipse, choisissez le répertoire \”lib\” et appuyez sur \”F5.\” Assurez-vous que tous les fichiers jar que vous avez ajoutés sont affichés.
9
Faites un clic droit sur le projet PrintPDF et sélectionnez \”Propriétés\”. Sélectionnez \”Java Build Path\” et sélectionnez l’onglet \”Bibliothèques\”, cliquez sur \”Ajouter des jars\” et allez dans le répertoire lib que vous venez de créé et ajouter \”commons-logging-nn.jar\”\”fontbox-nn.jar, \”\”jempbox-nn.jar, \”\”log4j-nn.jar, \” et \”pdfbox-nn .jar. \ “cliquez sur \” OK. \ “
Écrivez le code pour lire les fichiers PDF
10
Faites un clic droit sur le dossier \ “src \” de votre projet \ “PrintPDF \” et sélectionnez \ “Nouveau \” et le \ “Package. \” Créez un package en utilisant n’importe quel nom significatif. Par exemple, nommez le package \ “com.pdf.util. \” Cliquez sur \ “Terminer. \”
11
Faites un clic droit sur le nom du package que vous venez de créer et sélectionnez \ “Nouveau \” puis \ “Classe. \” Créez une classe nommée \ “PDFTextParser. \” Assurez-vous de cocher la case marquée \ “public static void main. . . \ “afin que le système crée une méthode \” principale \ “.
12
Editez la méthode \”main\” dans la classe \”PDFTextParser\” destinée à contenir le code suivant :
public Shared Sub main (String args {
pdf PDFTextParser = new PDFTextParser ( \ “data / javaPDF.pdf \”)
aller
// imprimer les résultats
System.out.println (pdf.getParsedText ())
aller
} < br /> Notez que le fichier que vous souhaitez imprimer est explicite dans le constructeur de PDFTextParser (\”data/JavaPDF.pdf\”). Il peut tout aussi bien s’agir d’un argument de ligne de commande :
pdf PDFTextParser = new PDFTextParser (argv [0])
aller
ou sélectionné à partir d’une interface graphique.
Créer une instance de la classe PDFTextParser puis appeler son \ ” méthode getParsedText\”.
13
Placez le code suivant sous la classe de ligne supérieure \ “public PDFTextParser \” qui a été créée pour vous.
Private PDFParser parser = null
go
// extrait le texte du document PDF
public PDFTextParser (String fileName) {
file File = Nouveau fichier (fileName)
go
if (! File.isFile ()) {
System.err.println (\ “File \” + filename + \ “n’existe pas. \ “)
Go
}
// Configurer une instance de l’analyseur PDF
try {
parser = new PDFParser (new FileInputStream (fichier))
GO
}} catch (IOException e) {
System.err.println (\ “Impossible d’ouvrir l’analyseur PDF. \” + e.getMessage ())
go
} < br />}
/ / —
public String getParsedText () {
PDDocument pdDoc = null
go
COSDocument cosDoc = null;
Chaîne parsedText = null ; Allez Essayez {PDFTextStripper pdfStripper = new PDFTextStripper () Allez parser.parse () Allez cosDoc = parser.getDocument ()
allez
pdDoc = new PDDocument (cosDoc)
allez
< br /> // obtenir la liste de toutes les pages
list = pdDoc.getDocumentCatalog ().getAllPages ()
Go
// note que vous pouvez imprimer les pages vous voulez
// en choisissant différentes valeurs de la page de début et de fin pdfStripper.setStartPage (1); Basé sur 1 int length = list.size (); nombre total de pages
pdfStripper.setEndPage (longueur); La dernière page
// récupère le texte des pages sélectionnées
parsedText = pdfStripper.getText (pdDoc)
go
}} catch (IOException e) { < br /> System.err
.println (\ “Une exception lors de l’analyse du document PDF. \”
+ e.getMessage ())
GO
} enfin {
essayez {
if (cosDoc! = null)
cosDoc.close ()
go
If (pdDoc! = null)
pdDoc.close () < br /> aller
}} catch (IOException e) {
e.printStackTrace ()
aller
}
}
return parsedText < br /> aller}
14
Exécutez le programme. Faites un clic droit sur la classe PDFTextParser et cliquez sur \ “Exécuter en tant que \” puis sur le \ “Programme Java. \” Le programme doit s’exécuter et imprimer le contenu textuel du fichier PDF que vous avez inséré dans le code.
Supprimer le message d’erreur de démarrage de Log4j
15
Créez un fichier de configuration pour supprimer le message d’erreur du système de journal créé par log4j lorsqu’il est incapable de trouver un fichier de configuration lors du démarrage de Java. Faites un clic droit sur le dossier \”src\” du projet PrintPDF et sélectionnez \”Nouveau\” puis \”Fichier.\” Nommez le fichier \”log4j.properties\” Eclipse un écran vide apparaîtra pour ce nouveau fichier.
16
Collez les lignes suivantes dans l’écran vide représentant le fichier \”log4j.properties\”. # Définir l’enregistreur DEBUG au niveau racine et son appender unique pour A1. log4j.rootLogger = WARN, A1 # A1 est défini pour être un ConsoleAppender. log4j.appender.A1 = org.apache.log4j.ConsoleAppender # A1 utilise PatternLayout.
log4j.appender.A1.layout = org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern =% – 4r [% t]% – 5p% c% x -% m %n
17
Enregistrez le fichier \”log4j.properties\”. La présence de ce fichier dans le répertoire de niveau supérieur \ “src \” supprimera le message de démarrage log4j et les messages de journalisation triviaux. Le système log4j n’imprimera que les erreurs réelles.
Il existe également un certain nombre de packages commerciaux que vous pouvez utiliser pour extraire du texte à partir de fichiers PDF, mais ils ne sont pas bon marché.
Voici une série d’exercices conçus pour perfectionner vos compétences Excel. Les corrigés sont inclus pour…
Excel offre plusieurs méthodes pour calculer une moyenne tout en tenant compte des filtres ou…
Excel propose plusieurs fonctions pour insérer ou manipuler la date actuelle. Voici les principales méthodes…
Lorsque des nombres sont stockés sous forme de texte dans Excel, ils ne peuvent pas…
Extraire uniquement les chiffres d'une cellule contenant du texte et des nombres mélangés est une…
Pour supprimer plusieurs caractères spécifiques (par exemple, des symboles, chiffres ou lettres indésirables) dans des…
This website uses cookies.