Extracteur de texte Plugin pour Aspose.PDF
Le Aspose.PDF Text Extractor Plugin pour .NET permet aux développeurs d’extraire du contenu de texte – structuré, plain, ou as-is – des fichiers PDF. Avec trois modes d’extraction, il est idéal pour la conversion de documents, la mining de données, les améliorations de l’accessibilité, et plus encore.
Les derniers articles
Aspose.PDF Extracteur de texte Plugin fonctionnalités clés
- Modes multiples d’extraction*Extrait du texte comme pur (formé), cru (as-is) ou plain (clean) pour une flexibilité maximale.
- Traitement de fichier PDF*Ajouter plusieurs PDF pour l’extraction simultanée et les flux de travail simplifiés.
- L’intégration .NET est simpleDirectforward API – ajouter à n’importe quel projet C# ou .NET pour un déploiement rapide.
Commencer avec Aspose.PDF Text Extractor Plugin
Installer Aspose.PDF pour .NETAjouter via NuGet ou télécharger des assemblages à votre solution .NET.
- Configurez votre licence *Activer pour un traitement et un support illimité.
Configuration des options d’extractionUtiliser
TextExtractor
etTextExtractorOptions
Mettez le mode d’extraction comme vous le souhaitez (Pure, Raw, Plain).Procédure et récupération du texteExécuter l’extraction et les résultats d’accès à travers la collection de conteneurs.
Exemple: Extrait de texte à partir d’un PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Exemple: Extrait de texte de plusieurs PDF
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Use Cases & Extensions
- PDF à TXT Conversion: Convertir automatiquement les PDF vers le texte clair pour l’indexation, la recherche ou l’archivage.
- Data Mining: Extrait des données de table, des factures ou des formulaires pour un traitement ou une analyse ultérieure.
- Accessibilité: Préparez un contenu lisible pour les lecteurs d’écran ou des formats alternatifs.
- Batch Processing: Utilisez des modes d’extraction pour des flux de travail spécifiques (par exemple, pré-processage OCR, reconnaissance de l’entité).
Pour l’extraction avancée – telle que la manipulation de fichiers PDF cryptés, ou la personnalisation de la sortie de texte – référence à l’API officiel.
* Les meilleures pratiques *
- Toujours sélectionnez le mode d’extraction qui correspond à vos besoins de sortie (formatisation, crude ou propre).
- Pour les grands ensembles de documents, le processus de batch permet de maximiser la puissance et de minimiser l’effort manuel.
- Les résultats de l’extraction d’essai sont utilisés avec des PDF du monde réel pour assurer la précision des données.
Les ressources liées :