Text Extractor Plugin für Aspose.PDF
Der Aspose.PDF Text Extractor Plugin für .NET ermöglicht Entwicklern, Text-Inhalte – strukturiert, platin oder as-is – aus PDF-Dateien zu extrahieren.Mit drei Extraction-Modus ist es ideal für Dokumentkonvertierung, Data Mining, Zugänglichkeitverbesserungen und vieles mehr.
letzte Artikel
Aspose.PDF Text Extractor Plugin Schlüsselfunktionen
Multiple Extraction ModesText als sauber (formatiert), rauer (as-is) oder reich (reinig) extrahieren, um maximale Flexibilität zu gewährleisten.
Batch PDF VerarbeitungHinzufügen von mehreren PDFs für gleichzeitige Extraction und gestreckte Workflows.
- Einfache .NET Integration*Straightforward API – hinzufügen Sie zu jedem C# oder .NET-Projekt, um schnell zu implementieren.
Start mit Aspose.PDF Text Extractor Plugin
Installieren Sie Aspose.PDF für .NETMit NuGet hinzufügen oder Assemblies zu Ihrer .NET-Lösung herunterladen.
Konfigurieren Sie Ihre LizenzAktivieren für unbegrenzte Verarbeitung und Unterstützung.
Konfiguration von Extraction OptionsUse
TextExtractor
undTextExtractorOptions
Klassen. Set Extraktionsmodus wie gewünscht (Pure, Raw, Plain).Vorgang und Retrieve TextFühren Sie die Extraktion und den Zugang zu den Ergebnissen durch die Rezultatcontainer-Kollektion.
** Beispiel: Text aus einem PDF (C#) extrahieren**
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Exempel: Batch Text aus mehreren PDFs
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Use Cases & Erweiterungen
- PDF in TXT Conversion: Automatische Konvertierung von PDFs in klares Text für Indexierung, Suche oder Archivierung.
- Data Mining: Tabelledaten, Rechnungen oder Formulare für weitere Verarbeitung oder Analyse extrahieren.
- Accessibility: Bereiten Sie lesbare Inhalte für Bildschirmleser oder alternative Formate vor.
- Batch-Verarbeitung: Verwenden Sie Extractionsmodus für bestimmte Downstream-Workflows (z. B. OCR-Vorverarbeitung, Entitäterkennung).
Für fortgeschrittene Extraktionen – wie die Verarbeitung verschlüsseltes PDFs oder die Anpassung der Text-Ausgabe – beziehen Sie sich auf die offizielle API-Referenz.
* Die besten Praktiken*
- Wählen Sie immer den Extraktionsmodus aus, der Ihren Ausgangsbedürfnissen entspricht (Format, Roh oder sauber).
- Für große Dokumenten sets, batch-Prozess, um den Durchgang zu maximieren und manuelle Anstrengungen zu minimieren.
- Testextraction Ergebnisse mit real-world PDFs, um die Genauigkeit der Daten zu gewährleisten.
Verwandte Ressourcen: