Text Extractor Plugin voor Aspose.PDF
De Aspose.PDF Text Extractor Plugin voor .NET stelt ontwikkelaars in staat om tekstinhoud - gestructureerd, vlak, of as-is - uit PDF-bestanden te extraheren. met drie extractiemodi is het ideaal voor documentconversie, data mining, toegankelijkheidsverbeteringen en meer.
Laatste artikelen
Aspose.PDF Text Extractor Plugin sleutelfuncties
Multiple extraction modesExtract tekst als zuiver (geformateerd), rauw (as-is) of vlak (reinig) voor maximale flexibiliteit.
Batch PDF verwerkingVoeg meerdere PDF’s toe voor gelijktijdige extractie en gestroomde werkstromen.
- Eenvoudige .NET integratie*Straightforward API – toevoegen aan elk C# of .NET project voor snelle implementatie.
Start met Aspose.PDF Text Extractor Plugin
Installeren Aspose.PDF voor .NETVoeg via NuGet of download assemblies toe aan uw .NET-oplossing.
Configureer uw licentieActiveren voor onbeperkte verwerking en ondersteuning.
Configure extractie optiesGebruik
TextExtractor
enTextExtractorOptions
Stel de extractie modus als gewenste (Pure, Raw, Plain).Processen en herstellen van tekstVoer extract- en toegangsresultaten door middel van de resultaten container verzameling.
** Voorbeeld: Tekst uit een PDF (C#) extraheren**
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
** Voorbeeld: Batch Extract Text uit meerdere PDF’s**
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
** Gebruik van Cases & Extensions**
- PDF naar TXT Conversie: Automatische conversie van PDF’s naar plain text voor indexering, zoektocht of archief.
- Data Mining: Extract tabelgegevens, facturen of formulieren voor verdere verwerking of analyse.
- Accessibiliteit: Voorbereid leesbare inhoud voor schermlezer of alternatieve formaten.
- Batchverwerking: Gebruik extractiemodus voor specifieke downstream werkstromen (bijvoorbeeld OCR pre-processing, entity recognition).
Voor geavanceerde extractie - zoals het beheren van versleutelde PDF’s, of het aanpassen van tekstuitgang - verwijzen naar de officiële API Referentie.
* Beste praktijken *
- Selecteer altijd de extractiemodus die overeenkomt met uw outputbehoeften (formaat, rauw of schoon).
- Voor grote document sets, het batchproces om de doorbraak te maximaliseren en de handmatige inspanning te beperken.
- Testextractie resultaten met real-world PDF’s om gegevens nauwkeurigheid te garanderen.
Gerelateerde middelen