Text Extractor Plugin til Aspose.PDF
Aspose.PDF Text Extractor Plugin for .NET gør det muligt for udviklere at udveksle tekstindhold – struktureret, plan, eller as-is – fra PDF-filer. Med tre ekstraktionsmoder er det ideelt til dokument konvertering, data mining, tilgængelighed forbedringer og meget mere.
Sidste artikler
Aspose.PDF Text Extractor Plugin nøglefunktioner
Multiple ekstraktionsmetoderEkstrakter tekst som ren (formateret), rå (as-is) eller plain (renet) for maksimal fleksibilitet.
Batch PDF forarbejdningTilføj flere PDF’er til samtidig udvinding og strammede arbejdsprocesser.
- Enkel .NET integration*Straightforward API – tilføje til ethvert C# eller .NET projekt for hurtig implementering.
Start med Aspose.PDF Text Extractor Plugin
Installere Aspose.PDF til .NETTilføj via NuGet eller download assemblies til din .NET løsning.
- Konfigurer din licens*Aktivere for ubegrænset behandling og support.
Konfiguration af ekstraktionsmulighederBrug af
TextExtractor
ogTextExtractorOptions
Sæt ekstraktionsmodus som ønskeligt (Pure, Raw, Plain).Processen og Retrieve TextUdfør ekstraktions- og adgangsresultater gennem resultatet container samlingen.
** Eksempel: Udvælg tekst fra en PDF (C#)**
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
** Eksempel: Batch ekstrakt tekst fra flere PDF’er**
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
** Brug af sager og udvidelser**
- PDF til TXT Conversion: Automatisk konvertering af PDF’er til skær tekst til indeksering, søgning eller arkivering.
- Data Mining: Udvælg tabeldata, fakturaer eller formularer til yderligere behandling eller analyse.
- ** Tilgængelighed:** Forbered læsbar indhold til skærmlesere eller alternative formater.
- Batch-bearbejdning: Brug ekstraktionsmoder til specifikke nedadgående arbejdsprocesser (f.eks. OCR-pre-processing, entitetsanerkendelse).
For avanceret ekstraktion - såsom håndtering af krypterede PDF’er, eller tilpasning af tekstudgang - henvises til den officielle API Reference.
* Bedste praksis *
- Vælg altid det ekstraktionsmodus, der matcher dine udgangsbehov (formatering, rå eller ren).
- For store dokumenter sæt, batch processen for at maksimere gennemsnit og minimere manuel anstrengelse.
- Test ekstraktion resultater med virkelige PDF’er for at sikre data nøjagtighed.
Relaterede ressourcer: