Text Extractor Plugin för Aspose.PDF
Aspose.PDF Text Extractor Plugin för .NET gör det möjligt för utvecklare att extrahera textinnehåll – strukturerat, platt eller as-is – från PDF Med tre utvinningslägen, är det idealiskt för dokumentkonvertering, data mining, tillgänglighet förbättringar, och mer.
Senaste artiklar
Aspose.PDF Text Extractor Plugin Nyckelfunktioner
Multiple extraktionslägenExtract text som ren (formaterad), rå (as-is) eller platt (renad) för maximal flexibilitet.
Batch PDF bearbetningLägg till flera PDF-filer för samtidig utvinning och smidiga arbetsflöden.
Enkel .NET integrationStraightforward API – lägg till något C# eller .NET-projekt för snabb implementering.
Starta med Aspose.PDF Text Extractor Plugin
Installera Aspose.PDF för .NETLägg till via NuGet eller ladda ner assemblies till din .NET-lösning.
Konfigurera din licensAktivera för obegränsad bearbetning och support.
Konfigurera extraktionsalternativAnvändning
TextExtractor
ochTextExtractorOptions
Ställ in extraktionsläget som önskas (Pure, Raw, Plain).Processen och Retrieve TextKör extraktions- och åtkomstresultat genom resultatet containersamling.
Exempel: Extract Text från en PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Exempel: Batch Extract Text från flera PDF-filer
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Användning av fall och förlängningar
- PDF till TXT Konvertering: Automatisk konvertering av PDF till tydlig text för indexering, sökning eller arkiv.
- Data Mining: Ta ut tabelldata, fakturor eller formulär för vidare bearbetning eller analys.
- Accessibility: Förbereda läsbart innehåll för skärmläsare eller alternativa format.
- Batch bearbetning: Använd extraktionslägen för specifika nedströmsarbetsflöden (t.ex. OCR-pre-processing, entitetsidentifiering).
För avancerad extraktion – såsom hantering av krypterade PDF-filer, eller anpassning av textutgåva – hänvisar till den officiella API Referens.
bästa praxis
- Välj alltid utvinningsläget som matchar dina outputbehov (formatering, rå eller ren).
- För stora dokument uppsättningar, batch process för att maximera genomgången och minimera manuell ansträngning.
- Testutvinning resultat med verkliga PDF-filer för att säkerställa data noggrannhet.
Relaterade resurser: