Text Extractor Plugin för Aspose.PDF
Aspose.PDF Text Extractor Plugin för .NET gör det möjligt för utvecklare att extrahera textinnehåll – strukturerat, platt eller as-is – från PDF-filer. Med tre extraktionslägen är det idealiskt för dokumentkonvertering, data mining, tillgänglighetsförbättringar och mer.
Senaste artiklar
Aspose.PDF Text Extractor Plugin Nyckelfunktioner
Multiple extraktionslägenExtract text som ren (formaterad), rå (as-is) eller platt (renad) för maximal flexibilitet.
Batch PDF bearbetningLägg till flera PDF-filer för samtidig utvinning och smidiga arbetsflöden.
- Enkel .NET integration*Straightforward API – lägg till något C# eller .NET-projekt för snabb implementering.
Starta med Aspose.PDF Text Extractor Plugin
Installera Aspose.PDF för .NETLägg till via NuGet eller ladda ner assemblies till din .NET-lösning.
- Konfigurera din licens*Aktivera för obegränsad bearbetning och support.
Konfigurera extraktionsalternativAnvändning
TextExtractor
ochTextExtractorOptions
Ställ in extraktionsläget som önskas (Pure, Raw, Plain).Processen och Retrieve TextKör extraktions- och åtkomstresultat genom resultatet containersamling.
** Exempel: Extract Text från en PDF (C#)**
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Exempel: Batch Extract Text från flera PDF-filer
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
** Användning av fall och förlängningar**
- PDF till TXT Konvertering: Automatisk konvertering av PDF till tydlig text för indexering, sökning eller arkiv.
- Data Mining: Ta ut tabelldata, fakturor eller formulär för vidare bearbetning eller analys.
- Accessibility: Förbereda läsbart innehåll för skärmläsare eller alternativa format.
- Batch bearbetning: Använd extraktionslägen för specifika nedströmsarbetsflöden (t.ex. OCR-pre-processing, entitetsidentifiering).
För avancerad extraktion – såsom hantering av krypterade PDF-filer, eller anpassning av textutgåva – hänvisar till den officiella API Referens.
* bästa praxis *
- Välj alltid utvinningsläget som matchar dina outputbehov (formatering, rå eller ren).
- För stora dokument uppsättningar, batch process för att maximera genomgången och minimera manuell ansträngning.
- Testutvinning resultat med verkliga PDF-filer för att säkerställa data noggrannhet.
Relaterade resurser