Text Extractor Plugin pre Aspose.PDF

Aspose.PDF Text Extractor Plugin pre .NET umožňuje vývojárom extrahovať textový obsah - štruktúrovaný, rovný alebo as-is - z PDF S tromi spôsobmi extrakcie je ideálny pre konverziu dokumentov, ťažbu údajov, zlepšenie prístupnosti a ďalšie.

Najnovšie články

Ako extrahovať text z PDF v .NET Ako extrahovať štruktúrované údaje a tabuľky z PDF v .NET

Aspose.PDF Text Extractor Plugin Kľúčové funkcie

Multiple extrakčné režimyOdstráňte text ako čistý (formátovaný), surový (as-is) alebo rovný (čistý) pre maximálnu flexibilitu.
Batch PDF spracovaniePridajte viaceré PDFy pre súčasné extrakcie a zjednodušené pracovné toky.
Jednoduchá integrácia .NETStraightforward API – pridajte do akéhokoľvek projektu C# alebo .NET pre rýchlu implementáciu.

Začať s Aspose.PDF Text Extractor Plugin

Inštalovať Aspose.PDF pre .NETPridajte cez NuGet alebo stiahnite zostavy do riešenia .NET.
Upraviť svoju licenciuAktivovať pre neobmedzenú spracovanie a podporu.
Konfigurácia možnosti extrakciePoužitie TextExtractor a TextExtractorOptions Nastavenie extrakčného režimu podľa želania (Pure, Raw, Plain).
Proces a obnovenie textuSpustiť extrakciu a prístup výsledky prostredníctvom výslednej zbierky kontajnerov.

Príklad: Odstrániť text z PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Príklad: Batch Extract Text z viacerých PDF

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Use prípady a rozšírenia

PDF na TXT Konverzia: Automatická konverzia PDF na plochý text na indexovanie, vyhľadávanie alebo archivovanie.
Data Mining: Odstráňte tabuľkové údaje, faktúry alebo formuláre na ďalšie spracovanie alebo analýzu.
Dostupnosť: Pripravte prečítateľný obsah pre čitateľov obrazovky alebo alternatívne formáty.
Batch spracovanie: Používajte extrakčné režimy pre špecifické pracovné toky (napr. OCR pred spracovaním, identifikácia subjektu).

Pre pokročilé extrakcie – ako je napríklad spracovanie šifrovaných PDF alebo prispôsobenie textového výstupu – odkazuje na oficiálne API Reference.

Najlepšie postupy

Vždy vyberte režim extrakcie, ktorý zodpovedá vašim potrebám výstupu (formátovanie, surové alebo čisté).
Pri veľkých súboroch dokumentov sa proces balenia maximalizuje priepustnosť a minimizuje manuálne úsilie.
Testovanie extrakcie výsledky s reálnym svetom PDF zabezpečiť presnosť údajov.

Súvisiace zdroje: