Text Extractor Plugin pre Aspose.PDF
Aspose.PDF Text Extractor Plugin pre .NET umožňuje vývojárom extrahovať textový obsah - štruktúrovaný, rovný, alebo as-is - z PDF súborov. s tromi režimmi extrakcie je ideálny pre konverziu dokumentov, ťažbu údajov, zlepšenie prístupnosti a ďalšie.
Najnovšie články
Aspose.PDF Text Extractor Plugin Kľúčové funkcie
Multiple extrakčné režimyOdstráňte text ako čistý (formátovaný), surový (as-is) alebo rovný (čistý) pre maximálnu flexibilitu.
Batch PDF spracovaniePridajte viaceré PDFy pre súčasné extrakcie a zjednodušené pracovné toky.
- Jednoduchá integrácia .NET*Straightforward API – pridajte do akéhokoľvek projektu C# alebo .NET pre rýchlu implementáciu.
Začať s Aspose.PDF Text Extractor Plugin
Inštalovať Aspose.PDF pre .NETPridajte cez NuGet alebo stiahnite zostavy do riešenia .NET.
Upraviť svoju licenciuAktivovať pre neobmedzenú spracovanie a podporu.
Konfigurácia možnosti extrakciePoužitie
TextExtractor
aTextExtractorOptions
Nastavenie extrakčného režimu podľa želania (Pure, Raw, Plain).** Proces a obnovenie textu**Spustiť extrakciu a prístup výsledky prostredníctvom výslednej zbierky kontajnerov.
Príklad: Odstrániť text z PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Príklad: Batch Extract Text z viacerých PDF
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Use prípady a rozšírenia
- PDF na TXT Konverzia: Automatická konverzia PDF na plochý text na indexovanie, vyhľadávanie alebo archivovanie.
- Data Mining: Odstráňte tabuľkové údaje, faktúry alebo formuláre na ďalšie spracovanie alebo analýzu.
- Dostupnosť: Pripravte prečítateľný obsah pre čitateľov obrazovky alebo alternatívne formáty.
- Batch spracovanie: Používajte extrakčné režimy pre špecifické pracovné toky (napr. OCR pred spracovaním, identifikácia subjektu).
Pre pokročilé extrakcie – ako je napríklad spracovanie šifrovaných PDF alebo prispôsobenie textového výstupu – odkazuje na oficiálne API Reference.
* Najlepšie postupy *
- Vždy vyberte režim extrakcie, ktorý zodpovedá vašim potrebám výstupu (formátovanie, surové alebo čisté).
- Pri veľkých súboroch dokumentov sa proces balenia maximalizuje priepustnosť a minimizuje manuálne úsilie.
- Testovanie extrakcie výsledky s reálnym svetom PDF zabezpečiť presnosť údajov.
Súvisiace zdroje: