Text Extractor Plugin pre Aspose.PDF

Aspose.PDF Text Extractor Plugin pre .NET umožňuje vývojárom extrahovať textový obsah - štruktúrovaný, rovný, alebo as-is - z PDF súborov. s tromi režimmi extrakcie je ideálny pre konverziu dokumentov, ťažbu údajov, zlepšenie prístupnosti a ďalšie.

Najnovšie články

Aspose.PDF Text Extractor Plugin Kľúčové funkcie

  • Multiple extrakčné režimyOdstráňte text ako čistý (formátovaný), surový (as-is) alebo rovný (čistý) pre maximálnu flexibilitu.

  • Batch PDF spracovaniePridajte viaceré PDFy pre súčasné extrakcie a zjednodušené pracovné toky.

    • Jednoduchá integrácia .NET*Straightforward API – pridajte do akéhokoľvek projektu C# alebo .NET pre rýchlu implementáciu.

Začať s Aspose.PDF Text Extractor Plugin

  • Inštalovať Aspose.PDF pre .NETPridajte cez NuGet alebo stiahnite zostavy do riešenia .NET.

  • Upraviť svoju licenciuAktivovať pre neobmedzenú spracovanie a podporu.

  • Konfigurácia možnosti extrakciePoužitie TextExtractor a TextExtractorOptions Nastavenie extrakčného režimu podľa želania (Pure, Raw, Plain).

  • ** Proces a obnovenie textu**Spustiť extrakciu a prístup výsledky prostredníctvom výslednej zbierky kontajnerov.

Príklad: Odstrániť text z PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Príklad: Batch Extract Text z viacerých PDF

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Use prípady a rozšírenia

  • PDF na TXT Konverzia: Automatická konverzia PDF na plochý text na indexovanie, vyhľadávanie alebo archivovanie.
  • Data Mining: Odstráňte tabuľkové údaje, faktúry alebo formuláre na ďalšie spracovanie alebo analýzu.
  • Dostupnosť: Pripravte prečítateľný obsah pre čitateľov obrazovky alebo alternatívne formáty.
  • Batch spracovanie: Používajte extrakčné režimy pre špecifické pracovné toky (napr. OCR pred spracovaním, identifikácia subjektu).

Pre pokročilé extrakcie – ako je napríklad spracovanie šifrovaných PDF alebo prispôsobenie textového výstupu – odkazuje na oficiálne API Reference.

* Najlepšie postupy *

  • Vždy vyberte režim extrakcie, ktorý zodpovedá vašim potrebám výstupu (formátovanie, surové alebo čisté).
  • Pri veľkých súboroch dokumentov sa proces balenia maximalizuje priepustnosť a minimizuje manuálne úsilie.
  • Testovanie extrakcie výsledky s reálnym svetom PDF zabezpečiť presnosť údajov.

Súvisiace zdroje:

 Slovenčina