Textový extraktor Plugin pro Aspose.PDF

Aspose.PDF Text Extractor Plugin pro .NET umožňuje vývojářům extrahovat textový obsah - strukturovaný, plochý nebo as-is - z PDF S třemi režimy extrakce je ideální pro konverzi dokumentů, data mining, zlepšení přístupnosti a další.

Poslední články

Jak extrahovat text z PDF v .NET Jak extrahovat strukturované údaje a tabulky z PDF v .NET

Aspose.PDF Text Extractor Plugin Klíčové funkce

Multiple extrakční režimyText extraktujte jako čistý (formátovaný), surový (as-is) nebo rovný (čistý) pro maximální flexibilitu.
Batch PDF zpracováníPřidejte více souborů PDF pro současné extrahování a zjednodušené pracovní toky.
Jednoduchá integrace .NETStraightforward API – přidejte do jakéhokoli projektu C# nebo .NET pro rychlou implementaci.

Začíná s aplikací Aspose.PDF Text Extractor Plugin

Install Aspose.PDF pro .NETPřidejte prostřednictvím NuGet nebo stahujte sbírky do vašeho řešení .NET.
Připravte si svou licenciAktivovat pro neomezenou zpracování a podporu.
Konfigurace možnosti extrakcePoužití TextExtractor a TextExtractorOptions Nastavení režimu extrakce podle přání (Pure, Raw, Plain).
Proces a obnovení textuVýsledky extrakce a přístupu probíhá prostřednictvím výsledného sběru kontejnerů.

Příklad: Text extrahovat z PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Příklad: Batch Extract Text z více PDF

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Použití případů a rozšíření

PDF do TXT Konverze: Automatická konverze PDF do plochého textu pro indexování, vyhledávání nebo archivování.
Data Mining: Využijte tabulkové údaje, faktury nebo formuláře pro další zpracování nebo analýzu.
Dostupnost: Připravte čitelný obsah pro čtenáře obrazovky nebo alternativní formáty.
Batch Processing: Použijte extrakční režimy pro konkrétní downstream pracovní toky (např. OCR předběžné zpracování, identifikace subjektu).

Pro pokročilé extrakce – jako je zpracování šifrovaných PDF, nebo přizpůsobení textového výstupu – odkaz na oficiální API Reference.

Nejlepší postupy

Vždy vyberte režim extrakce, který odpovídá vašim potřebám výstupu (formátování, surové nebo čisté).
Pro velké soubory dokumentů, batchový proces maximalizovat průchod a minimálně ruční úsilí.
Testování výsledků s PDF v reálném světě k zajištění přesnosti údajů.

Související zdroje: