Textový extraktor Plugin pro Aspose.PDF
Aspose.PDF Text Extractor Plugin pro .NET umožňuje vývojářům extrahovat textový obsah - strukturovaný, plochý nebo as-is - z PDF souborů. s třemi režimy extrakce je ideální pro konverzi dokumentů, data mining, zlepšení přístupnosti a další.
Poslední články
Aspose.PDF Text Extractor Plugin Klíčové funkce
Multiple extrakční režimyText extraktujte jako čistý (formátovaný), surový (as-is) nebo rovný (čistý) pro maximální flexibilitu.
Batch PDF zpracováníPřidejte více souborů PDF pro současné extrahování a zjednodušené pracovní toky.
- Jednoduchá integrace .NET*Straightforward API – přidejte do jakéhokoli projektu C# nebo .NET pro rychlou implementaci.
Začíná s aplikací Aspose.PDF Text Extractor Plugin
Install Aspose.PDF pro .NETPřidejte prostřednictvím NuGet nebo stahujte sbírky do vašeho řešení .NET.
- Připravte si svou licenci *Aktivovat pro neomezenou zpracování a podporu.
Konfigurace možnosti extrakcePoužití
TextExtractor
aTextExtractorOptions
Nastavení režimu extrakce podle přání (Pure, Raw, Plain).** Proces a obnovení textu**Výsledky extrakce a přístupu probíhá prostřednictvím výsledného sběru kontejnerů.
Příklad: Text extrahovat z PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Příklad: Batch Extract Text z více PDF
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
** Použití případů a rozšíření**
- PDF do TXT Konverze: Automatická konverze PDF do plochého textu pro indexování, vyhledávání nebo archivování.
- Data Mining: Využijte tabulkové údaje, faktury nebo formuláře pro další zpracování nebo analýzu.
- Dostupnost: Připravte čitelný obsah pro čtenáře obrazovky nebo alternativní formáty.
- Batch Processing: Použijte extrakční režimy pro konkrétní downstream pracovní toky (např. OCR předběžné zpracování, identifikace subjektu).
Pro pokročilé extrakce – jako je zpracování šifrovaných PDF, nebo přizpůsobení textového výstupu – odkaz na oficiální API Reference.
* Nejlepší postupy *
- Vždy vyberte režim extrakce, který odpovídá vašim potřebám výstupu (formátování, surové nebo čisté).
- Pro velké soubory dokumentů, batchový proces maximalizovat průchod a minimálně ruční úsilí.
- Testování výsledků s PDF v reálném světě k zajištění přesnosti údajů.
Související zdroje: