Текст Екстрактор Плугин за Aspose.PDF
Aspose.PDF Текст Екстрактор Плугин за .NET омогућава програмерима да извлаче текстуални садржај - структурирани, равни, или као - из ПДФ датотеке. са три режима екстракције, идеалан је за конверзију докумената, рударство података, побољшања приступачности и још много тога.
Најновији чланци
Aspose.PDF Text Extractor Plugin Ključne značajke
- Мултифункционални режими екстракције*Екстрактирајте текст као чист (форматиран), сирови (ас-ис), или равни (чисти) за максималну флексибилност.
** Бацх ПДФ обрада**Додајте више ПДФ-а за истовремено екстракцију и усклађене радне токове.
- Једноставна интеграција .NET*Straightforward API – dodajte bilo koji C# ili .NET projekat za brzu implementaciju.
Почетак са Aspose.PDF текстуалног екстрактора Плугин
Инсталирајте Aspose.PDF за .NETДодајте преко NuGet или преузимање скупљања у вашем .NET решењу.
** Конфигуришите своју лиценцу**Активирање за неограничену обраду и подршку.
** Конфигурисање опција за екстракцију**Коришћење
TextExtractor
иTextExtractorOptions
Поставите режим екстракције као што желите (чиста, сива, равна).Процес и повраћање текстаИзводите резултате екстракције и приступа кроз колекцију контејнера резултата.
** Пример: Екстракт текста из ПДФ-а (Ц#)**
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Пример: Батцх Екстракт текст из више ПДФ-а
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
** Употреба случајева и проширења**
- PDF to TXT Conversion: Аутоматска конверзија ПДФ-а у равни текст за индексирање, претрагу или архивирање.
- Датотеке рударство: Екстрактирајте табелне податке, рачуне или обрасци за даљу обраду или анализу.
- Доступност: Припремите читави садржај за читаоце екрана или за алтернативне формати.
- Batch Processing: Koristite načine ekstrakcije za određene radne tokove (na primer, OCR pre-procesiranje, prepoznavanje subjekta).
За напредне екстракције - као што је обрада шифрованих ПДФ-а, или прилагођавање текстуалног излаза - се односи на званичну АПИ референцу.
* Најбоља пракса *
- Увек изаберите режим екстракције који одговара вашим потребама производње (форматирање, сирове или чисте).
- За велике сете докумената, процес бацх да се максимизира проток и минимизира ручни напор.
- Тест екстракција резултата са стварним ПДФ-а како би се осигурала тачност података.
Релевантни ресурси: