Текст Екстрактор Плугин за Aspose.PDF

Aspose.PDF Текст Екстрактор Плугин за .NET омогућава програмерима да извлаче текстуални садржај - структурирани, равни, или као - из ПДФ датотеке. са три режима екстракције, идеалан је за конверзију докумената, рударство података, побољшања приступачности и још много тога.

Најновији чланци

Aspose.PDF Text Extractor Plugin Ključne značajke

    • Мултифункционални режими екстракције*Екстрактирајте текст као чист (форматиран), сирови (ас-ис), или равни (чисти) за максималну флексибилност.
  • ** Бацх ПДФ обрада**Додајте више ПДФ-а за истовремено екстракцију и усклађене радне токове.

    • Једноставна интеграција .NET*Straightforward API – dodajte bilo koji C# ili .NET projekat za brzu implementaciju.

Почетак са Aspose.PDF текстуалног екстрактора Плугин

  • Инсталирајте Aspose.PDF за .NETДодајте преко NuGet или преузимање скупљања у вашем .NET решењу.

  • ** Конфигуришите своју лиценцу**Активирање за неограничену обраду и подршку.

  • ** Конфигурисање опција за екстракцију**Коришћење TextExtractor и TextExtractorOptions Поставите режим екстракције као што желите (чиста, сива, равна).

  • Процес и повраћање текстаИзводите резултате екстракције и приступа кроз колекцију контејнера резултата.

** Пример: Екстракт текста из ПДФ-а (Ц#)**

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Пример: Батцх Екстракт текст из више ПДФ-а

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

** Употреба случајева и проширења**

  • PDF to TXT Conversion: Аутоматска конверзија ПДФ-а у равни текст за индексирање, претрагу или архивирање.
  • Датотеке рударство: Екстрактирајте табелне податке, рачуне или обрасци за даљу обраду или анализу.
  • Доступност: Припремите читави садржај за читаоце екрана или за алтернативне формати.
  • Batch Processing: Koristite načine ekstrakcije za određene radne tokove (na primer, OCR pre-procesiranje, prepoznavanje subjekta).

За напредне екстракције - као што је обрада шифрованих ПДФ-а, или прилагођавање текстуалног излаза - се односи на званичну АПИ референцу.

* Најбоља пракса *

  • Увек изаберите режим екстракције који одговара вашим потребама производње (форматирање, сирове или чисте).
  • За велике сете докумената, процес бацх да се максимизира проток и минимизира ручни напор.
  • Тест екстракција резултата са стварним ПДФ-а како би се осигурала тачност података.

Релевантни ресурси:

 Српски