Текст Extractor Plugin за Aspose.PDF

Aspose.PDF Text Extractor Plugin за .NET позволява на разработчиците да извличат текстово съдържание – структурирано, плоско или така – от PDF файлове.С три режима на извлечение, той е идеален за конвертиране на документи, минни данни, подобрения на достъпността и много други.

Последните статии

Aspose.PDF текст екстрактор Plugin ключови характеристики

    • Многобройни режими на екстракция*Извлечете текст като чист (форматиран), суров (с-и), или плосък (чист) за максимална гъвкавост.
    • Разработване на PDF файлове*Добавете няколко PDF файла за едновременна екстракция и усъвършенствани работни потоци.
    • Проста .NET интеграция*Straightforward API – добавете към всеки C# или .NET проект за бързо изпълнение.

Започнете с Aspose.PDF Text Extractor Plugin

  • Инсталирайте Aspose.PDF за .NETДобавяне чрез NuGet или изтегляне на асамблеи в .NET решение.

  • Настройване на Вашия лицензАктивирайте за неограничена обработка и поддръжка.

  • ** Конфигуриране на опции за екстракция**Използване TextExtractor и TextExtractorOptions Настройване на режима на екстракция, както е желано (чиста, сурова, плоска).

  • Процес и възстановяване на текстИзвършване на резултатите от екстракцията и достъпа чрез резултата контейнерно събиране.

Пример: Изтегляне на текст от PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Пример: Извличане на текст от множество PDF файлове

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

** Използване на случаи и разширения**

  • PDF към TXT Конверсия: Автоматично конвертиране на PDF до ясен текст за индексиране, търсене или архивиране.
  • ** Data Mining:** Извлечете таблични данни, фактури или формуляри за по-нататъшна обработка или анализ.
  • Достъпност: Подгответе четиво съдържание за екранни читатели или алтернативни формати.
  • Batch Processing: Използвайте режими на екстракция за специфични работни потоци (например, OCR предварителна обработка, идентифициране на субекта).

За усъвършенствана екстракция – като например обработка на шифровани PDF файлове или персонализиране на текстовия изход – се отнася до официалния API референт.

* Най-добрите практики *

  • Винаги изберете режима на екстракция, който отговаря на нуждите на производството ви (форматиране, сурови или чисти).
  • За големи документални комплекти, процесът на партида за максимално пропуск и минимизиране на ръчното усилие.
  • Резултатите от извличането на тестове са с реални PDF файлове, за да се гарантира точността на данните.

Свързани ресурси: *

 Български