Текст Extractor Plugin за Aspose.PDF

Aspose.PDF Text Extractor Plugin за .NET позволява на разработчиците да извличат текстово съдържание – структурирано, плоско или така – от PDF файлове.С три режима на извлечение, той е идеален за конвертиране на документи, минни данни, подобрения на достъпността и много други.

Последните статии

Aspose.PDF текст екстрактор Plugin ключови характеристики

  • Многобройни режими на екстракцияИзвлечете текст като чист (форматиран), суров (с-и), или плосък (чист) за максимална гъвкавост.

  • Разработване на PDF файловеДобавете няколко PDF файла за едновременна екстракция и усъвършенствани работни потоци.

  • Проста .NET интеграцияStraightforward API – добавете към всеки C# или .NET проект за бързо изпълнение.

Започнете с Aspose.PDF Text Extractor Plugin

  • Инсталирайте Aspose.PDF за .NETДобавяне чрез NuGet или изтегляне на асамблеи в .NET решение.

  • Настройване на Вашия лицензАктивирайте за неограничена обработка и поддръжка.

  • Конфигуриране на опции за екстракцияИзползване TextExtractor и TextExtractorOptions Настройване на режима на екстракция, както е желано (чиста, сурова, плоска).

  • Процес и възстановяване на текстИзвършване на резултатите от екстракцията и достъпа чрез резултата контейнерно събиране.

Пример: Изтегляне на текст от PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Пример: Извличане на текст от множество PDF файлове

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Използване на случаи и разширения

  • PDF към TXT Конверсия: Автоматично конвертиране на PDF до ясен текст за индексиране, търсене или архивиране.
  • Data Mining: Извлечете таблични данни, фактури или формуляри за по-нататъшна обработка или анализ.
  • Достъпност: Подгответе четиво съдържание за екранни читатели или алтернативни формати.
  • Batch Processing: Използвайте режими на екстракция за специфични работни потоци (например, OCR предварителна обработка, идентифициране на субекта).

За усъвършенствана екстракция – като например обработка на шифровани PDF файлове или персонализиране на текстовия изход – се отнася до официалния API референт.

Най-добрите практики

  • Винаги изберете режима на екстракция, който отговаря на нуждите на производството ви (форматиране, сурови или чисти).
  • За големи документални комплекти, процесът на партида за максимално пропуск и минимизиране на ръчното усилие.
  • Резултатите от извличането на тестове са с реални PDF файлове, за да се гарантира точността на данните.

Свързани ресурси:

 Български