Текст Extractor Plugin для Aspose.PDF

Aspose.PDF Text Extractor Plugin для .NET позволяет разработчикам экстрактировать текстовый контент — структурированный, плоский, или как-то — из PDF-файлов. с тремя режимами извлечения, он идеально подходит для конверсии документов, добычи данных, улучшений доступности и многое другое.

«Последние статьи»

Aspose.PDF Text Extractor Plugin Ключевые функции

    • Мултифункциональные режимы экстракции*Экстрактируйте текст как чистый (форматированный), сырый (а-ис) или плоский (чист) для максимальной гибкости.
    • Обработка файлов PDF*Добавьте несколько PDF-файлов для одновременного экстракции и упрощенных рабочих потоков.
    • Простая интеграция .NET*Straightforward API — добавьте в любой проект C# или .NET для быстрого внедрения.

Запускается с Aspose.PDF Text Extractor Plugin

  • Настройка Aspose.PDF для .NETДобавьте через NuGet или загружайте сборки в ваше решение .NET.

    • Конфигурируйте свою лицензию*Активировать для неограниченной обработки и поддержки.
  • Конфигурировать опции экстракцииИспользование TextExtractor и TextExtractorOptions Настройка режима экстракции по желанию (чистая, сырая, плоская).

  • Процесс и восстановление текстаВыполните результаты экстракции и доступа через сбор контейнеров.

Пример: Экстракт текста из PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Пример: Батч Экстракт текста из множества PDF

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

* Услуги использования и расширения*

  • PDF в TXT Конвертация: Автоматическое конвертирование PDF-файлов в тонкий текст для индексирования, поиска или архива.
  • ** Data Mining:** Экстракт табличных данных, счетов или форм для дальнейшей обработки или анализа.
  • Доступность: Подготовка читаемого контента для чтений экрана или альтернативных форматов.
  • ** Обработка батарей:** Используйте режимы экстракции для конкретных рабочих потоков низкого потока (например, предварительная обработка OCR, идентификация субъекта).

Для продвинутых экстракций, таких как обработка шифрованных PDF-файлов или персонализация текстового выхода, обратитесь к официальному API Reference.

«Лучшие практики»

  • Всегда выберите режим экстракции, который соответствует вашим потребностям в производстве (формат, сырой или чистой).
  • Для больших наборов документов, процесс комплектации для максимального пропуска и минимизации ручного усилия.
  • Тест-экстракция результатов с реальными PDF-файлами, чтобы обеспечить точность данных.

связанные с ними ресурсы:

 Русский