Текст Extractor Plugin для Aspose.PDF

Aspose.PDF Text Extractor Plugin для .NET позволяет разработчикам экстрактировать текстовый контент — структурированный, плоский или а-ис PDF С тремя режимами извлечения, он идеально подходит для конверсии документов, добычи данных, улучшений доступности и многое другое.

Последние статьи

Как извлечь текст из PDF в .NET Как извлечь структурированные данные и таблицы из PDF в .NET

Aspose.PDF Text Extractor Plugin Ключевые функции

Мултифункциональные режимы экстракцииЭкстрактируйте текст как чистый (форматированный), сырый (а-ис) или плоский (чист) для максимальной гибкости.
Обработка файлов PDFДобавьте несколько PDF-файлов для одновременного экстракции и упрощенных рабочих потоков.
Простая интеграция .NETStraightforward API — добавьте в любой проект C# или .NET для быстрого внедрения.

Запускается с Aspose.PDF Text Extractor Plugin

Настройка Aspose.PDF для .NETДобавьте через NuGet или загружайте сборки в ваше решение .NET.
Конфигурируйте свою лицензиюАктивировать для неограниченной обработки и поддержки.
Конфигурировать опции экстракцииИспользование TextExtractor и TextExtractorOptions Настройка режима экстракции по желанию (чистая, сырая, плоская).
Процесс и восстановление текстаВыполните результаты экстракции и доступа через сбор контейнеров.

Пример: Экстракт текста из PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Пример: Батч Экстракт текста из множества PDF

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Услуги использования и расширения

PDF в TXT Конвертация: Автоматическое конвертирование PDF-файлов в тонкий текст для индексирования, поиска или архива.
Data Mining: Экстракт табличных данных, счетов или форм для дальнейшей обработки или анализа.
Доступность: Подготовка читаемого контента для чтений экрана или альтернативных форматов.
Обработка батарей: Используйте режимы экстракции для конкретных рабочих потоков низкого потока (например, предварительная обработка OCR, идентификация субъекта).

Для продвинутых экстракций, таких как обработка шифрованных PDF-файлов или персонализация текстового выхода, обратитесь к официальному API Reference.

Лучшие практики

Всегда выберите режим экстракции, который соответствует вашим потребностям в производстве (формат, сырой или чистой).
Для больших наборов документов, процесс комплектации для максимального пропуска и минимизации ручного усилия.
Тест-экстракция результатов с реальными PDF-файлами, чтобы обеспечить точность данных.

связанные с ними ресурсы: