Текст Extractor Plugin для Aspose.PDF
Aspose.PDF Text Extractor Plugin для .NET позволяет разработчикам экстрактировать текстовый контент — структурированный, плоский, или как-то — из PDF-файлов. с тремя режимами извлечения, он идеально подходит для конверсии документов, добычи данных, улучшений доступности и многое другое.
«Последние статьи»
Aspose.PDF Text Extractor Plugin Ключевые функции
- Мултифункциональные режимы экстракции*Экстрактируйте текст как чистый (форматированный), сырый (а-ис) или плоский (чист) для максимальной гибкости.
- Обработка файлов PDF*Добавьте несколько PDF-файлов для одновременного экстракции и упрощенных рабочих потоков.
- Простая интеграция .NET*Straightforward API — добавьте в любой проект C# или .NET для быстрого внедрения.
Запускается с Aspose.PDF Text Extractor Plugin
Настройка Aspose.PDF для .NETДобавьте через NuGet или загружайте сборки в ваше решение .NET.
- Конфигурируйте свою лицензию*Активировать для неограниченной обработки и поддержки.
Конфигурировать опции экстракцииИспользование
TextExtractor
иTextExtractorOptions
Настройка режима экстракции по желанию (чистая, сырая, плоская).Процесс и восстановление текстаВыполните результаты экстракции и доступа через сбор контейнеров.
Пример: Экстракт текста из PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Пример: Батч Экстракт текста из множества PDF
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
* Услуги использования и расширения*
- PDF в TXT Конвертация: Автоматическое конвертирование PDF-файлов в тонкий текст для индексирования, поиска или архива.
- ** Data Mining:** Экстракт табличных данных, счетов или форм для дальнейшей обработки или анализа.
- Доступность: Подготовка читаемого контента для чтений экрана или альтернативных форматов.
- ** Обработка батарей:** Используйте режимы экстракции для конкретных рабочих потоков низкого потока (например, предварительная обработка OCR, идентификация субъекта).
Для продвинутых экстракций, таких как обработка шифрованных PDF-файлов или персонализация текстового выхода, обратитесь к официальному API Reference.
«Лучшие практики»
- Всегда выберите режим экстракции, который соответствует вашим потребностям в производстве (формат, сырой или чистой).
- Для больших наборов документов, процесс комплектации для максимального пропуска и минимизации ручного усилия.
- Тест-экстракция результатов с реальными PDF-файлами, чтобы обеспечить точность данных.
связанные с ними ресурсы: