Текст Extractor Plugin за Aspose.PDF

Aspose.PDF Text Extractor Plugin за .NET позволява на разработчиците да извличат текстово съдържание - структурирано, плоско или а-и - от ПДФ С три режима на извличане, той е идеален за конвертиране на документи, минни данни, подобрения на достъпността и много други.

Последните статии

Как да извлечете текст от PDF в .NET Как да извлечем структурирани данни и таблици от PDF в .NET

Aspose.PDF текст екстрактор Plugin ключови характеристики

Многобройни режими на екстракцияИзвлечете текст като чист (форматиран), суров (с-и), или плосък (чист) за максимална гъвкавост.
Разработване на PDF файловеДобавете няколко PDF файла за едновременна екстракция и усъвършенствани работни потоци.
Проста .NET интеграцияStraightforward API – добавете към всеки C# или .NET проект за бързо изпълнение.

Започнете с Aspose.PDF Text Extractor Plugin

Инсталирайте Aspose.PDF за .NETДобавяне чрез NuGet или изтегляне на асамблеи в .NET решение.
Настройване на Вашия лицензАктивирайте за неограничена обработка и поддръжка.
Конфигуриране на опции за екстракцияИзползване TextExtractor и TextExtractorOptions Настройване на режима на екстракция, както е желано (чиста, сурова, плоска).
Процес и възстановяване на текстИзвършване на резултатите от екстракцията и достъпа чрез резултата контейнерно събиране.

Пример: Изтегляне на текст от PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Пример: Извличане на текст от множество PDF файлове

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Използване на случаи и разширения

PDF към TXT Конверсия: Автоматично конвертиране на PDF до ясен текст за индексиране, търсене или архивиране.
Data Mining: Извлечете таблични данни, фактури или формуляри за по-нататъшна обработка или анализ.
Достъпност: Подгответе четиво съдържание за екранни читатели или алтернативни формати.
Batch Processing: Използвайте режими на екстракция за специфични работни потоци (например, OCR предварителна обработка, идентифициране на субекта).

За усъвършенствана екстракция – като например обработка на шифровани PDF файлове или персонализиране на текстовия изход – се отнася до официалния API референт.

Най-добрите практики

Винаги изберете режима на екстракция, който отговаря на нуждите на производството ви (форматиране, сурови или чисти).
За големи документални комплекти, процесът на партида за максимално пропуск и минимизиране на ръчното усилие.
Резултатите от извличането на тестове са с реални PDF файлове, за да се гарантира точността на данните.

Свързани ресурси: