Текст Extractor Plugin за Aspose.PDF
Aspose.PDF Text Extractor Plugin за .NET позволява на разработчиците да извличат текстово съдържание – структурирано, плоско или така – от PDF файлове.С три режима на извлечение, той е идеален за конвертиране на документи, минни данни, подобрения на достъпността и много други.
Последните статии
Aspose.PDF текст екстрактор Plugin ключови характеристики
- Многобройни режими на екстракция*Извлечете текст като чист (форматиран), суров (с-и), или плосък (чист) за максимална гъвкавост.
- Разработване на PDF файлове*Добавете няколко PDF файла за едновременна екстракция и усъвършенствани работни потоци.
- Проста .NET интеграция*Straightforward API – добавете към всеки C# или .NET проект за бързо изпълнение.
Започнете с Aspose.PDF Text Extractor Plugin
Инсталирайте Aspose.PDF за .NETДобавяне чрез NuGet или изтегляне на асамблеи в .NET решение.
Настройване на Вашия лицензАктивирайте за неограничена обработка и поддръжка.
** Конфигуриране на опции за екстракция**Използване
TextExtractor
иTextExtractorOptions
Настройване на режима на екстракция, както е желано (чиста, сурова, плоска).Процес и възстановяване на текстИзвършване на резултатите от екстракцията и достъпа чрез резултата контейнерно събиране.
Пример: Изтегляне на текст от PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Пример: Извличане на текст от множество PDF файлове
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
** Използване на случаи и разширения**
- PDF към TXT Конверсия: Автоматично конвертиране на PDF до ясен текст за индексиране, търсене или архивиране.
- ** Data Mining:** Извлечете таблични данни, фактури или формуляри за по-нататъшна обработка или анализ.
- Достъпност: Подгответе четиво съдържание за екранни читатели или алтернативни формати.
- Batch Processing: Използвайте режими на екстракция за специфични работни потоци (например, OCR предварителна обработка, идентифициране на субекта).
За усъвършенствана екстракция – като например обработка на шифровани PDF файлове или персонализиране на текстовия изход – се отнася до официалния API референт.
* Най-добрите практики *
- Винаги изберете режима на екстракция, който отговаря на нуждите на производството ви (форматиране, сурови или чисти).
- За големи документални комплекти, процесът на партида за максимално пропуск и минимизиране на ръчното усилие.
- Резултатите от извличането на тестове са с реални PDF файлове, за да се гарантира точността на данните.
Свързани ресурси: *