Как да извлечете текст от сканираните PDF файлове в .NET с помощта на Aspose.OCR

Как да извлечете текст от сканираните PDF файлове в .NET с помощта на Aspose.OCR

Скенираните PDF файлове често са предизвикателни да работят с тях, защото в основата им са само изображения на текст. Преобразуването на тези снимки в търсещи, редактируеми текстови документи отваря свят на възможности за управление на документи и достъпност на съдържанието. С Aspose.OCR за .NET можете да конвертирате скенираните PDF файл в пълно търсене документи, като същевременно запазвате оригиналните снимки.

Защо OCR (Optical Character Recognition) е важен за сканираните PDF файлове

  • Извличане на данни:- OCR ви позволява да конвертирате скенирания текст в машинно-читаеми данни, които могат да бъдат редактирани и индексирани.

  • Възможност за търсене:- Като конвертирате скенираните PDF файлове в търсещи документи, можете бързо да намерите съответната информация, без да търсите ръчно през страниците.

  • Подобряване на производителността:- Спестете време, като автоматизирате конвертирането на скенираните документи в редактиращи формати като Word или Excel.

Предупреждения: Настройки за сканиран PDF текст екстракция

Преди да започнете да извличате текст от скенираните PDF файлове, уверете се, че следните стъпки са завършени:

  • Инсталирайте Aspose.OCR за .NET:- Добавете Aspose.OCR към вашия проект с помощта на NuGet: dotnet add package Aspose.OCR

  • Осигуряване на лиценз за измерване:- Set up your metered license to unlock all features of the Aspose.OCR library using SetMeteredKey().

  • Подгответе сканираните си PDF файлове:- PDF файлове са с високо качество. по-добро качество резултати в по-точна OCR.

Стъпка по стъпка: Извличане на текст от сканираните PDF файлове

Стъпка 1: Инсталирайте необходимата библиотека

Започнете с инсталирането на Aspose.OCR за .NET в вашия проект. можете да направите това директно от NuGet.

dotnet add package Aspose.OCR

Стъпка 2: Поставете ключовете за лиценз

Преди да започнете процедурата, конфигурирайте лиценза за Aspose.OCR, за да отключите всички функции.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Стъпка 3: Изтегляне на сканирания PDF в OCR Input Object

You’ll need to load the scanned PDF into the OcrInput object. Aspose.OCR supports scanning multiple pages of a PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Стъпка 4: Обработка на сканирания PDF с помощта на двигателя OCR

С натовареното PDF препратете го към двигателя Aspose OCR за разпознаване.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Стъпка 5: Изтеглете признатия текст или го съхранявайте

След като OCR процесорът обработва PDF, можете да изтеглите признатия текст директно или да го съхранявате в файл.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Стъпка 6: Тестване и оптимизиране на резултатите от OCR

След извличане на текста, тествайте изхода за точност. ако е необходимо, можете да настроите настройките на OCR, за да подобрите резултатите за различни оформления на документи.

Общи проблеми и фиксиране

Лоша точност на OCR

  • Решение: Уверете се, че качеството на сканирания PDF е високо. Използвайте скани с висока резолюция, за да подобрите точността на разпознаването.

Недостатъчни шрифтове

  • Решение: Осигурете правилното настройване на езика в опциите за ОКР, за да подобрите разпознаването на не-латински знаци.

3. бавно изпълнение

  • Решение: Разкъсвайте PDF-то в по-малки парчета или страници, за да можете да обработвате бързо, особено за големи документи.
 Български