Как да извлечете текст от сканираните PDF файлове в .NET с помощта на Aspose.OCR
Скенираните PDF файлове често са предизвикателни да работят с тях, защото в основата им са само изображения на текст. Преобразуването на тези снимки в търсещи, редактируеми текстови документи отваря свят на възможности за управление на документи и достъпност на съдържанието. С Aspose.OCR за .NET можете да конвертирате скенираните PDF файл в пълно търсене документи, като същевременно запазвате оригиналните снимки.
Защо OCR (Optical Character Recognition) е важен за сканираните PDF файлове
Извличане на данни:- OCR ви позволява да конвертирате скенирания текст в машинно-читаеми данни, които могат да бъдат редактирани и индексирани.
Възможност за търсене:- Като конвертирате скенираните PDF файлове в търсещи документи, можете бързо да намерите съответната информация, без да търсите ръчно през страниците.
Подобряване на производителността:- Спестете време, като автоматизирате конвертирането на скенираните документи в редактиращи формати като Word или Excel.
Предупреждения: Настройки за сканиран PDF текст екстракция
Преди да започнете да извличате текст от скенираните PDF файлове, уверете се, че следните стъпки са завършени:
Инсталирайте Aspose.OCR за .NET:- Добавете Aspose.OCR към вашия проект с помощта на NuGet:
dotnet add package Aspose.OCR
Осигуряване на лиценз за измерване:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Подгответе сканираните си PDF файлове:- PDF файлове са с високо качество. по-добро качество резултати в по-точна OCR.
Стъпка по стъпка: Извличане на текст от сканираните PDF файлове
Стъпка 1: Инсталирайте необходимата библиотека
Започнете с инсталирането на Aspose.OCR за .NET в вашия проект. можете да направите това директно от NuGet.
dotnet add package Aspose.OCR
Стъпка 2: Поставете ключовете за лиценз
Преди да започнете процедурата, конфигурирайте лиценза за Aspose.OCR, за да отключите всички функции.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Стъпка 3: Изтегляне на сканирания PDF в OCR Input Object
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Стъпка 4: Обработка на сканирания PDF с помощта на двигателя OCR
С натовареното PDF препратете го към двигателя Aspose OCR за разпознаване.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Стъпка 5: Изтеглете признатия текст или го съхранявайте
След като OCR процесорът обработва PDF, можете да изтеглите признатия текст директно или да го съхранявате в файл.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Стъпка 6: Тестване и оптимизиране на резултатите от OCR
След извличане на текста, тествайте изхода за точност. ако е необходимо, можете да настроите настройките на OCR, за да подобрите резултатите за различни оформления на документи.
Общи проблеми и фиксиране
Лоша точност на OCR
- Решение: Уверете се, че качеството на сканирания PDF е високо. Използвайте скани с висока резолюция, за да подобрите точността на разпознаването.
Недостатъчни шрифтове
- Решение: Осигурете правилното настройване на езика в опциите за ОКР, за да подобрите разпознаването на не-латински знаци.
3. бавно изпълнение
- Решение: Разкъсвайте PDF-то в по-малки парчета или страници, за да можете да обработвате бързо, особено за големи документи.