Как да извлечете текст от сканираните PDF с Aspose.OCR
Извличане на текст от сканиран или въз основа на изображение ПДФ Използваните файлове изискват сложни работни потоци или скъпа ръчна работа.С Aspose.OCR Scanned PDF to Text for .NET, можете да автоматизирате този процес, конвертирайки PDFs в търсещ и редактиращ текст с само няколко реда на кода.
Реални световни проблеми
Организациите често получават договори, доклади или архиви като скенирани PDF. ръчно копиране на текст или търсене вътре в тези документи е тъжно и грешно, забавя спазването, архивите и цифровите трансформационни проекти.
Преглед на решението
Aspose.OCR за .NET ви позволява да обработвате скенираните PDF файлове – ги превръщате в текстови или търсещи PDF, като прави информацията достъпна, индексираема и готова за цифрови работни потоци.
Предупреждения
Преди да започнете, уверете се, че имате:
- Visual Studio 2019 или по-късно
- .NET 6.0 или по-късно (или .NET Framework 4.6.2+)
- ASPOSE.OCR за .NET от NuGet
- Основни познания за C
PM> Install-Package Aspose.OCR
Стъпка по стъпка изпълнение
Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR
Добавете пакета NuGet и референт Aspose.OCR:
using Aspose.OCR;
Стъпка 2: Добавете сканираните PDF файлове
Създайте обект на OcrInput за PDF вход и добавете скенираните PDF файлове.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Стъпка 3: Настройване на настройките за разпознаване
Конфигурирайте езика и други настройки за разпознаване, за да отговарят на вашите документи.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Стъпка 4: Извършете процеса на признаване
Разберете текста от скенираните PDF файлове:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Стъпка 5: Съхраняване или експортиране на признат текст
Изтеглете признатия текст в файлове или конвертирайте резултатите в търсещи ПДФ.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Стъпка 6: Добавете обработка на грешки
Вградете разпознаването в опит/привличане блок за издръжливост.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Стъпка 7: Оптимизиране на големи или многострани PDF файлове
- Обработка на PDFs страница по страница за големи файлове
- Използвайте висококачествени скани за най-добри резултати
- Бач процес паралелно за големи колекции
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Стъпка 8: Допълнителен работен пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Използване на случаи и приложения
Дигитално архивиране
Конвертирайте цели библиотеки от скенирани документи в търсещи, индексиращи файлове за съответствие и управление на знанията.
Правно и договорно управление
Извлечете договорни клаузи или условия от PDF за преглед, автоматизация или цифрово подписване.
Търсене на Streamlined Document
Позволява бързо търсене на пълен текст в архиви, бази на знания или файлове за случая.
Съвместни предизвикателства и решения
Предизвикателство 1: Ниско качество или скъсани скани
Решение: Използвайте предварително обработващи се филтри и висококачествени скани, когато е възможно.
Предизвикателство 2: Многоезични PDF файлове
Решение: Настройване на езика в настройките за разпознаване или процеса с множество езикови опции.
Предизвикателство 3: Много големи PDF файлове
Решение: Процесът се извършва в комплекти или по страница и се наблюдава използването на паметта.
Преглед на изпълнението
- Използвайте оптимален DPI (300+) за скенираните PDF файлове
- Батч процес за най-добър пропуск
- Създаване на OCR обекти и затворени файлове
Най-добрите практики
- Валидиране на производството на OCR преди по-нататъшна автоматизация
- Организиране и копиране на оригинални PDF файлове
- Използвайте правилния SaveFormat за вашия работен поток
- Редовно актуализиране на Aspose.OCR за нови PDF функции
Разширени сценарии
Сценарий 1: Извлечете само конкретни страници от PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Сценарий 2: Износ в много формати
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
заключение
Aspose.OCR за .NET ви позволява да конвертирате скенираните PDF файлове в активирани текстови и търсачки - премахване на ръчен вход и предоставяне на достъпна информация за цялата вашата организация.
За повече подробности и примери вижте Aspose.OCR за .NET API Референт .