Как да извлечете текст от сканираните PDF с Aspose.OCR
Извличане на текст от сканирани или изображения базирани PDF файлове, които се използват, за да се изискват сложни работни потоци или скъпа ръчна работа. С Aspose.OCR Scanned PDF до Text за .NET, можете да автоматизирате този процес, конвертирайки PDFs в търсене и редактиращ текст с само няколко реда на кода.
Реални световни проблеми
Организациите често получават договори, доклади или архиви като скенирани PDF. ръчно копиране на текст или търсене вътре в тези документи е тъжно и грешно, забавя спазването, архивите и цифровите трансформационни проекти.
Преглед на решението
Aspose.OCR за .NET ви позволява да обработвате скенираните PDF файлове – ги превръщате в текстови или търсещи PDF, като прави информацията достъпна, индексираема и готова за цифрови работни потоци.
Предупреждения
Преди да започнете, уверете се, че имате:
- Visual Studio 2019 или по-късно
- .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
- ASPOSE.OCR за .NET от NuGet
- Основни познания за C#
PM> Install-Package Aspose.OCR
Стъпка по стъпка изпълнение
Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR
Добавете пакета NuGet и референт Aspose.OCR:
using Aspose.OCR;
Стъпка 2: Добавете сканираните PDF файлове
Създайте обект на OcrInput за PDF вход и добавете скенираните PDF файлове.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Стъпка 3: Настройване на настройките за разпознаване
Конфигурирайте езика и други настройки за разпознаване, за да отговарят на вашите документи.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Стъпка 4: Извършете процеса на признаване
Разберете текста от скенираните PDF файлове:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Стъпка 5: Съхраняване или експортиране на признат текст
Изтеглете признатия текст в файлове или конвертирайте резултатите в търсещи ПДФ.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Стъпка 6: Добавете обработка на грешки
Вградете разпознаването в опит/привличане блок за издръжливост.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Стъпка 7: Оптимизиране на големи или многострани PDF файлове
- Обработка на PDFs страница по страница за големи файлове
- Използвайте висококачествени скани за най-добри резултати
- Бач процес паралелно за големи колекции
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Стъпка 8: Допълнителен работен пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Използване на случаи и приложения
Дигитално архивиране
Конвертирайте цели библиотеки от скенирани документи в търсещи, индексиращи файлове за съответствие и управление на знанията.
Правно и договорно управление
Извлечете договорни клаузи или условия от PDF за преглед, автоматизация или цифрово подписване.
Търсене на Streamlined Document
Позволява бързо търсене на пълен текст в архиви, бази на знания или файлове за случая.
Съвместни предизвикателства и решения
Предизвикателство 1: Ниско качество или скъсани скани
Решение: Използвайте предварително обработващи се филтри и висококачествени скани, когато е възможно.
Предизвикателство 2: Многоезични PDF файлове
Решение: Настройване на езика в настройките за разпознаване или процеса с множество езикови опции.
Предизвикателство 3: Много големи PDF файлове
**Решение: ** Процесът се извършва в комплекти или по страница и се наблюдава използването на паметта.
Преглед на изпълнението
- Използвайте оптимален DPI (300+) за скенираните PDF файлове
- Батч процес за най-добър пропуск
- Създаване на OCR обекти и затворени файлове
Най-добрите практики
- Валидиране на производството на OCR преди по-нататъшна автоматизация
- Организиране и копиране на оригинални PDF файлове
- Използвайте правилния SaveFormat за вашия работен поток
- Редовно актуализиране на Aspose.OCR за нови PDF функции
Разширени сценарии
Сценарий 1: Извлечете само конкретни страници от PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Сценарий 2: Износ в много формати
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
заключение
Aspose.OCR за .NET ви позволява да конвертирате скенираните PDF файлове в активирани текстови и търсачки - премахване на ръчен вход и предоставяне на достъпна информация за цялата вашата организация.
За повече подробности и примери вижте Aspose.OCR за .NET API Референт .