Как да извлечете текст от сканираните PDF с Aspose.OCR

Как да извлечете текст от сканираните PDF с Aspose.OCR

Извличане на текст от сканирани или изображения базирани PDF файлове, които се използват, за да се изискват сложни работни потоци или скъпа ръчна работа. С Aspose.OCR Scanned PDF до Text за .NET, можете да автоматизирате този процес, конвертирайки PDFs в търсене и редактиращ текст с само няколко реда на кода.

Реални световни проблеми

Организациите често получават договори, доклади или архиви като скенирани PDF. ръчно копиране на текст или търсене вътре в тези документи е тъжно и грешно, забавя спазването, архивите и цифровите трансформационни проекти.

Преглед на решението

Aspose.OCR за .NET ви позволява да обработвате скенираните PDF файлове – ги превръщате в текстови или търсещи PDF, като прави информацията достъпна, индексираема и готова за цифрови работни потоци.

Предупреждения

Преди да започнете, уверете се, че имате:

  • Visual Studio 2019 или по-късно
  • .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
  • ASPOSE.OCR за .NET от NuGet
  • Основни познания за C#
PM> Install-Package Aspose.OCR

Стъпка по стъпка изпълнение

Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR

Добавете пакета NuGet и референт Aspose.OCR:

using Aspose.OCR;

Стъпка 2: Добавете сканираните PDF файлове

Създайте обект на OcrInput за PDF вход и добавете скенираните PDF файлове.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Стъпка 3: Настройване на настройките за разпознаване

Конфигурирайте езика и други настройки за разпознаване, за да отговарят на вашите документи.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Стъпка 4: Извършете процеса на признаване

Разберете текста от скенираните PDF файлове:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Стъпка 5: Съхраняване или експортиране на признат текст

Изтеглете признатия текст в файлове или конвертирайте резултатите в търсещи ПДФ.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Стъпка 6: Добавете обработка на грешки

Вградете разпознаването в опит/привличане блок за издръжливост.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Стъпка 7: Оптимизиране на големи или многострани PDF файлове

  • Обработка на PDFs страница по страница за големи файлове
  • Използвайте висококачествени скани за най-добри резултати
  • Бач процес паралелно за големи колекции
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Стъпка 8: Допълнителен работен пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Използване на случаи и приложения

Дигитално архивиране

Конвертирайте цели библиотеки от скенирани документи в търсещи, индексиращи файлове за съответствие и управление на знанията.

Правно и договорно управление

Извлечете договорни клаузи или условия от PDF за преглед, автоматизация или цифрово подписване.

Търсене на Streamlined Document

Позволява бързо търсене на пълен текст в архиви, бази на знания или файлове за случая.

Съвместни предизвикателства и решения

Предизвикателство 1: Ниско качество или скъсани скани

Решение: Използвайте предварително обработващи се филтри и висококачествени скани, когато е възможно.

Предизвикателство 2: Многоезични PDF файлове

Решение: Настройване на езика в настройките за разпознаване или процеса с множество езикови опции.

Предизвикателство 3: Много големи PDF файлове

**Решение: ** Процесът се извършва в комплекти или по страница и се наблюдава използването на паметта.

Преглед на изпълнението

  • Използвайте оптимален DPI (300+) за скенираните PDF файлове
  • Батч процес за най-добър пропуск
  • Създаване на OCR обекти и затворени файлове

Най-добрите практики

  • Валидиране на производството на OCR преди по-нататъшна автоматизация
  • Организиране и копиране на оригинални PDF файлове
  • Използвайте правилния SaveFormat за вашия работен поток
  • Редовно актуализиране на Aspose.OCR за нови PDF функции

Разширени сценарии

Сценарий 1: Извлечете само конкретни страници от PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Сценарий 2: Износ в много формати

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

заключение

Aspose.OCR за .NET ви позволява да конвертирате скенираните PDF файлове в активирани текстови и търсачки - премахване на ръчен вход и предоставяне на достъпна информация за цялата вашата организация.

За повече подробности и примери вижте Aspose.OCR за .NET API Референт .

 Български