Как да извлечете текст от сканираните PDF с Aspose.OCR

Как да извлечете текст от сканираните PDF с Aspose.OCR

Извличане на текст от сканиран или въз основа на изображение ПДФ Използваните файлове изискват сложни работни потоци или скъпа ръчна работа.С Aspose.OCR Scanned PDF to Text for .NET, можете да автоматизирате този процес, конвертирайки PDFs в търсещ и редактиращ текст с само няколко реда на кода.

Реални световни проблеми

Организациите често получават договори, доклади или архиви като скенирани PDF. ръчно копиране на текст или търсене вътре в тези документи е тъжно и грешно, забавя спазването, архивите и цифровите трансформационни проекти.

Преглед на решението

Aspose.OCR за .NET ви позволява да обработвате скенираните PDF файлове – ги превръщате в текстови или търсещи PDF, като прави информацията достъпна, индексираема и готова за цифрови работни потоци.

Предупреждения

Преди да започнете, уверете се, че имате:

  • Visual Studio 2019 или по-късно
  • .NET 6.0 или по-късно (или .NET Framework 4.6.2+)
  • ASPOSE.OCR за .NET от NuGet
  • Основни познания за C
PM> Install-Package Aspose.OCR

Стъпка по стъпка изпълнение

Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR

Добавете пакета NuGet и референт Aspose.OCR:

using Aspose.OCR;

Стъпка 2: Добавете сканираните PDF файлове

Създайте обект на OcrInput за PDF вход и добавете скенираните PDF файлове.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Стъпка 3: Настройване на настройките за разпознаване

Конфигурирайте езика и други настройки за разпознаване, за да отговарят на вашите документи.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Стъпка 4: Извършете процеса на признаване

Разберете текста от скенираните PDF файлове:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Стъпка 5: Съхраняване или експортиране на признат текст

Изтеглете признатия текст в файлове или конвертирайте резултатите в търсещи ПДФ.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Стъпка 6: Добавете обработка на грешки

Вградете разпознаването в опит/привличане блок за издръжливост.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Стъпка 7: Оптимизиране на големи или многострани PDF файлове

  • Обработка на PDFs страница по страница за големи файлове
  • Използвайте висококачествени скани за най-добри резултати
  • Бач процес паралелно за големи колекции
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Стъпка 8: Допълнителен работен пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Използване на случаи и приложения

Дигитално архивиране

Конвертирайте цели библиотеки от скенирани документи в търсещи, индексиращи файлове за съответствие и управление на знанията.

Правно и договорно управление

Извлечете договорни клаузи или условия от PDF за преглед, автоматизация или цифрово подписване.

Търсене на Streamlined Document

Позволява бързо търсене на пълен текст в архиви, бази на знания или файлове за случая.

Съвместни предизвикателства и решения

Предизвикателство 1: Ниско качество или скъсани скани

Решение: Използвайте предварително обработващи се филтри и висококачествени скани, когато е възможно.

Предизвикателство 2: Многоезични PDF файлове

Решение: Настройване на езика в настройките за разпознаване или процеса с множество езикови опции.

Предизвикателство 3: Много големи PDF файлове

Решение: Процесът се извършва в комплекти или по страница и се наблюдава използването на паметта.

Преглед на изпълнението

  • Използвайте оптимален DPI (300+) за скенираните PDF файлове
  • Батч процес за най-добър пропуск
  • Създаване на OCR обекти и затворени файлове

Най-добрите практики

  • Валидиране на производството на OCR преди по-нататъшна автоматизация
  • Организиране и копиране на оригинални PDF файлове
  • Използвайте правилния SaveFormat за вашия работен поток
  • Редовно актуализиране на Aspose.OCR за нови PDF функции

Разширени сценарии

Сценарий 1: Извлечете само конкретни страници от PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Сценарий 2: Износ в много формати

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

заключение

Aspose.OCR за .NET ви позволява да конвертирате скенираните PDF файлове в активирани текстови и търсачки - премахване на ръчен вход и предоставяне на достъпна информация за цялата вашата организация.

За повече подробности и примери вижте Aspose.OCR за .NET API Референт .

 Български