Како извући текст из скенираних ПДФ-а са Aspose.OCR

Како извући текст из скенираних ПДФ-а са Aspose.OCR

Екстракција текста из скенираних или сличних ПДФ датотека који се користе да захтевају сложене радне токове или скупу ручну радњу. са Аппосе.ОЦР Скенирани ПдФ за текст за .НЕТ, можете аутоматизовати овај процес, конвертујући ПДВ-а у претраживо и уређујуће текст са само неколико линија кода.

Реал светски проблем

Организације често добијају уговоре, извештаје или архиве као скениране ПДФ-а. Ручно копирање текста или претраживање унутар ових докумената је тужно и погрешно, успоравајући усклађеност, архивирање и дигиталне трансформације пројеката.

Преглед решења

Aspose.OCR за .NET вам омогућава да бацх процеса скенираних ПДФ-а – претворити их у текстуалне или претраживајуће ПДП, чинећи информације приступачним, индексираним и спремним за дигиталне радне токове.

Принципи

Пре него што почнете, уверите се да имате:

  • Visual Studio 2019 или касније
  • .NET 6.0 или новији (или .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • Основни знања Ц #
PM> Install-Package Aspose.OCR

Корак по корак спровођење

Корак 1: Инсталирајте и конфигуришете Aspose.OCR

Додајте пакет NuGet и референце Aspose.OCR:

using Aspose.OCR;

Корак 2: Додајте скениране ПДФ датотеке

Kreirajte OcrInput objekt za PDF ulazak i dodajte skenirane PDF datoteke.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Корак 3: Подешавање подешавања препознавања

Конфигуришите језик и друге подешавања препознавања како би одговарали вашим документима.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Корак 4: Покрените процес препознавања

Препознајте текст из скенираних ПДФ-а:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Корак 5: Сачувајте или извозите препознатљив текст

Експортирајте препознати текст у датотеке или конвертујте резултате у претраживајуће ПДФ-а.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Корак 6: Додајте третман грешака

Уградите препознавање у блоку покушаја / узимања за издржљивост.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Корак 7: Оптимизација за велике или вишестранице ПДФ-а

  • Обрада ПДФ страница по страници за велике датотеке
  • Користите висококвалитетне скене за најбоље резултате
  • Процес бацања паралелно за велике колекције
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Корак 8: Потпуни радни пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Коришћење случајева и апликација

Дигитални архивирање

Конвертујте целе библиотеке скенираних докумената у претраживајуће, индексиране датотеке за усклађеност и управљање знањем.

Правни и уговорни менаџмент

Iz PDF-a izvadite ugovorne odredbe ili uslove za preispitivanje, automatizaciju ili digitalni potpis.

Streamlined Document Претрага

Омогућава брзо претраживање пуног текста у архивима, базама знања или датотекама случаја.

Заједнички изазови и решења

Проблем 1: нискоквалитетне или скеиране скане

Решење: Уколико је могуће, користите пре-процесирајуће филтере и висококвалитетне скене.

Проблем 2: Мултијезични ПДФ

Решење: Подесите језик у подешавањама препознавања или процесу са више језика опција.

Проблем 3: Веома велики ПДФ датотеке

Решење: Процес у батовима или по страници, и праћење употребе меморије.

Размишљање о перформанси

  • Користите оптималну ДПИ (300+) за скениране ПДФ-а
  • Батцх процес за најбољи проток
  • Поставите ОЦР објекте и затворене датотеке

Најбоља пракса

  • Validirajte OCR izlazak pre daljnje automatizacije
  • Организовати и резервисати оригиналне ПДФ датотеке
  • Koristite ispravan SaveFormat za vaš radni tok
  • Редовно ажурирајте Aspose.OCR за нове ПДФ функције

Напредни сценарио

Сценарио 1: Уклоните само специфичне странице из ПДФ-а

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Сценарио 2: Експорт у више формата

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Закључак

Aspose.OCR for .NET вам омогућава да конвертујете скениране ПДФ-а у покретљиве текстуалне и претраживајуће датотеке – елиминишући ручни улаз и чинећи информације приступачним целој вашој организацији.

За више детаља и примера, погледајте Aspose.OCR за .NET API референце .

 Српски