Kaip ištrinti tekstą iš skanintų PDF su Aspose.OCR

Kaip ištrinti tekstą iš skanintų PDF su Aspose.OCR

Tekstą iš skanintų ar vaizdo PDF failų, kurie naudojami reikalauti sudėtingų darbo srautų ar brangių rankinių darbų. su Aspose.OCR Scanned PDF į tekstą .NET, galite automatizuoti šį procesą, konvertuojant PDF paieškos ir redagavimo tekstas su tik keliomis kodo eilutėmis.

Realaus pasaulio problemos

Organizacijos dažnai gauna sutartis, ataskaitas ar archyvus kaip skenuojami PDF dokumentai. rankiniu būdu kopijuoti tekstą ar ieškoti šių dokumentų yra nuobodus ir klaidinga, sulėtinti atitikties, archyvinimo ir skaitmeninės transformacijos projektus.

Sprendimo apžvalga

ASPOSE.OCR .NET leidžia jums apibendrinti skanytus PDF failus – paverčiant juos teksto ar paieškos PDF, kad informacija būtų prieinama, indeksuojama ir paruošta skaitmeniniams darbo srautams.

Prerequisites

Prieš pradėdami, įsitikinkite, kad turite:

  • „Visual Studio 2019“ arba vėliau
  • .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
  • ASPOSE.OCR už .NET iš NuGet
  • Pagrindinės C# žinios
PM> Install-Package Aspose.OCR

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR

Pridėti NuGet paketą ir nuorodą Aspose.OCR:

using Aspose.OCR;

2 žingsnis: Įdėkite savo skanytus PDF failus

Sukurkite „OcrInput“ objektą PDF įvedimui ir pridėkite skanytus PDF failus.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

3 žingsnis: nustatyti atpažinimo nustatymus

Konfigūruokite kalbą ir kitas atpažinimo nustatymus, kad atitiktų jūsų dokumentus.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

4 žingsnis: vykdykite pripažinimo procesą

Atpažinkite tekstą iš skanintų PDF failų:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5 žingsnis: išsaugoti arba eksportuoti pripažintą tekstą

Eksportuoti pripažintą tekstą į failus arba paversti rezultatus paieškos PDF.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

6 žingsnis: pridėti klaidų tvarkymą

Įdėti pripažinimą į bandymo / paieškos bloką tvirtumui.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7 žingsnis: optimizuokite didelius arba daugiašalius PDF failus

  • PDF puslapio per puslapį tvarkymas dideliems failams
  • Naudokite aukštos kokybės skenavimus geriausiems rezultatams
  • Batch procesas lygiagrečiai didelėms kolekcijoms
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

8 žingsnis: pilnas darbo pavyzdys

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Naudokite atvejus ir paraiškas

Skaitmeninis archyvas

Konvertuokite visą skenuojamų dokumentų biblioteką į paieškos, indeksavimo failus, kad būtų užtikrintas atitikties ir žinių valdymas.

Teisinis ir sutarčių valdymas

Sutarties nuostatos arba sąlygos iš PDF pateikiamos peržiūros, automatizavimo ar skaitmeninio parašo tikslais.

Streamlined dokumentų paieška

Galite greitai ieškoti viso teksto archyvuose, žinių bazėse ar atvejų failuose.

Bendrieji iššūkiai ir sprendimai

1 iššūkis: žemos kokybės arba sutrumpintas skenavimas

Išsprendimas: Jei įmanoma, naudokite iš anksto apdorojamus filtrus ir aukštos kokybės skenus.

Iššūkis 2: Daugiakalbės PDF

Išsprendimas: Įveskite kalbos atpažinimo nustatymus arba procesą su keliomis kalbų parinktimis.

Iššūkis 3: Labai dideli PDF failai

Išsprendimas: Procesas pakuotėse arba per puslapį, ir stebėti atminties naudojimą.

Veiksmingumo apžvalgos

  • Naudokite optimalią DPI (300+) skanintiems PDF failams
  • Batch procesas geriausiam perdavimui
  • Įdiegti OCR objektus ir uždarus failus

Geriausios praktikos

  • OCR išleidimo patvirtinimas prieš tolesnį automatizavimą
  • Organizuokite ir atsargiai kopijuoti originalius PDF failus
  • Naudokite teisingą SaveFormat savo darbo srautui
  • Reguliariai atnaujinamas Aspose.OCR naujoms PDF funkcijoms

Išplėstiniai scenarijai

1 scenarijus: iš PDF pašalinti tik specifinius puslapius

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

2 scenarijus: eksportuoti į daugybę formatų

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusion

ASPOSE.OCR for .NET leidžia konvertuoti skanytus PDF failus į aktyvius tekstus ir paieškos failius – pašalinti rankinius įrašus, kad informacija būtų prieinama visai jūsų organizacijai.

Daugiau detalių ir pavyzdžių žr. ASPOSE.OCR už .NET API nuorodą .

 Lietuvių