Kaip ištrinti tekstą iš skanintų PDF su Aspose.OCR

Teksto ekstrakcija iš skenavimo arba vaizdo pagrindu PDF Su Aspose.OCR Scanned PDF to Text for .NET, galite automatizuoti šį procesą, konvertuojant PDF į paieškos ir redagavimo tekstą su tik keliomis kodo eilutėmis.

Realaus pasaulio problemos

Organizacijos dažnai gauna sutartis, ataskaitas ar archyvus kaip skenuojami PDF dokumentai. rankiniu būdu kopijuoti tekstą ar ieškoti šių dokumentų yra nuobodus ir klaidinga, sulėtinti atitikties, archyvinimo ir skaitmeninės transformacijos projektus.

Sprendimo apžvalga

Aspose.OCR .NET leidžia jums apibendrinti skanytus PDF failus – paverčiant juos teksto ar paieškos PDF, kad informacija būtų prieinama, indeksuojama ir paruošta skaitmeniniams darbo srautams.

Prerequisites

Prieš pradėdami, įsitikinkite, kad turite:

Visual Studio 2019“ arba vėliau
.NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
Aspose.OCR už .NET iš NuGet
Pagrindinės C# žinios

PM> Install-Package Aspose.OCR

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR

Pridėti NuGet paketą ir nuorodą Aspose.OCR:

using Aspose.OCR;

2 žingsnis: Įdėkite savo skanytus PDF failus

Sukurkite „OcrInput“ objektą PDF įvedimui ir pridėkite skanytus PDF failus.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

3 žingsnis: nustatyti atpažinimo nustatymus

Konfigūruokite kalbą ir kitas atpažinimo nustatymus, kad atitiktų jūsų dokumentus.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

4 žingsnis: vykdykite pripažinimo procesą

Atpažinkite tekstą iš skanintų PDF failų:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5 žingsnis: išsaugoti arba eksportuoti pripažintą tekstą

Eksportuoti pripažintą tekstą į failus arba paversti rezultatus paieškos PDF.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

6 žingsnis: pridėti klaidų tvarkymą

Įdėti pripažinimą į bandymo / paieškos bloką tvirtumui.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7 žingsnis: optimizuokite didelius arba daugiašalius PDF failus

PDF puslapio per puslapį tvarkymas dideliems failams
Naudokite aukštos kokybės skenavimus geriausiems rezultatams
Batch procesas lygiagrečiai didelėms kolekcijoms

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

8 žingsnis: pilnas darbo pavyzdys

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Naudokite atvejus ir paraiškas

Skaitmeninis archyvas

Konvertuokite visą skenuojamų dokumentų biblioteką į paieškos, indeksavimo failus, kad būtų užtikrintas atitikties ir žinių valdymas.

Teisinis ir sutarčių valdymas

Sutarties nuostatos arba sąlygos iš PDF pateikiamos peržiūros, automatizavimo ar skaitmeninio parašo tikslais.

Streamlined dokumentų paieška

Galite greitai ieškoti viso teksto archyvuose, žinių bazėse ar atvejų failuose.

Bendrieji iššūkiai ir sprendimai

1 iššūkis: žemos kokybės arba sutrumpintas skenavimas

Išsprendimas: Jei įmanoma, naudokite iš anksto apdorojamus filtrus ir aukštos kokybės skenus.

Iššūkis 2: Daugiakalbės PDF

Išsprendimas: Įveskite kalbos atpažinimo nustatymus arba procesą su keliomis kalbų parinktimis.

Iššūkis 3: Labai dideli PDF failai

Išsprendimas: Procesas pakuotėse arba per puslapį, ir stebėti atminties naudojimą.

Veiksmingumo apžvalgos

Naudokite optimalią DPI (300+) skanintiems PDF failams
Batch procesas geriausiam perdavimui
Įdiegti OCR objektus ir uždarus failus

Geriausios praktikos

OCR išleidimo patvirtinimas prieš tolesnį automatizavimą
Organizuokite ir atsargiai kopijuoti originalius PDF failus
Naudokite teisingą SaveFormat savo darbo srautui
Reguliariai atnaujinamas Aspose.OCR naujoms PDF funkcijoms

Išplėstiniai scenarijai

1 scenarijus: iš PDF pašalinti tik specifinius puslapius

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

2 scenarijus: eksportuoti į daugybę formatų

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR for .NET leidžia konvertuoti skanytus PDF failus į aktyvius tekstus ir paieškos failius – pašalinti rankinius įrašus, kad informacija būtų prieinama visai jūsų organizacijai.

Daugiau detalių ir pavyzdžių žr Aspose.OCR už .NET API nuorodą .