Kaip konvertuoti nuskaitytus PDF failus į paieškos dokumentus

Daugelis vertingų dokumentų yra įstrigę skenuojamuose PDF failuose, todėl jie nėra paieškos ir nesiekiami paieškoms ar produktyvumo įrankiams PDF tekstas .NET leidžia paversti šiuos statinius failus į visiškai paieškos, redaguojamus dokumentus su minimaliu kodu.

Realaus pasaulio problemos

Skanytos PDF sutartys, knygos ar archyvai negali būti paieškai, indeksuojami arba kopijuojami, nebent tekstas yra ištrauktas.

Sprendimo apžvalga

Aspose.OCR .NET gali apibendrinti skanytus PDF failus, ištraukti ir eksportuoti tekstą įvairiais formatais – sukurti paieškos, indeksavimo dokumentus ir pasirengti skaitmeniniams darbo srautams ar atitikimui.

Prerequisites

Visual Studio 2019“ arba vėliau
.NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
Aspose.OCR už .NET iš NuGet
C# programavimo patirtis

PM> Install-Package Aspose.OCR

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR

using Aspose.OCR;

2 žingsnis: įtraukti skanytus PDF failus

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");

3 žingsnis: nustatykite PDF atpažinimo nustatymus

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts

4 žingsnis: paleiskite OCR ant skanintų PDF failų

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5 žingsnis: eksportuoti į paieškos formatus

foreach (RecognitionResult result in results)
{
    result.Save("archive_searchable.pdf", SaveFormat.Pdf);   // Searchable PDF
    result.Save("archive_text.txt", SaveFormat.Text);         // Plain text
    result.Save("archive_word.docx", SaveFormat.Docx);       // Word document
}

6 žingsnis: pridėti klaidų tvarkymą ir patvirtinimą

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7 žingsnis: optimizuokite daugiašalius ir didelius PDF failus

PDF su daugybe puslapių, pridėkite failą ir nustatykite puslapio juostus, kaip reikia
Tune nustatymai dokumentų išdėstymo ir kalbos
Batch“ tvarko visus failus viename kataloge

foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

8 žingsnis: pilnas pavyzdys

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive1.pdf");
            input.Add("books.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("archive_searchable.pdf", SaveFormat.Pdf);
                result.Save("archive_text.txt", SaveFormat.Text);
                result.Save("archive_word.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Naudokite atvejus ir paraiškas

Skaitmeninių archyvų paieška

Statinių, skenuojamų archyvų keitimas į paieškos, indeksuojamus išteklius bibliotekoms, teisinėms įmonėms ar korporacijoms.

Reglamentavimo ir atitikties skaitmeninimas

Iš skenuojamų atitikties dokumentų išgauti tekstą patvirtinimui ir auditui.

Akademiniai ir knygų leidiniai

Skaitmenizuokite tekstinius knygas ir mokslinių tyrimų dokumentus skaitmeniniam prieigai, e-mokymui ar platinimui.

Bendrieji iššūkiai ir sprendimai

1 iššūkis: žemos kokybės arba sutrumpintas skenavimas

Išsprendimas: Preprocesas aiškumui; naudokite AUTO režimą tvirtam tvarkymo tvarkymui.

Iššūkis 2: Daugiakalbės PDF

Išsprendimas: Pritaikykite kalbos nustatymus ir bandykite mėginių failus.

3 iššūkis: labai dideli arba batch failai

Išsprendimas: Procesas valdomose pakuotėse ir atminties naudojimo stebėjimas.

Veiksmingumo apžvalgos

Batch procesas maksimaliai efektyviai
Naudokite kokybiškus PDF failus
OCR objektų naudojimas po naudojimo

Geriausios praktikos

Išleidimo patvirtinimas prieš šaltinį PDF prieš integraciją
Organizuokite PDF pagal temą ar skyrių, kad būtų lengviau valdyti
Saugokite visus skenuojamus ir tvarkomus failus
Naudokite naujausią versiją Aspose.OCR geriausiam tikslumui

Išplėstiniai scenarijai

1 scenarijus: duomenų vamzdžių eksportas į JSON

foreach (RecognitionResult result in results)
{
    result.Save("archive_data.json", SaveFormat.Json);
}

Scenarijus 2: Selektyvi puslapis OCR

input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only

Conclusion

Aspose.OCR Scanned PDF to Text for .NET leidžia greitai paversti skanuotus PDF į paieškos, redaguojamus dokumentus šiuolaikiniams darbo srautams.

Rasti daugiau pažangių kodų ir patarimų Aspose.OCR už .NET API nuorodą .