Kaip konvertuoti nuskaitytus PDF failus į paieškos dokumentus

Kaip konvertuoti nuskaitytus PDF failus į paieškos dokumentus

Daugelis vertingų dokumentų yra įstrigę skenuojamuose PDF, todėl jie nėra ieškomi ir nesiekiami paieškos sistemoms ar produktyvumo įrankiams. Aspose.OCR Scanned PDF to Text for .NET leidžia paversti šiuos statinius failus visiškai ieškomais, redaguojamais dokumentais su minimaliu kodu.

Realaus pasaulio problemos

Skanytos PDF sutartys, knygos ar archyvai negali būti paieškai, indeksuojami arba kopijuojami, nebent tekstas yra ištrauktas.

Sprendimo apžvalga

ASPOSE.OCR .NET gali apibendrinti skanytus PDF failus, ištraukti ir eksportuoti tekstą įvairiais formatais – sukurti paieškos, indeksavimo dokumentus ir pasirengti skaitmeniniams darbo srautams ar atitikimui.

Prerequisites

  • „Visual Studio 2019“ arba vėliau
  • .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
  • ASPOSE.OCR už .NET iš NuGet
  • C# programavimo patirtis
PM> Install-Package Aspose.OCR

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR

using Aspose.OCR;

2 žingsnis: įtraukti skanytus PDF failus

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");

3 žingsnis: nustatykite PDF atpažinimo nustatymus

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts

4 žingsnis: paleiskite OCR ant skanintų PDF failų

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5 žingsnis: eksportuoti į paieškos formatus

foreach (RecognitionResult result in results)
{
    result.Save("archive_searchable.pdf", SaveFormat.Pdf);   // Searchable PDF
    result.Save("archive_text.txt", SaveFormat.Text);         // Plain text
    result.Save("archive_word.docx", SaveFormat.Docx);       // Word document
}

6 žingsnis: pridėti klaidų tvarkymą ir patvirtinimą

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7 žingsnis: optimizuokite daugiašalius ir didelius PDF failus

  • PDF su daugybe puslapių, pridėkite failą ir nustatykite puslapio juostus, kaip reikia
  • Tune nustatymai dokumentų išdėstymo ir kalbos
  • „Batch“ tvarko visus failus viename kataloge
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

8 žingsnis: pilnas pavyzdys

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive1.pdf");
            input.Add("books.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("archive_searchable.pdf", SaveFormat.Pdf);
                result.Save("archive_text.txt", SaveFormat.Text);
                result.Save("archive_word.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Naudokite atvejus ir paraiškas

Skaitmeninių archyvų paieška

Statinių, skenuojamų archyvų keitimas į paieškos, indeksuojamus išteklius bibliotekoms, teisinėms įmonėms ar korporacijoms.

Reglamentavimo ir atitikties skaitmeninimas

Iš skenuojamų atitikties dokumentų išgauti tekstą patvirtinimui ir auditui.

Akademiniai ir knygų leidiniai

Skaitmenizuokite tekstinius knygas ir mokslinių tyrimų dokumentus skaitmeniniam prieigai, e-mokymui ar platinimui.

Bendrieji iššūkiai ir sprendimai

1 iššūkis: žemos kokybės arba sutrumpintas skenavimas

Išsprendimas: Preprocesas aiškumui; naudokite AUTO režimą tvirtam tvarkymo tvarkymui.

Iššūkis 2: Daugiakalbės PDF

Išsprendimas: Pritaikykite kalbos nustatymus ir bandykite mėginių failus.

3 iššūkis: labai dideli arba batch failai

Išsprendimas: Procesas valdomose pakuotėse ir atminties naudojimo stebėjimas.

Veiksmingumo apžvalgos

  • Batch procesas maksimaliai efektyviai
  • Naudokite kokybiškus PDF failus
  • OCR objektų naudojimas po naudojimo

Geriausios praktikos

  • Išleidimo patvirtinimas prieš šaltinį PDF prieš integraciją
  • Organizuokite PDF pagal temą ar skyrių, kad būtų lengviau valdyti
  • Saugokite visus skenuojamus ir tvarkomus failus
  • Naudokite naujausią versiją Aspose.OCR geriausiam tikslumui

Išplėstiniai scenarijai

1 scenarijus: duomenų vamzdžių eksportas į JSON

foreach (RecognitionResult result in results)
{
    result.Save("archive_data.json", SaveFormat.Json);
}

Scenarijus 2: Selektyvi puslapis OCR

input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only

Conclusion

Aspose.OCR Scanned PDF to Text for .NET leidžia greitai paversti skanuotus PDF į paieškos, redaguojamus dokumentus šiuolaikiniams darbo srautams.

Rasti daugiau pažangių kodų ir patarimų ASPOSE.OCR už .NET API nuorodą .

 Lietuvių