Hogyan lehet kivonni a szöveget a szkennelt PDF-kból az Aspose.OCR segítségével

A szkennelt vagy képalapú szöveg kivonása PDF Az ASPOSE.OCR Scanned PDF to Text for .NET segítségével automatizálhatja ezt a folyamatot, a PDF-eket kereshető és szerkeszthető szövegké alakítva csak néhány kódvonalon.

Valódi problémák

A szervezetek gyakran szerződéseket, jelentéseket vagy archívumokat kapnak, mint a szkennelt PDF-k. A szöveg kézi másolása vagy a dokumentumok belsejében való keresés unalmas és hibás, ami lassítja a megfelelést, az archiválást és a digitális átalakítási projekteket.

megoldás áttekintése

Az ASPOSE.OCR for .NET lehetővé teszi, hogy a szkennelt PDF-k feldolgozását – szöveges vagy kereshető pdf-ekké alakítva, az információk hozzáférhetővé, indexálhatók és készek a digitális munkafolyamatokhoz.

előfeltételek

Mielőtt elkezdené, győződjön meg róla, hogy:

Visual Studio 2019 vagy újabb
.NET 6.0 vagy újabb (vagy .NET Framework 4.6.2+)
ASPOSE.OCR for .NET a NuGet-ről
Alapvető C# tudás

PM> Install-Package Aspose.OCR

lépésről lépésre megvalósítás

1. lépés: Az Aspose.OCR telepítése és konfigurálása

Adja meg a NuGet csomagot és az Aspose.OCR referenciát:

using Aspose.OCR;

2. lépés: Adja meg a szkennelt PDF fájlokat

Hozzon létre egy OcrInput objektumot a PDF-bejegyzéshez, és adja hozzá a szkennelt PDF fájlokat.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

3. lépés: A felismerési beállítások beállítása

Állítsa be a nyelvet és más felismerési beállításokat, hogy megfeleljen a dokumentumoknak.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

4. lépés: Végezze el a felismerési folyamatot

A szöveg felismerése a szkennelt PDF-kból:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5. lépés: Az elismert szöveg mentése vagy exportálása

Az elismert szöveget fájlokba exportálja, vagy az eredményeket kereshető PDF-kba konvertálja.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

6. lépés: Hibaelhárítás hozzáadása

Helyezze fel a felismerést egy próbaverzióban/kapcsolóblokkban a robustosság érdekében.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7. lépés: Nagy vagy többoldalú PDF-k optimalizálása

PDF-k feldolgozása oldalról oldalra nagy fájlokhoz
Kiváló minőségű szkennelés a legjobb eredményekért
Batch folyamat párhuzamosan nagy gyűjtemények

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

8. lépés: A teljes munka példája

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Esetek és alkalmazások használata

Digitális archívum

Átalakítsa a szkennelt dokumentumok egész könyvtárát kereshető, indexálható fájlokra a megfelelés és a tudás menedzsment érdekében.

Jogi és szerződéses menedzsment

A szerződési feltételek vagy feltételek kivonása PDF-kból a felülvizsgálat, az automatizálás vagy a digitális aláírás céljából.

Streamlined dokumentum keresés

Lehetővé teszi a gyors teljes szöveges keresést archívumokban, ismeretbázisokban vagy eseti fájlokban.

Közös kihívások és megoldások

1. kihívás: alacsony minőségű vagy meghibásodott szkennelés

Megoldás: A lehető legjobban használja a feldolgozás előtti szűrőket és a kiváló minőségű szkennelést.

2. kihívás: többnyelvű PDF-k

Megoldás: A nyelvet a felismerési beállításokban vagy folyamatokban több nyelvi opcióval állítsa be.

3. kihívás: Nagyon nagy PDF fájlok

Teljesítmény: A feldolgozás csomagokban vagy oldalonként történik, és figyelemmel kíséri a memória használatát.

A teljesítmény megfontolása

Optimális DPI (300+) használata a szkennelt PDF-khoz
Batch-folyamat a legjobb átjutáshoz
Az OCR objektumok és a záró fájlkezelők elhelyezése

Legjobb gyakorlatok

Validálja az OCR kimenetelét a további automatizálás előtt
Az eredeti PDF fájlok szervezése és biztonsági mentése
Használja a helyes SaveFormatot a munkafolyamathoz
Rendszeresen frissíti az ASPOSE.OCR-t az új PDF funkciókhoz

fejlett forgatókönyvek

1. forgatókönyv: Csak specifikus oldalak kivonása PDF-ből

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

2. forgatókönyv: Több formátumra exportálva

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

következtetések

Az Aspose.OCR for .NET lehetővé teszi, hogy a szkennelt PDF-eket művelhető szöveges és kereshető fájlokká alakítsa át – eltávolítva a kézi bejegyzéseket és hozzáférhetővé tegye az információkat az egész szervezet számára.

További részletekért és példákért lásd a Az ASPOSE.OCR a .NET API referenciájához .