Hogyan lehet automatizálni az adatok kivonását többoldalú PDF-kból az Aspose.OCR segítségével

A szkennerek, archívumok vagy vállalati munkafolyamatok több oldalas PDF-jei gyakran hatalmas mennyiségű kereshetetlen szöveget és táblázatot tartanak fenn. A kézi kivonás lassú és nem méretezhető. Az Aspose.OCR a .NET számára automatizálja a szöveg, az asztalok és a szerkezet hosszú, bonyolult, minimális kódgal rendelkező pdf-k kivonatát.

Valódi problémák

A jogi, pénzügyi és tudományos archívumok rendszeresen foglalkoznak többoldalú szkennelt PDF-kkal, amelyek több száz oldalt tartalmaznak.

megoldás áttekintése

Az Aspose.OCR for .NET csomagolhatja a feldolgozást és kiválaszthatja a szöveget / táblákat minden oldalról többoldalú PDF-ben. megadhatja az oldal rangsorát, az export formátumokat és az automatikus integrációt az üzleti alkalmazásokkal vagy a digitális archívumokkal.

előfeltételek

Visual Studio 2019 vagy újabb
.NET 6.0 vagy újabb (vagy .NET Framework 4.6.2+)
Aspose.OCR for .NET a NuGet-ről
Alapvető C# programozási készségek

PM> Install-Package Aspose.OCR

lépésről lépésre megvalósítás

1. lépés: Az Aspose.OCR telepítése és konfigurálása

using Aspose.OCR;

2. lépés: Többoldalú PDF fájlok hozzáadása

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14

3. lépés: Állítsa be a felismerési beállításokat és az oldal rangsorát

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;

4. lépés: A szöveg és a táblák kivonása minden oldalról

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5. lépés: Az egyes oldalak export eredményei

int page = 1;
foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.txt", SaveFormat.Text);
    result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
    result.Save($"output_page_{page}.json", SaveFormat.Json);
    page++;
}

6. lépés: A hibák kezelése és az adatok érvényesítése

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7. lépés: Optimalizálja a nagy fájlokat és a munkahelyeket

PDF fájlok feldolgozása katalógus szerint
Használja a szelektív oldalfeldolgozást a sebességhez
Memória/CPU használata

foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

8. lépés: Teljes példa

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive.pdf");
            input.Add("report.pdf", 5, 10);

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            int page = 1;
            foreach (RecognitionResult result in results)
            {
                result.Save($"output_page_{page}.txt", SaveFormat.Text);
                result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
                result.Save($"output_page_{page}.json", SaveFormat.Json);
                page++;
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Esetek és alkalmazások használata

Jogi és megfelelőségi archívum

Jelölje ki a szerződések teljes tartalmát, a bírósági indítványokat vagy a kormányzati nyilvántartásokat a keresés és a megfelelés érdekében.

Akadémiai és kutatási archívumok

Digitalizálja és osztja a folyóiratokat, értekezleteket vagy adatlapokat az elemzéshez vagy az e-tanuláshoz.

Pénzügyi és ellenőrzési munkafolyamatok

Automatikus kivonás a nagy nyilatkozat archívumokból, jelentésekből és táblákból.

Közös kihívások és megoldások

1. kihívás: következetlenséges oldaltervezés

Megoldás: Az AUTO felderítés használata vagy az oldal tartományonként különböző módok beállítása.

Kihívás 2: Nagyon nagy PDF-k

Megoldás: Process in batches; split files for better memory performance.

3. kihívás: vegyes tartalom (szöveg, táblák, képek)

Megoldás: Validate és post-process kimenetek; tune detection mód.

A teljesítmény megfontolása

A nagy PDF-k több memóriát/CPU-t igényelnek
Szórakoztató munkák a legjobb teljesítményért
Az integráció előtt hitelesítse a kimeneti mintákat

Legjobb gyakorlatok

Használjon névszerződéseket a könnyű nyomon követéshez
A többoldalú PDF-k megosztása, ha a fájlok nagyon nagyok
Biztonságos forrás- és kimeneti dokumentumok
Validálás és spot-check eredmények kritikus munkafolyamatokban

fejlett forgatókönyvek

1. forgatókönyv: Az oldalonként kereshető PDF-re exportálva

foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
    page++;
}

2. forgatókönyv: Adatbázishoz vagy felhőhöz való integráció

foreach (RecognitionResult result in results)
{
    string json = File.ReadAllText($"output_page_{page}.json");
    // Upload json or send to a cloud endpoint
}

következtetések

Az Aspose.OCR for .NET lehetővé teszi a szöveg és a strukturált adatok robusztus, méretezhető kivonását a többoldalú PDF-kból – időt takarít meg a kézi erőfeszítés és javítja a munkafolyamat automatizálását.

Többet látni PDF A feldolgozási példa a Az Aspose.OCR a .NET API referenciájához .