Kuinka automatisoida tiedonlähtö monisivuisista PDF-tiedostoista Aspose.OCR: n avulla

Monivuotiset PDF-tiedostot skannereista, arkistoista tai yritysvirroista pitävät usein valtavia määriä etsimätöntä tekstiä ja taulukoita. Manuaalinen poisto on hidasta ja mittakaavaista. Aspose.OCR for .NET automaattisesti poistaa tekstin, taulukon ja rakenteen pitkistä, monimutkaisista PDF:istä vähimmäiskoodilla.

Reaalimaailman ongelma

Lailliset, taloudelliset ja akateemiset arkistot käsittelevät säännöllisesti usean sivun skannattuja PDF-tiedostoja, jotka sisältävät satoja sivuja.

Ratkaisun yleiskatsaus

Aspose.OCR for .NET voi yhdistää prosessin ja poistaa tekstin/taulukon kunkin sivun monipuolisessa PDF-tiedostossa. voit määrittää sivujärjestelmät, vientimuodot ja automaattinen integrointi liiketoiminta-sovelluksiin tai digitaalisiin arkistoihin.

edellytykset

Visual Studio 2019 tai uudempi
.NET 6.0 tai uudempi (tai .NET Framework 4.6.2+)
Aspose.OCR for .NET alkaen NuGet
C# -ohjelmointi taitoja

PM> Install-Package Aspose.OCR

Vaiheittainen toteutus

Vaihe 1: Asenna ja asenna Aspose.OCR

using Aspose.OCR;

Vaihe 2: Lisää monivuotisia PDF-tiedostoja

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14

Vaihe 3: Määritä tunnistusasetukset ja sivun tasot

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;

Vaihe 4: Poista teksti ja taulukot kunkin sivun

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Vaihe 5: Kunkin sivun tuonti tulokset

int page = 1;
foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.txt", SaveFormat.Text);
    result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
    result.Save($"output_page_{page}.json", SaveFormat.Json);
    page++;
}

Vaihe 6: Virheiden käsittely ja tiedon vahvistaminen

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Vaihe 7: Optimoi suuria tiedostoja ja työpaikkoja

PDF-tiedostojen käsittely direktiivin mukaisesti
Käytä valikoivaa sivun käsittelyä nopeuteen
Muistin ja CPU:n käyttö

foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Vaihe 8: Täydellinen esimerkki

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive.pdf");
            input.Add("report.pdf", 5, 10);

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            int page = 1;
            foreach (RecognitionResult result in results)
            {
                result.Save($"output_page_{page}.txt", SaveFormat.Text);
                result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
                result.Save($"output_page_{page}.json", SaveFormat.Json);
                page++;
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Käytä tapauksia ja sovelluksia

Laillinen ja vaatimustenmukainen arkistointi

Poista täysi sisältö sopimuksista, tuomioistuimen esityksistä tai hallituksen asiakirjoista hakemiseen ja noudattamiseen.

Akateeminen ja tutkimusarkisto

Digitoi ja jakaa lehtiä, väitöskirjoja tai tietokannoja analyysiin tai sähköiseen oppimiseen.

Rahoitus- ja tilintarkastustyöt

Automaattinen poisto suurista raporttien arkistoista, raportteista ja levyistä.

Yhteiset haasteet ja ratkaisut

Haaste 1: Epäjohdonmukaiset sivujärjestelmät

Ratkaisu: Käytä AUTO-tunnistusta tai aseta eri tilat sivualueen mukaan.

Haaste 2: Erittäin suuret PDF-tiedot

Ratkaisu: Prosessi pakkauksissa; jakaa tiedostoja parempaan muistin suorituskykyyn.

Haaste 3: sekoitettu sisältö (teksti, taulukot, kuvat)

Ratkaisu: Validate ja post-prosessin tulot; tunni havainta.

suorituskyvyn huomioon ottaminen

Suuri PDF-tiedosto vaatii enemmän muistia/CPU:ta
Batch-työt aukioloaikoina parhaan suorituskyvyn saavuttamiseksi
Validoi tuonnin näytteet ennen integraatiota

Parhaat käytännöt

Käytä nimittäviä yleissopimuksia helppo seuranta
jakaa monivuotisia PDF-tiedostoja, jos tiedostot ovat hyvin suuria
Turvallinen sekä lähdekoodi että lähtöasiakirjat
Validoi ja tarkistaa tulokset kriittisissä työnkulkuissa

Edistyneet skenaariot

Käsikirjoitus 1: Export to Searchable PDF Per Page

foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
    page++;
}

Skenaario 2: Integrate tietokannan tai pilven kanssa

foreach (RecognitionResult result in results)
{
    string json = File.ReadAllText($"output_page_{page}.json");
    // Upload json or send to a cloud endpoint
}

johtopäätöksiä

Aspose.OCR for .NET mahdollistaa vakaan, mittakaavaisen tekstin ja rakenteellisten tietojen hankkimisen monisivuisista PDF-tiedostoista – säästää tunteja manuaalista ponnistelua ja parantaa työnkulun automaatiota.

Katso lisää PDF esimerkkejä käsittelystä, joita käytetään Aspose.OCR .NET API-referenssille .