Kuinka automatisoida tiedonlähtö monisivuisista PDF-tiedostoista Aspose.OCR: n avulla

Kuinka automatisoida tiedonlähtö monisivuisista PDF-tiedostoista Aspose.OCR: n avulla

Monivuotiset PDF-tiedostot skannereista, arkistoista tai yritysvirroista pitävät usein valtavia määriä etsimätöntä tekstiä ja taulukoita. Manuaalinen poisto on hidasta ja mittakaavaista. Aspose.OCR for .NET automaattisesti poistaa tekstin, taulukon ja rakenteen pitkistä, monimutkaisista PDF:istä vähimmäiskoodilla.

Reaalimaailman ongelma

Lailliset, taloudelliset ja akateemiset arkistot käsittelevät säännöllisesti usean sivun skannattuja PDF-tiedostoja, jotka sisältävät satoja sivuja.

Ratkaisun yleiskatsaus

Aspose.OCR for .NET voi yhdistää prosessin ja poistaa tekstin/taulukon kunkin sivun monipuolisessa PDF-tiedostossa. voit määrittää sivujärjestelmät, vientimuodot ja automaattinen integrointi liiketoiminta-sovelluksiin tai digitaalisiin arkistoihin.

edellytykset

  • Visual Studio 2019 tai uudempi
  • .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET alkaen NuGet
  • C# -ohjelmointi taitoja
PM> Install-Package Aspose.OCR

Vaiheittainen toteutus

Vaihe 1: Asenna ja asenna Aspose.OCR

using Aspose.OCR;

Vaihe 2: Lisää monivuotisia PDF-tiedostoja

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14

Vaihe 3: Määritä tunnistusasetukset ja sivun tasot

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;

Vaihe 4: Poista teksti ja taulukot kunkin sivun

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Vaihe 5: Kunkin sivun tuonti tulokset

int page = 1;
foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.txt", SaveFormat.Text);
    result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
    result.Save($"output_page_{page}.json", SaveFormat.Json);
    page++;
}

Vaihe 6: Virheiden käsittely ja tiedon vahvistaminen

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Vaihe 7: Optimoi suuria tiedostoja ja työpaikkoja

  • PDF-tiedostojen käsittely direktiivin mukaisesti
  • Käytä valikoivaa sivun käsittelyä nopeuteen
  • Muistin ja CPU:n käyttö
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Vaihe 8: Täydellinen esimerkki

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive.pdf");
            input.Add("report.pdf", 5, 10);

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            int page = 1;
            foreach (RecognitionResult result in results)
            {
                result.Save($"output_page_{page}.txt", SaveFormat.Text);
                result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
                result.Save($"output_page_{page}.json", SaveFormat.Json);
                page++;
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Käytä tapauksia ja sovelluksia

Laillinen ja vaatimustenmukainen arkistointi

Poista täysi sisältö sopimuksista, tuomioistuimen esityksistä tai hallituksen asiakirjoista hakemiseen ja noudattamiseen.

Akateeminen ja tutkimusarkisto

Digitoi ja jakaa lehtiä, väitöskirjoja tai tietokannoja analyysiin tai sähköiseen oppimiseen.

Rahoitus- ja tilintarkastustyöt

Automaattinen poisto suurista raporttien arkistoista, raportteista ja levyistä.

Yhteiset haasteet ja ratkaisut

Haaste 1: Epäjohdonmukaiset sivujärjestelmät

** Ratkaisu:** Käytä AUTO-tunnistusta tai aseta eri tilat sivualueen mukaan.

Haaste 2: Erittäin suuret PDF-tiedot

** Ratkaisu:** Prosessi pakkauksissa; jakaa tiedostoja parempaan muistin suorituskykyyn.

Haaste 3: sekoitettu sisältö (teksti, taulukot, kuvat)

** Ratkaisu:** Validate ja post-prosessin tulot; tunni havainta.

suorituskyvyn huomioon ottaminen

  • Suuri PDF-tiedosto vaatii enemmän muistia/CPU:ta
  • Batch-työt aukioloaikoina parhaan suorituskyvyn saavuttamiseksi
  • Validoi tuonnin näytteet ennen integraatiota

Parhaat käytännöt

  • Käytä nimittäviä yleissopimuksia helppo seuranta
  • jakaa monivuotisia PDF-tiedostoja, jos tiedostot ovat hyvin suuria
  • Turvallinen sekä lähdekoodi että lähtöasiakirjat
  • Validoi ja tarkistaa tulokset kriittisissä työnkulkuissa

Edistyneet skenaariot

Käsikirjoitus 1: Export to Searchable PDF Per Page

foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
    page++;
}

Skenaario 2: Integrate tietokannan tai pilven kanssa

foreach (RecognitionResult result in results)
{
    string json = File.ReadAllText($"output_page_{page}.json");
    // Upload json or send to a cloud endpoint
}

johtopäätöksiä

Aspose.OCR for .NET mahdollistaa vakaan, mittakaavaisen tekstin ja rakenteellisten tietojen hankkimisen monisivuisista PDF-tiedostoista – säästää tunteja manuaalista ponnistelua ja parantaa työnkulun automaatiota.

Katso lisää PDF- ja pakkauksen käsittelyn esimerkkejä ASPOSE.OCR .NET API-referenssille .

 Suomi