Kuinka automatisoida tiedonlähtö monisivuisista PDF-tiedostoista Aspose.OCR: n avulla
Monivuotiset PDF-tiedostot skannereista, arkistoista tai yritysvirroista pitävät usein valtavia määriä etsimätöntä tekstiä ja taulukoita. Manuaalinen poisto on hidasta ja mittakaavaista. Aspose.OCR for .NET automaattisesti poistaa tekstin, taulukon ja rakenteen pitkistä, monimutkaisista PDF:istä vähimmäiskoodilla.
Reaalimaailman ongelma
Lailliset, taloudelliset ja akateemiset arkistot käsittelevät säännöllisesti usean sivun skannattuja PDF-tiedostoja, jotka sisältävät satoja sivuja.
Ratkaisun yleiskatsaus
Aspose.OCR for .NET voi yhdistää prosessin ja poistaa tekstin/taulukon kunkin sivun monipuolisessa PDF-tiedostossa. voit määrittää sivujärjestelmät, vientimuodot ja automaattinen integrointi liiketoiminta-sovelluksiin tai digitaalisiin arkistoihin.
edellytykset
- Visual Studio 2019 tai uudempi
- .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET alkaen NuGet
- C# -ohjelmointi taitoja
PM> Install-Package Aspose.OCR
Vaiheittainen toteutus
Vaihe 1: Asenna ja asenna Aspose.OCR
using Aspose.OCR;
Vaihe 2: Lisää monivuotisia PDF-tiedostoja
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14
Vaihe 3: Määritä tunnistusasetukset ja sivun tasot
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
Vaihe 4: Poista teksti ja taulukot kunkin sivun
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Vaihe 5: Kunkin sivun tuonti tulokset
int page = 1;
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.txt", SaveFormat.Text);
result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
result.Save($"output_page_{page}.json", SaveFormat.Json);
page++;
}
Vaihe 6: Virheiden käsittely ja tiedon vahvistaminen
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Vaihe 7: Optimoi suuria tiedostoja ja työpaikkoja
- PDF-tiedostojen käsittely direktiivin mukaisesti
- Käytä valikoivaa sivun käsittelyä nopeuteen
- Muistin ja CPU:n käyttö
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Vaihe 8: Täydellinen esimerkki
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf");
input.Add("report.pdf", 5, 10);
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
int page = 1;
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.txt", SaveFormat.Text);
result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
result.Save($"output_page_{page}.json", SaveFormat.Json);
page++;
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Käytä tapauksia ja sovelluksia
Laillinen ja vaatimustenmukainen arkistointi
Poista täysi sisältö sopimuksista, tuomioistuimen esityksistä tai hallituksen asiakirjoista hakemiseen ja noudattamiseen.
Akateeminen ja tutkimusarkisto
Digitoi ja jakaa lehtiä, väitöskirjoja tai tietokannoja analyysiin tai sähköiseen oppimiseen.
Rahoitus- ja tilintarkastustyöt
Automaattinen poisto suurista raporttien arkistoista, raportteista ja levyistä.
Yhteiset haasteet ja ratkaisut
Haaste 1: Epäjohdonmukaiset sivujärjestelmät
** Ratkaisu:** Käytä AUTO-tunnistusta tai aseta eri tilat sivualueen mukaan.
Haaste 2: Erittäin suuret PDF-tiedot
** Ratkaisu:** Prosessi pakkauksissa; jakaa tiedostoja parempaan muistin suorituskykyyn.
Haaste 3: sekoitettu sisältö (teksti, taulukot, kuvat)
** Ratkaisu:** Validate ja post-prosessin tulot; tunni havainta.
suorituskyvyn huomioon ottaminen
- Suuri PDF-tiedosto vaatii enemmän muistia/CPU:ta
- Batch-työt aukioloaikoina parhaan suorituskyvyn saavuttamiseksi
- Validoi tuonnin näytteet ennen integraatiota
Parhaat käytännöt
- Käytä nimittäviä yleissopimuksia helppo seuranta
- jakaa monivuotisia PDF-tiedostoja, jos tiedostot ovat hyvin suuria
- Turvallinen sekä lähdekoodi että lähtöasiakirjat
- Validoi ja tarkistaa tulokset kriittisissä työnkulkuissa
Edistyneet skenaariot
Käsikirjoitus 1: Export to Searchable PDF Per Page
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
page++;
}
Skenaario 2: Integrate tietokannan tai pilven kanssa
foreach (RecognitionResult result in results)
{
string json = File.ReadAllText($"output_page_{page}.json");
// Upload json or send to a cloud endpoint
}
johtopäätöksiä
Aspose.OCR for .NET mahdollistaa vakaan, mittakaavaisen tekstin ja rakenteellisten tietojen hankkimisen monisivuisista PDF-tiedostoista – säästää tunteja manuaalista ponnistelua ja parantaa työnkulun automaatiota.
Katso lisää PDF- ja pakkauksen käsittelyn esimerkkejä ASPOSE.OCR .NET API-referenssille .