Hvordan til at automatisere dataudvinding fra flere sider PDF'er med Aspose.OCR
Multi-page PDF’er fra scannere, arkiver eller virksomhedens arbejdsprocesser holder ofte store mængder uønsket tekst og tabler. Manual ekstraktion er langsom og ikke skalerbar. Aspose.OCR for .NET automatiserer ekstraktionen af tekst, tabeller og struktur fra lange, komplekse PDFs med minimal kode.
Det virkelige problem
Juridiske, finansielle og akademiske arkiver regelmæssigt behandler multi-page scannede PDF’er, der indeholder hundredvis af sider.
Oversigt over løsning
Aspose.OCR for .NET kan pakke processen og udveksle tekst/tabler fra hver side i en multi-page PDF. Du kan angive sider rang, eksportformater og automatiseret integration med forretningsapplikationer eller digitale arkiver.
Forudsætninger
- Visual Studio 2019 eller senere
- .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
- Aspose.OCR til .NET fra NuGet
- Grundlæggende C# programmeringsfærdigheder
PM> Install-Package Aspose.OCR
Step-by-Step gennemførelse
Trin 1: Installation og konfiguration af Aspose.OCR
using Aspose.OCR;
Trin 2: Tilføj flere sider PDF-filer
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14
Trin 3: Konfigurer anerkendelsesindstillinger og Page Ranges
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
Trin 4: Udveksle tekst og tabeller fra hver side
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Trin 5: Eksportresultater for hver side
int page = 1;
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.txt", SaveFormat.Text);
result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
result.Save($"output_page_{page}.json", SaveFormat.Json);
page++;
}
Trin 6: Håndtering af fejl og valideret data
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Trin 7: Optimering af store filer og batchjobs
- Processer PDF’er i mapper pr. katalog
- Brug selektiv sidebehandling for hastighed
- Overvågning af hukommelse/CPU brug
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Trin 8: Fuld eksempler
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf");
input.Add("report.pdf", 5, 10);
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
int page = 1;
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.txt", SaveFormat.Text);
result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
result.Save($"output_page_{page}.json", SaveFormat.Json);
page++;
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Brug af tilfælde og applikationer
Lovlig og overensstemmelse arkivering
Udvælg fuldt indhold af kontrakter, retsafgørelser eller statslige optegnelser for søgning og overholdelse.
Akademisk og forskningsarkiv
Digitalisere og dele tidsskrifter, afhandlinger eller datatabler til analyse eller e-learning.
Finansielle og revisionsarbejdsstrømme
Automatisk udvinding fra store rapporter arkiver, rapporter og spreadsheets.
Fælles udfordringer og løsninger
Udfordring 1: Inconsistent Page Layouts
Løsning: Brug AUTO-detektion eller indstille forskellige måder pr. sideområde.
Udfordring 2: Meget store PDF’er
Løsning: Process i batcher; splittede filer for bedre hukommelsespræstation.
Udfordring 3: Blandt indhold (tekst, tabeller, billeder)
Løsning: Validate og post-process udgang; tonedetektionsmodus.
Performance overvejelser
- Store PDF’er kræver mere hukommelse/CPU
- Batch jobs off-hours for bedste ydeevne
- Validering af udgangsmønstre før integration
Bedste praksis
- Brug navnekonventioner til let sporing
- Split multi-page PDF’er, hvis filerne er meget store
- Sikre både kilde- og outputdokumenter
- Validering og spot-check udfald i kritiske arbejdsprocesser
Avancerede scenarier
Scenario 1: Eksport til søgbare PDF per side
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
page++;
}
Scenario 2: Integration med databaser eller cloud
foreach (RecognitionResult result in results)
{
string json = File.ReadAllText($"output_page_{page}.json");
// Upload json or send to a cloud endpoint
}
Konklusion
Aspose.OCR for .NET muliggør robust, skalerbar udvinding af tekst og strukturerede data fra flersidige PDF’er - sparer timer med manuel anstrengelse og forbedrer arbejdsprocessens automatisering.
Se flere PDF- og batchbehandling eksempler i Aspose.OCR til .NET API Reference .