Hvordan ta ut tekst fra skannede PDF-er med Aspose.OCR
Ekstraktering av tekst fra skannede eller bildebaserte PDF-filer som brukes til å kreve komplekse arbeidsflyter eller dyre manuelle arbeid. Med Aspose.OCR Scanned PDF til Text for .NET, kan du automatisere denne prosessen, konvertere PDFs til søkbar og redigerbar tekst med bare noen få linjer av kode.
Real-verdens problem
Organisasjoner mottar ofte kontrakter, rapporter eller arkiver som skannede PDF-er. Å manuelt kopiere tekst eller søke inne i disse dokumentene er trist og feilaktig, reduserer overholdelse, arkivere og digitale transformasjonsprosjekter.
Oversikt over løsning
Aspose.OCR for .NET lar deg batch prosess skannede PDF-er – konvertere dem til tekst eller søkbare PDF, gjøre informasjon tilgjengelig, indeksert og klar for digitale arbeidsflyter.
Prerequisites
Før du begynner, sørg for at du har:
- Visual Studio 2019 eller senere
- .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
- Aspose.OCR for .NET fra NuGet
- grunnleggende C# kunnskap
PM> Install-Package Aspose.OCR
Step-by-step implementering
Steg 1: Installere og konfigurere Aspose.OCR
Legg til NuGet-pakken og referansen Aspose.OCR:
using Aspose.OCR;
Steg 2: Legg til dine skannede PDF-filer
Skap et OcrInput-objekt for PDF-innføring og legg til skannede pdf-filer.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Trinn 3: Konfigurere gjenkjenningsinnstillinger
Konfigurer språk og andre gjenkjenningsinnstillinger for å passe dokumentene dine.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Steg 4: Utfør anerkjennelsesprosessen
Oppdag tekst fra dine skannede PDF-er:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Steg 5: Lagre eller eksportere gjenkjent tekst
Eksporter den gjenkjente teksten til filer, eller konvertere resultatene til søkbare PDF-er.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Steg 6: Legg til feil håndtering
Vrap gjenkjenning i en try/catch blokke for robusthet.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Steg 7: Optimalisere for store eller flersidige PDF-er
- Behandle PDFs side etter side for store filer
- Bruk kvalitetsskanning for beste resultater
- Batch-prosessen i parallell for store samlinger
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Steg 8: Komplett arbeidsmønster
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Bruker tilfeller og applikasjoner
Digital arkivering
Konverter hele biblioteker av skannede dokumenter til søkbare, indeksbare filer for overholdelse og kunnskapshåndtering.
Juridisk og kontraktsstyring
Utveksle kontraktsvilkår eller vilkår fra PDF-er for gjennomgang, automatisering eller digital signering.
Streamlined dokument søk
Muliggjøre rask fulltekst søk i arkiver, kunnskapsbaser, eller case-filer.
Vanlige utfordringer og løsninger
Utfordring 1: lav kvalitet eller nedsatt skanning
Løsning: Bruk forhåndsbehandlingsfiltre og høykvalitetsskanninger hvor det er mulig.
Utfordring 2: Flerspråklige PDF-er
Løsning: Sett språket i gjenkjenningsinnstillinger eller prosesser med flere språkalternativer.
Utfordring 3: Veldig store PDF-filer
Løsning: Prosess i pakker eller per side, og overvåking av minnesbruk.
Performance vurderinger
- Bruk optimal DPI (300+) for skannede PDF-er
- Batch-prosessen for best gjennomgang
- Oppsett OCR-objekter og lukkede filhåndteringer
Beste praksis
- Validerer OCR-utgaven før videre automatisering
- Organiser og sikkerhetskopier originale PDF-filer
- Bruk riktig SaveFormat for arbeidsflyten din
- Regelmessig oppdatering av Aspose.OCR for nye PDF-funksjoner
Avanserte scenarier
Scenario 1: Utveksle kun spesifikke sider fra en PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scenario 2: Eksport til flere formater
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Conclusion
Aspose.OCR for .NET lar deg konvertere skannede PDF-er til aktiverbare tekst og søkbare filer – eliminerer manuell innføring og gjør informasjon tilgjengelig for hele organisasjonen.
For mer detaljer og eksempler, se Aspose.OCR for .NET API Referanse .