Hvordan til at udveksle tekst fra scannede PDF'er med Aspose.OCR
Ekstrakter tekst fra scannede eller billedbaserede PDF-filer, der bruges til at kræve komplekse arbejdsprocesser eller dyre håndarbejde. Med Aspose.OCR Scanned PDF til Text for .NET, kan du automatisere denne proces, konvertere PDF’er til søgbare og redigerbare tekst med kun få linjer af kode.
Det virkelige problem
Organisationer modtager ofte kontrakter, rapporter eller arkiver som scannede PDF’er. Manuel kopiering af tekst eller søgning inde i disse dokumenter er kedeligt og fejlfarligt, hvilket sænker overensstemmelse, archivering og digitale transformationsprojekter.
Oversigt over løsning
Aspose.OCR for .NET giver dig mulighed for at pakke scannede PDF’er - omdanne dem til tekst eller søgbare PDF-er, hvilket gør informationen tilgængelig, indexbar og klar til digitale arbejdsprocesser.
Forudsætninger
Før du starter, sørg for at du har:
- Visual Studio 2019 eller senere
- .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
- Aspose.OCR til .NET fra NuGet
- Grundlæggende C# viden
PM> Install-Package Aspose.OCR
Step-by-Step gennemførelse
Trin 1: Installation og konfiguration af Aspose.OCR
Tilføj NuGet pakke og reference Aspose.OCR:
using Aspose.OCR;
Trin 2: Tilføj dine scannede PDF-filer
Skab et OcrInput-objekt for PDF-indtægter og tilføje dine scannede pdf-filer.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Trin 3: Konfigurer genkendelsesindstillinger
Konfigurer sprog og andre genkendelsesindstillinger til at passe dine dokumenter.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Trin 4: Gennemfør anerkendelsesprocessen
Du kan genkende tekst fra dine scannede PDF’er:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Trin 5: Spare eller eksportere anerkendt tekst
Eksporter den anerkendte tekst til filer, eller konvertere resultaterne til søgbare PDF’er.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Trin 6: Tilføj fejlbehandling
Wrap genkendelse i en try/catch blok for robusthed.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Trin 7: Optimerer for store eller flere sider PDF’er
- Processer PDFs side efter side for store filer
- Brug kvalitetsskanning til de bedste resultater
- Batch-processen parallelt til store samlinger
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Trin 8: Fuldt arbejde eksempler
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Brug af tilfælde og applikationer
Digital arkivering
Konverter hele biblioteker af scannede dokumenter til søgbare, indekserbare filer for overholdelse og videnforvaltning.
Juridisk og kontraktstyring
Udvælg kontraktklausuler eller betingelser fra PDF’er til gennemgang, automatisering eller digital underskrift.
Streamlined dokument søgning
Muliggør hurtig fuldtekst søgning i arkiver, videnbaser eller case-filer.
Fælles udfordringer og løsninger
Udfordring 1: Lav kvalitet eller nedskærkede scanninger
Løsning: Brug forarbejdningsfiltre og skanning af høj kvalitet, hvor det er muligt.
Udfordring 2: Flersprogede PDF’er
Løsning: Indstill sproget i genkendelsesindstillinger eller processer med flere sprogmuligheder.
Udfordring 3: Meget store PDF-filer
Løsning: Processer i pakker eller per side, og overvåger hukommelsessystemet.
Performance overvejelser
- Brug optimal DPI (300+) til scannede PDF’er
- Batch-processen til den bedste gennemgang
- OCR-objekter og lukkede filhåndteringer
Bedste praksis
- Validerer OCR-udledning før yderligere automatisering
- Organiser og backup originale PDF-filer
- Brug den korrekte SaveFormat til din arbejdsproces
- Regelmæssigt opdaterer Aspose.OCR til nye PDF-funktioner
Avancerede scenarier
Scenario 1: Ekstrakter kun specifikke sider fra en PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scenario 2: Eksport til flere formater
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Konklusion
Aspose.OCR for .NET giver dig mulighed for at konvertere scannede PDF’er til aktiverbare tekst og søgbare filer - eliminere manuelle indtægter og gøre oplysninger tilgængelige for hele din organisation.
For flere detaljer og eksempler, se Aspose.OCR til .NET API Reference .