Hur man extraherar text från skannade PDF-filer med Aspose.OCR
Extrahera text från skannade eller bildbaserade PDF-filer som används för att kräva komplexa arbetsflöden eller dyrt manuellt arbete. Med Aspose.OCR Scanned PDF till Text för .NET kan du automatisera denna process, konvertera PDFs till sökbar och redigerbar text med bara några rader kod.
Realvärldsproblem
Organisationer får ofta avtal, rapporter eller arkiv som skannade PDF-filer. Manuellt kopiera text eller söka inuti dessa dokument är tråkigt och felaktigt, saktar efterlevnad, arkivering och digitala omvandlingsprojekt.
Översikt över lösningen
Aspose.OCR för .NET låter dig packa processen skannade PDF-filer – konvertera dem till text eller sökbara PDF, vilket gör informationen tillgänglig, indexbar och redo för digitala arbetsflöden.
förutsättningar
Innan du börjar, se till att du har:
- Visual Studio 2019 eller senare
- .NET 6.0 eller senare (eller .Net Framework 4.6.2+)
- Aspose.OCR för .NET från NuGet
- Grundläggande C# kunskap
PM> Install-Package Aspose.OCR
Steg för steg genomförande
Steg 1: Installera och konfigurera Aspose.OCR
Lägg till NuGet-paketet och referens Aspose.OCR:
using Aspose.OCR;
Steg 2: Lägg till dina skannade PDF-filer
Skapa ett OcrInput-objekt för PDF-inträde och lägg till dina skannade pdf-filer.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Steg 3: Konfigurera identifieringsinställningar
Konfigurera språk och andra erkännandeinställningar för att passa dina dokument.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Steg 4: Kör erkännandeprocessen
Upptäck text från dina skannade PDF-filer:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Steg 5: Spara eller exportera erkänd text
Exportera den erkända texten till filer eller konvertera resultaten till sökbara PDF-filer.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Steg 6: Lägg till felhantering
Wrap erkännande i en try/catch block för robusthet.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Steg 7: Optimera för stora eller flersidiga PDF-filer
- Processera PDFs sida per sida för stora filer
- Använd högkvalitativa skanningar för bästa resultat
- Batchprocessen parallellt för stora samlingar
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Steg 8: Komplett arbetsexempel
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Använd fall och applikationer
Digital arkivering
Konvertera hela bibliotek av skannade dokument till sökbara, indexbara filer för överensstämmelse och kunskapshantering.
Rättslig och kontrakthantering
Extract avtalsklausuler eller villkor från PDF-filer för granskning, automatisering eller digital signatur.
Streamlined dokument sökning
Tillåta snabb fulltext sökning i arkiv, kunskapsbaser eller fallfiler.
Gemensamma utmaningar och lösningar
Utmaning 1: Lågkvalitet eller nedsatt skanning
Lösning: Använd förbearbetningsfilter och högkvalitativa skanningar där det är möjligt.
Utmaning 2: Flerspråkiga PDF-filer
Lösning: Ställ in språket i erkännandeinställningar eller processer med flera språkalternativ.
Utmaning 3: Mycket stora PDF-filer
Lösning: Process i batch eller per sida, och övervaka användningen av minnet.
Prestanda överväganden
- Använd optimal DPI (300+) för skannade PDF-filer
- Batchprocess för bästa genomgång
- Tillhandahålla OCR-objekt och långa filhandlar
Bästa praxis
- Validerar OCR-utgången före ytterligare automatisering
- Organisera och säkerhetskopiera original PDF-filer
- Använd rätt SaveFormat för din arbetsflöde
- Regelbunden uppdatering av Aspose.OCR för nya PDF-funktioner
Avancerade scenarier
Scenario 1: Extract Only Specific Pages from a PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scenario 2: Export till flera format
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
slutsatser
Aspose.OCR för .NET låter dig konvertera skannade PDF-filer till aktiverbara text- och sökbara filer – eliminerar manuell inmatning och gör information tillgänglig för hela organisationen.
För mer detaljer och exempel, se Aspose.OCR för .NET API Referens .