Hvordan til at udveksle tekst fra scannede PDF'er i .NET ved hjælp af Aspose.OCR
Scannede PDF’er er ofte udfordrende at arbejde med, fordi de i væsentlig grad kun er billeder af tekst. Konvertering af disse billeder til søgbare, redigerbare tekstdokumenter åbner en verden af muligheder for dokumentstyring og indholdstilgængelighed. Med Aspose.OCR for .NET, kan du konvertere scannede pdf-er til fuldt søgbare dokumenter mens du bevarer de oprindelige billeder.
Hvorfor OCR (Optical Character Recognition) er vigtigt for scannede PDF’er
Dataudvinding:- OCR giver dig mulighed for at konvertere scannet tekst til maskinlæsbare data, som kan redigeres og indekseres.
Søgbarhed og søgning:- Ved at konvertere scannede PDF’er til søgbare dokumenter kan du hurtigt finde relevante oplysninger uden manuelt at søge gennem sider.
Forbedret produktivitet:- Spar tid ved at automatisere konvertering af scannede dokumenter til redigerbare formater som Word eller Excel.
Forudsætninger: Indstillinger for scannede PDF-tekstekstraktion
Før du begynder at udveksle tekst fra dine scannede PDF’er, skal du sørge for, at følgende trin er fuldstændige:
Installere Aspose.OCR til .NET:- Tilføj Aspose.OCR til dit projekt ved hjælp af NuGet:
dotnet add package Aspose.OCR
Få en målt licens:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Forbered dine scannede PDF’er:- Sørg for, at dine scannede PDF’er er af høj kvalitet. Bedre kvalitetsresultater i mere nøjagtig OCR.
Step-by-Step Guide: Udvinding af tekst fra scannede PDF’er
Trin 1: Installation af den nødvendige bibliotek
Start ved at installere Aspose.OCR for .NET i dit projekt. Du kan gøre dette direkte fra NuGet.
dotnet add package Aspose.OCR
Trin 2: Indstill dine licensnøgler
Før du går videre, skal du konfigurere din licens til Aspose.OCR for at lukke alle funktioner.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Trin 3: Lade den scannede PDF til OCR Input Object
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Trin 4: Behandle den scannede PDF ved hjælp af OCR-motoren
Med PDF’en ladet, send den til Aspose OCR-motoren for genkendelse.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Trin 5: Vælg den anerkendte tekst eller gem den
Når OCR-motoren behandler PDF’en, kan du enten udføre den anerkendte tekst direkte eller gemme den til en fil.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Trin 6: Test og optimere OCR-resultater
Efter at have udvundet teksten, skal du teste udgangen for nøjagtighed. Hvis det er nødvendigt, kan du tweak OCR-indstillingerne for at forbedre resultaterne for forskellige dokumentarrangementer.
Vanlige problemer og fixer
1. dårlig OCR nøjagtighed
- Løsning: Sørg for, at den scannede PDF-kvalitet er høj. Brug skanninger med høj opløsning for at forbedre genkendelse nøjagtighed.
2.Utstøttede Fonts
- Løsning: Giv den korrekte sprogindstilling i OCR-mulighederne for at forbedre genkendelsen for ikke-latin karakterer.
3. langsom præstation
- Løsning: Skære PDF’en i mindre stykker eller sider for hurtigere behandling, især for store dokumenter.