Cum de a extrage text din PDF-uri scanate cu Aspose.OCR
Extragerea textului din fișierele PDF scanate sau bazate pe imagini utilizate pentru a necesita fluxuri de lucru complexe sau munca manuală costisitoare. cu Aspose.OCR Scaned PDF la Text pentru .NET, puteți automatiza acest proces, convertind PDF-urile în text de căutare și editabil cu doar câteva linii de cod.
Problema lumii reale
Organizațiile primesc adesea contracte, rapoarte sau arhive ca PDF-uri scanate. copierea manuală a textului sau căutarea în interiorul acestor documente este plictisitoare și eronată, încetinind conformitatea, arhivarea și proiectele de transformare digitală.
Soluție de ansamblu
Aspose.OCR pentru .NET vă permite să colectați procesul de scanare a PDF-urilor – transformându-le în text sau în PDF care pot fi căutate, făcând informațiile accesibile, indexabile și pregătite pentru fluxurile de lucru digitale.
Prevederile
Înainte de a începe, asigurați-vă că aveți:
- Visual Studio 2019 sau mai târziu
- .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
- Aspose.OCR pentru .NET de la NuGet
- Cunoașterea C#
PM> Install-Package Aspose.OCR
Implementarea pas cu pas
Pasul 1: Instalați și configurați Aspose.OCR
Adăugați pachetul NuGet și referința Aspose.OCR:
using Aspose.OCR;
Pasul 2: Adăugați fișierele PDF scanate
Creați un obiect OcrInput pentru intrarea PDF și adăugați fișierele PDF scanate.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Pasul 3: Configurați setările de recunoaștere
Configurați limba și alte setări de recunoaștere pentru a vă potrivi documentele.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Pasul 4: Începeți procesul de recunoaștere
Recunoașteți textul din PDF-urile scanate:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Pasul 5: Salvați sau exportați textul recunoscut
Exportați textul recunoscut în fișiere sau convertiți rezultatele în PDF-uri care pot fi căutate.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Pasul 6: Adăugați gestionarea erorilor
Încărcați recunoașterea într-un bloc de încercare / capturare pentru robustitate.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Pasul 7: Optimizarea pentru PDF-uri mari sau multi pagini
- Procesarea PDF-urilor pe pagină pentru fișierele mari
- Utilizați scanuri de înaltă calitate pentru cele mai bune rezultate
- Procesul de batch în paralel pentru colecții mari
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Pasul 8: Exemplu complet de lucru
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Folosește cazuri și aplicații
Arhivă digitală
Convertați întregi biblioteci de documente scanate în fișiere căutate, indexabile pentru conformitate și managementul cunoștințelor.
Administrarea legală și contractuală
Extrage clauzele contractuale sau termenii din PDF-uri pentru revizuire, automatizare sau semnare digitală.
Căutarea documentelor Streamlined
Permite căutarea rapidă a textului complet în arhive, baze de cunoștințe sau fișiere de caz.
Provocări și soluții comune
Provocare 1: Scanuri de calitate scăzută sau scadente
Soluție: Utilizați filtre preprocesante și scanări de înaltă calitate ori de câte ori este posibil.
Sfârșitul 2: PDF-uri în mai multe limbi
Soluție: Setarea limbii în setările de recunoaștere sau procesul cu mai multe opțiuni lingvistice.
Sfârșitul 3: fișiere PDF foarte mari
Soluție: Procesarea în batch sau pe pagină și monitorizarea utilizării memorii.
Considerații de performanță
- Utilizați un DPI optim (300+) pentru PDF-urile scanate
- Procesul de batch pentru cea mai bună transmisie
- Dispunerea obiectelor OCR și a manevrelor de fișiere închise
Cele mai bune practici
- Validați rezultatul OCR înainte de automatizare ulterioară
- Organizarea și backup-ul fișierelor PDF originale
- Utilizați SaveFormat corect pentru fluxul de lucru
- Actualizarea regulată a Aspose.OCR pentru noile caracteristici PDF
Scenarii avansate
Scenariul 1: Extrageți doar pagini specifice dintr-un PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scenariul 2: Exportarea în mai multe formate
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
concluziile
Aspose.OCR pentru .NET vă permite să convertiți PDF-urile scanate în fișiere de text și de căutare – eliminând intrarea manuală și făcând informațiile accesibile întregii organizații.
Pentru mai multe detalii și exemple, vedeți Aspose.OCR pentru .NET API Referință .