Com extreure text de PDFs escanats amb Aspose.OCR

Com extreure text de PDFs escanats amb Aspose.OCR

L’extracció de text de fitxers PDF escanats o d’imatge utilitzats per requerir fluxos de treball complexos o treball manual costós. amb Aspose.OCR Escanat PDF a Text per .NET, es pot automatitzar aquest procés, convertint PDFs en text buscable i editable amb només unes poques línies de codi.

El problema del món real

Les organitzacions sovint reben contractes, informes o arxius com a PDFs escanats. copiar manualment el text o cercar dins d’aquests documents és tediós i per error, retardant el compliment, l’arxiu i els projectes de transformació digital.

Revisió de solucions

Aspose.OCR per a .NET li permet batx processar els PDFs escanats – convertint-los en text o pdfs buscables, fent que la informació sigui accessible, indexable i preparada per als fluxos de treball digitals.

Prerequisits

Abans de començar, assegureu-vos que teniu:

  • Visual Studio 2019 o posterior
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR per a .NET des de NuGet
  • C# coneixements bàsics
PM> Install-Package Aspose.OCR

Implementació de pas a pas

Pas 1: Instal·la i configura Aspose.OCR

Afegir el paquet de NuGet i referència Aspose.OCR:

using Aspose.OCR;

Pas 2: Afegir els seus arxius PDF escanats

Crear un objecte OcrInput per a la entrada de PDF i afegir els seus arxius PDF escanats.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Pas 3: Configureu la configuració de reconeixement

Configureu el llenguatge i altres configuracions de reconeixement per a ajustar els vostres documents.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Pas 4: Feu el procés de reconeixement

Reconeix el text dels teus PDFs escanats:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Pas 5: Salvar o exportar text reconegut

Exportar el text reconegut en arxius, o convertir els resultats en PDFs buscables.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Pas 6: Afegir el tractament d’errors

El reconeixement d’un bloc de prova/catx per a la robustesa.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pas 7: Optimitzar per a PDFs grans o múltiples pàgines

  • Processar PDFs per pàgina per a arxius enormes
  • Utilitza escans d’alta qualitat per obtenir els millors resultats
  • Processos de batxillerat en paral·lel per a grans col·leccions
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Pas 8: Exemple de treball complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilitzar casos i aplicacions

Arxiu digital

Convertir tota la biblioteca de documents escanats en arxius buscables i indexables per a la conformitat i la gestió del coneixement.

Gestió legal i contractual

Extreure les clàusules de contracte o termes de PDFs per a la revisió, l’automatització o la signatura digital.

Busca de document Streamlined

Permet la cerca ràpida de text complet en arxius, bases de coneixements o fitxers de cas.

Els reptes i les solucions comunes

Títol 1: Escans de baixa qualitat o escanejats

Solució: Utilitza filtres pre-processadors i escans d’alta qualitat quan sigui possible.

Challenge 2: PDFs de múltiples llengües

Solució: Configura el llenguatge en la configuració de reconeixement o el procés amb múltiples opcions lingüístiques.

Títol 3: Arxius PDF molt grans

** Solució: ** Processar en batxes o per pàgina, i monitoritzar l’ús de la memòria.

Consideracions de rendiment

  • Utilitzar un DPI òptim (300+) per a PDFs escanats
  • Processos de batxillerat per a la millor transmissió
  • Disposa d’objectes OCR i arxius tancats

Les millors pràctiques

  • Valida la producció de l’OCR abans d’una altra automatització
  • Organitzar i guardar els arxius PDF originals
  • Utilitzeu el correcte SaveFormat per al vostre flux de treball
  • Actualitza amb regularitat Aspose.OCR per a noves característiques PDF

Escenaris avançats

Escenari 1: Extreure només pàgines específiques d’un PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Escenari 2: Exportació a múltiples formats

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusió

Aspose.OCR per a .NET li permet convertir els PDFs escanats en fitxers de text i de cerca executables, eliminant la entrada manual i fent que la informació sigui accessible a tota la seva organització.

Per a més detalls i exemples, vegeu el Aspose.OCR per a .NET API Referència .

 Català