Cómo extraer texto de PDFs escaneados con Aspose.OCR

Cómo extraer texto de PDFs escaneados con Aspose.OCR

Extracción de texto de archivos de PDF escaneados o basados en imágenes que se utilizan para requerir flujos de trabajo complejos o trabajo manual caro. con Aspose.OCR Escaneado PDF para texto para .NET, se puede automatizar este proceso, convirtiendo los PDF en texto buscable y editable con sólo unas pocas líneas de código.

Problemas del mundo real

Las organizaciones a menudo reciben contratos, informes o archivos como PDFs escaneados. copiar manualmente el texto o buscar dentro de estos documentos es tedioso y erróneo, retrasando el cumplimiento, el archivo y los proyectos de transformación digital.

Revisión de Soluciones

Aspose.OCR para .NET le permite procesar los PDFs escaneados – transformándolos en texto o en pdfs buscables, haciendo que la información sea accesible, indexable y listo para los flujos de trabajo digitales.

Prerequisitos

Antes de comenzar, asegúrese de tener:

  • Visual Studio 2019 o más tarde
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR para .NET de NuGet
  • Conocimiento básico C#
PM> Install-Package Aspose.OCR

Implementación paso a paso

Paso 1: Instalar y configurar Aspose.OCR

Añade el paquete NuGet y referencia Aspose.OCR:

using Aspose.OCR;

Paso 2: Añadir sus archivos PDF escaneados

Crea un objeto OcrInput para la entrada de PDF y añade sus archivos PDF escaneados.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Paso 3: Configure las configuraciones de reconocimiento

Configure el idioma y otras configuraciones de reconocimiento para adaptarse a sus documentos.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Paso 4: Ejecutar el proceso de reconocimiento

Reconocer el texto de sus PDFs escaneados:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Paso 5: Salva o exporta texto reconocido

Exportar el texto reconocido a archivos, o convertir los resultados en PDFs buscables.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Paso 6: Agregar el tratamiento de errores

Reconoce en un bloque de intento/catch para la robustez.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Paso 7: Optimizar para PDFs grandes o múltiples páginas

  • Procesar PDFs página por página para archivos enormes
  • Utilice escaneos de alta calidad para obtener mejores resultados
  • Proceso de batch en paralelo para grandes colecciones
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Paso 8: Ejemplo de trabajo completo

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Usar Casos y Aplicaciones

Archivo Digital

Convertir bibliotecas enteras de documentos escaneados en archivos buscables, indexables para el cumplimiento y la gestión del conocimiento.

Gestión jurídica y contractual

Extraer cláusulas de contrato o términos de PDFs para revisión, automatización o firma digital.

Busca de Documentos Streamlined

Permite una rápida búsqueda de texto completo en archivos, bases de conocimientos o ficheros de caso.

Desafíos y soluciones comunes

Desafío 1: Escaneos de baja calidad o descuidados

Solución: Utilice filtros preprocesados y escaneos de alta calidad donde sea posible.

Desafío 2: PDFs de múltiples idiomas

Solución: Configure el idioma en la configuración de reconocimiento o proceso con varias opciones de lenguaje.

Desafío 3: archivos PDF muy grandes

Solución: Proceso en batches o por página, y monitorización del uso de la memoria.

Consideraciones de rendimiento

  • Utilice un DPI óptimo (300+) para los PDF escaneados
  • Proceso de batch para el mejor paso
  • Dispone de objetos OCR y archivos cerrados

Mejores Prácticas

  • Validar el rendimiento de OCR antes de la automatización
  • Organización y copia de archivos PDF originales
  • Utilice el SaveFormat correcto para su flujo de trabajo
  • Actualizar regularmente Aspose.OCR para nuevas características de PDF

Escenarios avanzados

Escenario 1: Extraer solo páginas específicas de un PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Escenario 2: Exportación a varios formatos

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusión

Aspose.OCR para .NET le permite convertir PDFs escaneados en textos e archivos activables y buscables, eliminando la entrada manual y haciendo que la información sea accesible a toda su organización.

Para más detalles y ejemplos, ver el Aspose.OCR para .NET API Referencia .

 Español