Cómo extraer texto de PDFs escaneados con Aspose.OCR
Extracción de texto de archivos de PDF escaneados o basados en imágenes que se utilizan para requerir flujos de trabajo complejos o trabajo manual caro. con Aspose.OCR Escaneado PDF para texto para .NET, se puede automatizar este proceso, convirtiendo los PDF en texto buscable y editable con sólo unas pocas líneas de código.
Problemas del mundo real
Las organizaciones a menudo reciben contratos, informes o archivos como PDFs escaneados. copiar manualmente el texto o buscar dentro de estos documentos es tedioso y erróneo, retrasando el cumplimiento, el archivo y los proyectos de transformación digital.
Revisión de Soluciones
Aspose.OCR para .NET le permite procesar los PDFs escaneados – transformándolos en texto o en pdfs buscables, haciendo que la información sea accesible, indexable y listo para los flujos de trabajo digitales.
Prerequisitos
Antes de comenzar, asegúrese de tener:
- Visual Studio 2019 o más tarde
- .NET 6.0 o posterior (o .Net Framework 4.6.2+)
- Aspose.OCR para .NET de NuGet
- Conocimiento básico C#
PM> Install-Package Aspose.OCR
Implementación paso a paso
Paso 1: Instalar y configurar Aspose.OCR
Añade el paquete NuGet y referencia Aspose.OCR:
using Aspose.OCR;
Paso 2: Añadir sus archivos PDF escaneados
Crea un objeto OcrInput para la entrada de PDF y añade sus archivos PDF escaneados.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Paso 3: Configure las configuraciones de reconocimiento
Configure el idioma y otras configuraciones de reconocimiento para adaptarse a sus documentos.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Paso 4: Ejecutar el proceso de reconocimiento
Reconocer el texto de sus PDFs escaneados:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Paso 5: Salva o exporta texto reconocido
Exportar el texto reconocido a archivos, o convertir los resultados en PDFs buscables.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Paso 6: Agregar el tratamiento de errores
Reconoce en un bloque de intento/catch para la robustez.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Paso 7: Optimizar para PDFs grandes o múltiples páginas
- Procesar PDFs página por página para archivos enormes
- Utilice escaneos de alta calidad para obtener mejores resultados
- Proceso de batch en paralelo para grandes colecciones
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Paso 8: Ejemplo de trabajo completo
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Usar Casos y Aplicaciones
Archivo Digital
Convertir bibliotecas enteras de documentos escaneados en archivos buscables, indexables para el cumplimiento y la gestión del conocimiento.
Gestión jurídica y contractual
Extraer cláusulas de contrato o términos de PDFs para revisión, automatización o firma digital.
Busca de Documentos Streamlined
Permite una rápida búsqueda de texto completo en archivos, bases de conocimientos o ficheros de caso.
Desafíos y soluciones comunes
Desafío 1: Escaneos de baja calidad o descuidados
Solución: Utilice filtros preprocesados y escaneos de alta calidad donde sea posible.
Desafío 2: PDFs de múltiples idiomas
Solución: Configure el idioma en la configuración de reconocimiento o proceso con varias opciones de lenguaje.
Desafío 3: archivos PDF muy grandes
Solución: Proceso en batches o por página, y monitorización del uso de la memoria.
Consideraciones de rendimiento
- Utilice un DPI óptimo (300+) para los PDF escaneados
- Proceso de batch para el mejor paso
- Dispone de objetos OCR y archivos cerrados
Mejores Prácticas
- Validar el rendimiento de OCR antes de la automatización
- Organización y copia de archivos PDF originales
- Utilice el SaveFormat correcto para su flujo de trabajo
- Actualizar regularmente Aspose.OCR para nuevas características de PDF
Escenarios avanzados
Escenario 1: Extraer solo páginas específicas de un PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Escenario 2: Exportación a varios formatos
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Conclusión
Aspose.OCR para .NET le permite convertir PDFs escaneados en textos e archivos activables y buscables, eliminando la entrada manual y haciendo que la información sea accesible a toda su organización.
Para más detalles y ejemplos, ver el Aspose.OCR para .NET API Referencia .