Cómo extraer texto de PDFs escaneados en .NET con Aspose.OCR
Convertir estas imágenes en documentos de texto buscables y editables abre un mundo de posibilidades para la gestión de documentos y la accesibilidad de contenidos. Aspose.OCR para .NET, puede convertir los PDF escaneados en documentos totalmente buscables mientras conserva las imágenes originales.
¿Por qué el OCR (Recogno de Carácter Optico) es Importante para los PDF Scanned?
Extracción de datos:- OCR le permite convertir el texto escaneado en datos que se pueden leer por máquina, que se pueden editar e indexar.
La capacidad de búsqueda:- Convertiendo PDFs escaneados en documentos buscables, puede encontrar rápidamente la información relevante sin buscar manualmente a través de las páginas.
Mejora de la productividad:- Salva tiempo automatizando la conversión de los documentos escaneados en formatos editables como Word o Excel.
Prerequisitos: Configuración para la extracción de texto de PDF escaneo
Antes de comenzar a extraer texto de sus PDFs escaneados, asegúrese de que los siguientes pasos son completos:
Instalar Aspose.OCR para .NET:- Añadir Aspose.OCR a su proyecto utilizando NuGet:
dotnet add package Aspose.OCR
Obtener una Licencia Metrada:- Configure su licencia medida para desbloquear todas las características de la biblioteca Aspose.OCR utilizando
SetMeteredKey()
.Repara tus PDFs escaneados:- Asegúrese de que sus PDFs escaneados son de alta calidad. mejores resultados de calidad en OCR más preciso.
Guía paso a paso: Extracción de texto de PDFs escaneados
Paso 1: Instalar la biblioteca necesaria
Comience instalando Aspose.OCR para .NET en su proyecto. puede hacerlo directamente desde NuGet.
dotnet add package Aspose.OCR
Paso 2: Configurar las claves de licencia
Antes de proceder, configure su licencia para Aspose.OCR para desbloquear todas las características.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Paso 3: Cargar el PDF escaneado en el objeto de entrada OCR
Usted tendrá que cargar el PDF escaneado en el OcrInput
Objeto. Aspose.OCR soporta el escaneo de múltiples páginas de un PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Paso 4: Procesar el PDF escaneado con el motor OCR
Con el PDF cargado, pasa al motor Aspose OCR para el reconocimiento.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Paso 5: Descargar el texto reconocido o salvarlo
Una vez que el motor de OCR procesa el PDF, puede ya exportar el texto reconocido directamente o guardarlo en un archivo.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Paso 6: Testar y optimizar los resultados de la OCR
Después de extraer el texto, prueba la salida para la precisión. si es necesario, puede tweak las configuraciones de OCR para mejorar los resultados para diferentes diseños de documentos.
Problemas y soluciones comunes
La precisión de la OCR
- Solución: Asegúrese de que la calidad de PDF escaneado es alta.Utilizar escaneos de alta resolución para mejorar la precisión del reconocimiento.
2 Fontes sin soporte
- Solución: proporcionar la configuración correcta del idioma en las opciones de OCR para mejorar el reconocimiento de los caracteres no latinos.
3 El desempeño lento
- Solución: romper el PDF en piezas o páginas más pequeñas para un procesamiento más rápido, especialmente para documentos grandes.