Extractor de texto Plugin para Aspose.PDF
El Aspose.PDF Text Extractor Plugin para .NET permite a los desarrolladores extraer contenido de texto - estructurado, plano o así- de archivos PDF. Con tres modos de extracción, es ideal para la conversión de documentos, minería de datos, mejoras de accesibilidad, y más.
ltimos artículos
Aspose.PDF Extractor de texto Plugin Funciones clave
Múltiples modos de extracciónExtrae el texto como puro (formado), crudo (as-is) o plano (puro) para la máxima flexibilidad.
Batch PDF ProcesamientoAñade varios PDFs para extracción simultánea y flujos de trabajo simplificados.
• Integración .NET*API Straightforward: añade a cualquier proyecto C# o .NET para una implementación rápida.
Se inicia con Aspose.PDF Text Extractor Plugin
Instalar Aspose.PDF para .NETAñadir a través de NuGet o descargar conjuntos a su solución .NET.
Configura tu licenciaActivar para el tratamiento y soporte ilimitados.
Opciones de extracción de configuraciónUso
TextExtractor
yTextExtractorOptions
Maneja el modo de extracción como desea (Pure, Raw, Plain).Proceso y Retrieve TextEjecutar los resultados de extracción y acceso a través de la colección de contenedores de resultados.
Exemplo: Extraer texto de un PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Exemplo: Extracto de texto de varios PDFs
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Use Casas y Extensiones
- PDF a TXT Conversión: Convertir automáticamente los PDF en texto claro para la indicación, la búsqueda o el archivo.
- Data Mining: Extraer datos de tabla, facturas o formularios para procesamiento o análisis adicionales.
- Accesibilidad: Preparar contenido leible para lectores de pantalla o formatos alternativos.
- Batch Processing: Utilice modos de extracción para flujos de trabajo descendentes específicos (por ejemplo, pre-procesamiento OCR, reconocimiento de entidad).
Para la extracción avanzada, como el manejo de PDFs encriptados o la personalización de la salida de texto, se refiere a la referencia oficial de API.
* Mejores prácticas *
- Siempre seleccione el modo de extracción que corresponda a sus necesidades de producción (formado, crudo o limpio).
- Para grandes conjuntos de documentos, el proceso de batch para maximizar el rendimiento y minimizar el esfuerzo manual.
- Resultados de extracción de pruebas con PDFs del mundo real para garantizar la exactitud de los datos.
Recursos relacionados: