Text Extractor Plugin per Aspose.PDF

Il Aspose.PDF Text Extractor Plugin per .NET consente agli sviluppatori di estrarre contenuti di testo - strutturati, piani, o as-is - da Il PDF Con tre modalità di estrazione, è ideale per la conversione dei documenti, la miniera dei dati, i miglioramenti dell’accessibilità e altro ancora.

Ultimi articoli

Come estrarre testo da PDF in .NET Come estrarre i dati e le tabelle strutturate dal PDF in .NET

Aspose.PDF Extractor di testo Plugin Funzioni chiave

Modalità di estrazione multiplaL’estratto di testo come puro (formato), crudo (as-is) o piatto (puro) per la massima flessibilità.
Batch per il trattamento PDFAggiungi più PDF per estrazione simultanea e flussi di lavoro semplificati.
Integrazione .NETStraightforward API – aggiungere a qualsiasi progetto C# o .NET per la rapida implementazione.

Per iniziare con Aspose.PDF Text Extractor Plugin

Installa Aspose.PDF per .NETAggiungi tramite NuGet o scarica assemblies alla tua soluzione .NET.
Configgere la tua licenzaAttivare per il trattamento e il supporto illimitati.
Opzioni di estrazione di configurazioneUtilizzo TextExtractor e TextExtractorOptions Set il modo di estrazione come desiderato (Pure, Raw, Plain).
Processo e Retrieve TextEseguire l’estrazione e i risultati di accesso attraverso la raccolta dei contenitori.

Esempio: Estratto di testo da un PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Esempio: Batch Extract di testo da PDF multipli

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Uso dei casi e delle estensioni

PDF a TXT Conversione: Convertire automaticamente i file PDF in testo piatto per l’indicazione, la ricerca o il file di archivio.
Data Mining: Extraggere dati di tabella, fatturati o moduli per ulteriori elaborazioni o analisi.
Accessibilità: Preparare contenuti leggibili per lettori dello schermo o formati alternativi.
Batch Processing: Utilizzare modalità di estrazione per flussi di lavoro specifici (ad esempio, pre-processing OCR, riconoscimento entità).

Per l’estrazione avanzata - come il trattamento di PDF crittografati, o la personalizzazione della produzione di testo - si riferisce all’API ufficiale di riferimento.

Le migliori pratiche

Selezionare sempre il modo di estrazione che corrisponde alle vostre esigenze di produzione (formato, crudo o pulito).
Per i grandi set di documenti, il processo di batch per massimizzare la percentuale e ridurre al minimo lo sforzo manuale.
I risultati di estrazione di test sono con PDF del mondo reale per garantire l’accuratezza dei dati.

Risorse correlate: