Text Extractor Plugin per Aspose.PDF
Il Aspose.PDF Text Extractor Plugin per .NET consente agli sviluppatori di estrarre contenuti di testo - strutturati, piani, o as-is - dai file PDF. Con tre modalità d’estrazione, è ideale per la conversione dei documenti, la miniera dei dati, i miglioramenti dell’accessibilità e altro ancora.
Ultimi articoli
Aspose.PDF Extractor di testo Plugin Funzioni chiave
- Modalità di estrazione multipla*L’estratto di testo come puro (formato), crudo (as-is) o piatto (puro) per la massima flessibilità.
Batch per il trattamento PDFAggiungi più PDF per estrazione simultanea e flussi di lavoro semplificati.
Integrazione .NET *Straightforward API – aggiungere a qualsiasi progetto C# o .NET per la rapida implementazione.
Per iniziare con Aspose.PDF Text Extractor Plugin
Installa Aspose.PDF per .NETAggiungi tramite NuGet o scarica assemblies alla tua soluzione .NET.
Configgere la tua licenzaAttivare per il trattamento e il supporto illimitati.
Opzioni di estrazione di configurazioneUtilizzo
TextExtractor
eTextExtractorOptions
Set il modo di estrazione come desiderato (Pure, Raw, Plain).Processo e Retrieve TextEseguire l’estrazione e i risultati di accesso attraverso la raccolta dei contenitori.
Esempio: Estratto di testo da un PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Esempio: Batch Extract di testo da PDF multipli
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Uso dei casi e delle estensioni
- PDF a TXT Conversione: Convertire automaticamente i file PDF in testo piatto per l’indicazione, la ricerca o il file di archivio.
- Data Mining: Extraggere dati di tabella, fatturati o moduli per ulteriori elaborazioni o analisi.
- Accessibilità: Preparare contenuti leggibili per lettori dello schermo o formati alternativi.
- Batch Processing: Utilizzare modalità di estrazione per flussi di lavoro specifici (ad esempio, pre-processing OCR, riconoscimento entità).
Per l’estrazione avanzata - come il trattamento di PDF crittografati, o la personalizzazione della produzione di testo - si riferisce all’API ufficiale di riferimento.
Le migliori pratiche *
- Selezionare sempre il modo di estrazione che corrisponde alle vostre esigenze di produzione (formato, crudo o pulito).
- Per i grandi set di documenti, il processo di batch per massimizzare la percentuale e ridurre al minimo lo sforzo manuale.
- I risultati di estrazione di test sono con PDF del mondo reale per garantire l’accuratezza dei dati.
Risorse correlate: