Text Extractor Plugin pentru Aspose.PDF
Aspose.PDF Text Extractor Plugin pentru .NET permite dezvoltatorilor să extragă conținut text – structurat, plain sau as-is – din fișierele PDF. Cu trei moduri de extracție, este ideal pentru conversia documentelor, minarea datelor, îmbunătățirea accesibilității și multe altele.
Ultimele articole
Aspose.PDF Extractor de text Plugin caracteristici cheie
- Moduri multiple de extracție*Extrageți textul ca pur (format), crud (as-is) sau plat (clean) pentru flexibilitate maximă.
- Procesarea PDF cu batch*Adăugați mai multe PDF-uri pentru extracție simultană și fluxuri de lucru simplificate.
- Integrare .NET simplă*API direct-forward – adăugați la orice proiect C# sau .NET pentru implementare rapidă.
Să înceapă cu Aspose.PDF Text Extractor Plugin
Instalează Aspose.PDF pentru .NETAdăugați prin NuGet sau descărcați ansambluri la soluția .NET.
**Configurați licența dvs.**Activat pentru prelucrare și suport nelimitat.
Configurarea opțiunilor de extracțieUtilizarea
TextExtractor
şiTextExtractorOptions
Setarea modului de extracție după cum este dorit (Pure, Raw, Plain).Procesul și recunoașterea textuluiExecutați rezultatele de extracție și acces prin colecția de containere.
Exemplu: Extrageți text dintr-un PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Exemplu: Text extract din mai multe PDF-uri
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Cazuri de utilizare și extinderi
- PDF în TXT Conversie: Convertire automată a PDF-urilor în text clar pentru indexare, căutare sau arhivare.
- Data Mining: Extrageți datele de tabel, facturile sau formularele pentru prelucrare sau analiză ulterioară.
- Accesibilitate: Pregătiți conținutul citit pentru cititorii de ecran sau formatele alternative.
- Batch Processing: Utilizați moduri de extracție pentru fluxurile de lucru specifice (de exemplu, prelucrarea pre-OCR, recunoașterea entității).
Pentru extracția avansată – cum ar fi gestionarea PDF-urilor criptate sau personalizarea rezultatelor textului – se referă la API-ul oficial de referință.
• Cele mai bune practici*
- Selectați întotdeauna modul de extracție care se potrivește nevoilor dvs. de producție (formare, crude sau curate).
- Pentru seturile de documente mari, procesul de batch pentru a maximiza puterea și minimiza efortul manual.
- Rezultatele extracției de testare cu PDF-uri din lumea reală pentru a asigura precizia datelor.
Resursele aferente: