Tekst Extractor Plugin za Aspose.PDF
Aspose.PDF Text Extractor Plugin za .NET omogućuje razvijalcima da iz PDF datoteke izvuče tekstni sadržaj – strukturirani, ravni ili takvi. sa tri načina ekstrakcije, idealan je za konverziju dokumenata, rudarstvo podataka, poboljšanje pristupačnosti i još mnogo toga.
Najnovije članke
Aspose.PDF Tekst Extractor Plugin Ključne značajke
- Mnogobrojni način ekstrakcije*Izvadite tekst kao čisti (formatirani), sirovi (as-is) ili ravni (čisti) za maksimalnu fleksibilnost.
Batch PDF obrađivanjeDodajte više PDF-a za istodobnu ekstrakciju i usklađene tokove rada.
Jednostavna integracija .NET*Straightforward API – dodajte bilo koji C# ili .NET projekt za brzu implementaciju.
Početak s Aspose.PDF tekst ekstraktor plugin
Install Aspose.PDF za .NETDodajte putem NuGeta ili preuzmite skupove u rješenje .NET-a.
Prijavite svoju dozvoluAktivirajte za neograničenu obradu i podršku.
Konfigurirajte opcije ekstrakcijeKorištenje
TextExtractor
iTextExtractorOptions
Sastavite način ekstrakcije po želji (Pure, Raw, Plain).Proces i povratak tekstaIzvođenje rezultata ekstrakcije i pristupa rezultatom prikupljanja kontejnera.
Primjer: Izvlačite tekst iz PDF-a (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Primjer: Batch ekstrakt tekst iz više PDF-a
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Use slučajevi i proširenja
- PDF u TXT Konverzija: Automatsko pretvaranje PDF-a u ravni tekst za indeksiranje, pretraživanje ili arhiviranje.
- Data Mining: Izvadite podatke o tablici, račune ili obrasce za daljnju obradu ili analizu.
- Dostupnost: Pripremite čitljiv sadržaj za čitatelje zaslona ili alternativne formate.
- Batch Processing: Koristite načine ekstrakcije za određene radne tokove (na primjer, OCR pre-procesiranje, prepoznavanje subjekta).
Za naprednu ekstrakciju – kao što je rukovanje šifriranim PDF-ovima ili prilagođavanje izlaska teksta – upućuje se na službenu API referenciju.
Najbolje prakse *
- Uvijek odaberite način ekstrakcije koji odgovara vašim potrebama proizvodnje (formiranje, sirovo ili čisto).
- Za velike setove dokumenata, proces pakiranja kako bi se maksimalno prošao i smanjio ručni napor.
- Rezultati ekstrakcije testiranja s PDF-ovima u stvarnom svijetu kako bi se osigurala točnost podataka.
Povezani resursi: