Teksti Extractor Plugin for Aspose.PDF
Aspose.PDF Text Extractor Plugin for .NET antaa kehittäjille mahdollisuuden poistaa tekstin sisältöä - rakennettu, tasainen tai as-is - PDF-tiedostoista. Kolmella poisto-tilalla se on ihanteellinen asiakirjojen muuntamiseen, tiedon kaivostointiin, saavutettavuuden parannuksiin ja enemmän.
Viimeisimmät artikkelit
Aspose.PDF Text Extractor Plugin avainominaisuudet
Multiple Extraction -muodotPoista teksti puhtaana (muodostettu), raaka (as-is) tai tasainen (puhdistettu) maksimaalisen joustavuuden varmistamiseksi.
Batch PDF käsittelyLisää useita PDF-tiedostoja samanaikaiseen poistoon ja sujuviin työnkulkuihin.
Yksinkertainen .NET integraatioStraightforward API – lisää C#- tai .NET-hankkeeseen nopean käyttöönottoa varten.
Aloitetaan käyttämällä Aspose.PDF Text Extractor Plugin
Asenna Aspose.PDF .NETilleLisää NuGetin kautta tai ladata kokoelmia .NET-ratkaisuun.
Lisenssin määrittäminenAktivoi rajoittamattoman käsittelyn ja tuen.
Konfiguroida Extraction vaihtoehtojaKäytä
TextExtractor
jaTextExtractorOptions
Luokat. asettaa kaivamismuoto haluamallasi tavalla (Pure, Raw, Plain).Prosessi ja palauta tekstiKäynnistä kaivostus ja pääsy tuloksia kautta tuloksen säiliön kokoelma.
Esimerkki: Tuoda teksti PDF:stä (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Esimerkki: Batch Extract tekstiä useista PDF-tiedostoista
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Käytä tapauksia ja laajennuksia
- PDF to TXT Conversion: Automaattinen PDF-tiedostojen muuntaminen tasaiseen tekstiin indeksointia, hakua tai arkistointia varten.
- Data Mining: Poista taulukon tiedot, laskut tai lomakkeet jatkokäsittelyyn tai analysointiin.
- Saavutettavuus: Valmista lukematon sisältö näytön lukijoille tai vaihtoehtoisille muodoille.
- Batch-käsittely: Käytä eritysmuotoja tiettyjen alhaisen työnkulun osalta (esimerkiksi OCR: n ennalta käsittely, yksikön tunnistaminen).
Edistyksellistä poistoa varten – kuten salattujen PDF-tiedostojen käsittelyä tai tekstituloksen räätälöimistä – viitataan viralliseen API-viittaukseen.
Parhaat käytännöt
- Valitse aina tuotantomenetelmä, joka vastaa tuonnin tarpeitasi (muodostaminen, raaka tai puhdas).
- Suuriin asiakirjoihin, pakkausprosessia maksimoida läpäisevyyttä ja vähentää manuaalista vaivaa.
- Testitulokset tuloksena todellisia PDF-tiedostoja varmistaakseen tietojen tarkkuuden.
Suhteelliset resurssit: