Teksti Extractor Plugin for Aspose.PDF
Aspose.PDF Text Extractor Plugin for .NET antaa kehittäjille mahdollisuuden poistaa tekstin sisältöä - rakennettu, tasainen tai as-is - PDF-tiedostoista. Kolmella poisto-tilalla se on ihanteellinen asiakirjojen muuntamiseen, tiedon kaivostointiin, saavutettavuuden parannuksiin ja enemmän.
Viimeisimmät artikkelit
Aspose.PDF Text Extractor Plugin avainominaisuudet
*Multiple Extraction -muodotPoista teksti puhtaana (muodostettu), raaka (as-is) tai tasainen (puhdistettu) maksimaalisen joustavuuden varmistamiseksi.
**Batch PDF käsittely*Lisää useita PDF-tiedostoja samanaikaiseen poistoon ja sujuviin työnkulkuihin.
- Yksinkertainen .NET integraatio*Straightforward API – lisää C#- tai .NET-hankkeeseen nopean käyttöönottoa varten.
** Aloitetaan käyttämällä Aspose.PDF Text Extractor Plugin**
Asenna Aspose.PDF .NETilleLisää NuGetin kautta tai ladata kokoelmia .NET-ratkaisuun.
Lisenssin määrittäminenAktivoi rajoittamattoman käsittelyn ja tuen.
Konfiguroida Extraction vaihtoehtojaKäytä
TextExtractor
jaTextExtractorOptions
Luokat. asettaa kaivamismuoto haluamallasi tavalla (Pure, Raw, Plain).** Prosessi ja palauta teksti**Käynnistä kaivostus ja pääsy tuloksia kautta tuloksen säiliön kokoelma.
** Esimerkki: Tuoda teksti PDF:stä (C#)**
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
** Esimerkki: Batch Extract tekstiä useista PDF-tiedostoista**
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
** Käytä tapauksia ja laajennuksia**
- PDF to TXT Conversion: Automaattinen PDF-tiedostojen muuntaminen tasaiseen tekstiin indeksointia, hakua tai arkistointia varten.
- Data Mining: Poista taulukon tiedot, laskut tai lomakkeet jatkokäsittelyyn tai analysointiin.
- Saavutettavuus: Valmista lukematon sisältö näytön lukijoille tai vaihtoehtoisille muodoille.
- Batch-käsittely: Käytä eritysmuotoja tiettyjen alhaisen työnkulun osalta (esimerkiksi OCR: n ennalta käsittely, yksikön tunnistaminen).
Edistyksellistä poistoa varten – kuten salattujen PDF-tiedostojen käsittelyä tai tekstituloksen räätälöimistä – viitataan viralliseen API-viittaukseen.
* Parhaat käytännöt *
- Valitse aina tuotantomenetelmä, joka vastaa tuonnin tarpeitasi (muodostaminen, raaka tai puhdas).
- Suuriin asiakirjoihin, pakkausprosessia maksimoida läpäisevyyttä ja vähentää manuaalista vaivaa.
- Testitulokset tuloksena todellisia PDF-tiedostoja varmistaakseen tietojen tarkkuuden.
Suhteelliset resurssit: