Teksta ekstraktors Plugin for Aspose.PDF
Aspose.PDF Teksta ekstraktora plugins .NET ļauj izstrādātājiem izrakstīt teksta saturu – strukturētu, plānu vai as-is – no PDF ar trim ekstrakcijas režīmiem, tas ir ideāli piemērots dokumentu pārveidošanai, datu ieguves, pieejamības uzlabojumiem un vairāk.
Pēdējie raksti
Aspose.PDF Teksta ekstraktors Plugin atslēgas funkcijas
Daudzveidīgas ekstrakcijas režīmsEkstraktiet tekstu kā tīru (formātu), izejvielu (as-is) vai plašu (tīru) maksimālo elastību.
Batch PDF apstrādePievienojiet vairākus PDF failus vienlaicīgai ekstrakcijai un vienkāršotajiem darba plūsmām.
vienkārša .NET integrācijaStraightforward API – pievienojiet jebkuram C# vai .NET projektam, lai ātri izvietotu.
Sākot ar Aspose.PDF teksta ekstraktora plugins
Install Aspose.PDF par .NETPievienojiet caur NuGet vai lejupielādējiet kolekcijas jūsu .NET risinājumam.
Konfigurējiet savu licenciAktivizē neierobežotu apstrādi un atbalstu.
Konfigurēt ekstrakcijas opcijasUse
TextExtractorunTextExtractorOptionsIestatīt ekstrakcijas režīmu, kā vēlaties (Pure, Raw, Plain).Procedūra un atgūšanas tekstsIzveidojiet ekstrakcijas un piekļuves rezultātus, izmantojot rezultātu konteineru kolekciju.
Piemērs: Izņemt tekstu no PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);Piemērs: Batch ekstrakts teksts no vairākiem PDF
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}Use gadījumi un paplašinājumi
- PDF uz TXT Konvertēšana: Automātiska PDF konvertācija plašajā tekstā indeksošanai, meklēšanai vai arhivējumam.
- Data Mining: Izņem tabulas datus, rēķinus vai veidlapas turpmākai apstrādei vai analīzei.
- Pieejamība: Sagatavo lasāms saturs ekrāna lasītājiem vai alternatīviem formātiem.
- Batch apstrāde: Izmanto ekstrakcijas režīmus konkrētiem zemapjoma darba plūsmām (piemēram, OCR priekšapstrāde, vienības atpazīšana).
Lai iegūtu uzlabotu ekstrakciju, piemēram, apstrādāt šifrētus PDF failus vai personalizēt teksta iznākumu, atsauciet uz oficiālo API Reference.
Labākās prakses
- Vienmēr izvēlieties ekstrakcijas režīmu, kas atbilst jūsu izgatavošanas vajadzībām (formatūra, izejviela vai tīra).
- Lieliem dokumentu kompleksiem, batch process, lai maksimāli panāktu caurspīdību un samazinātu manuālo pūliņu.
- Testēšanas ekstrakcijas rezultāti ar reālu pasauli PDF, lai nodrošinātu datu precizitāti.
Saistītie resursi: