Teksta ekstraktors Plugin for Aspose.PDF

Aspose.PDF Text Extractor Plugin for .NET ļauj izstrādātājiem ekstraktu teksta saturu - strukturētu, plānu vai as-is - no PDF failiem. ar trim izņemšanas režīmiem, tas ir ideāli piemērots dokumentu pārveidošanai, datu ieguvē, pieejamības uzlabošanai un daudz ko citu.

Pēdējie raksti

Aspose.PDF Teksta ekstraktors Plugin atslēgas funkcijas

  • ** Daudzveidīgas ekstrakcijas režīms**Ekstraktiet tekstu kā tīru (formātu), izejvielu (as-is) vai plašu (tīru) maksimālo elastību.

  • Batch PDF apstrādePievienojiet vairākus PDF failus vienlaicīgai ekstrakcijai un vienkāršotajiem darba plūsmām.

    • vienkārša .NET integrācija*Straightforward API – pievienojiet jebkuram C# vai .NET projektam, lai ātri izvietotu.

Sākot ar Aspose.PDF teksta ekstraktora plugins

  • Install Aspose.PDF par .NETPievienojiet caur NuGet vai lejupielādējiet kolekcijas jūsu .NET risinājumam.

  • Konfigurējiet savu licenciAktivizē neierobežotu apstrādi un atbalstu.

  • ** Konfigurēt ekstrakcijas opcijas**Use TextExtractor un TextExtractorOptions Iestatīt ekstrakcijas režīmu, kā vēlaties (Pure, Raw, Plain).

  • ** Procedūra un atgūšanas teksts**Izveidojiet ekstrakcijas un piekļuves rezultātus, izmantojot rezultātu konteineru kolekciju.

** Piemērs: Izņemt tekstu no PDF (C#)**

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

** Piemērs: Batch ekstrakts teksts no vairākiem PDF**

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Use gadījumi un paplašinājumi

  • PDF uz TXT Konvertēšana: Automātiska PDF konvertācija plašajā tekstā indeksošanai, meklēšanai vai arhivējumam.
  • Data Mining: Izņem tabulas datus, rēķinus vai veidlapas turpmākai apstrādei vai analīzei.
  • Pieejamība: Sagatavo lasāms saturs ekrāna lasītājiem vai alternatīviem formātiem.
  • Batch apstrāde: Izmanto ekstrakcijas režīmus konkrētiem zemapjoma darba plūsmām (piemēram, OCR priekšapstrāde, vienības atpazīšana).

Lai iegūtu uzlabotu ekstrakciju, piemēram, apstrādāt šifrētus PDF failus vai personalizēt teksta iznākumu, atsauciet uz oficiālo API Reference.

Labākās prakses*

  • Vienmēr izvēlieties ekstrakcijas režīmu, kas atbilst jūsu izgatavošanas vajadzībām (formatūra, izejviela vai tīra).
  • Lieliem dokumentu kompleksiem, batch process, lai maksimāli panāktu caurspīdību un samazinātu manuālo pūliņu.
  • Testēšanas ekstrakcijas rezultāti ar reālu pasauli PDF, lai nodrošinātu datu precizitāti.

Saistītie resursi:

 Latviski