Teksto ekstraktorius Plugin for Aspose.PDF

Aspose.PDF Text Extractor Plugin for .NET“ leidžia kūrėjams ištrinti tekstinį turinį – struktūrizuotą, plokščią arba as-is PDF Su trimis ekstrakcijos režimais, tai idealiai tinka dokumentų konversijai, duomenų šalinimui, prieinamumo patobulinimui ir dar daugiau.

Paskutiniai straipsniai

Aspose.PDF Teksto ekstraktorius Pluginas Pagrindinės funkcijos

  • Daugiafunkcinis ekstrakcijos režimasIšimkite tekstą kaip gryną (formatuotą), žalią (as-is) arba plokščią (išvalytą) maksimaliai lanksčiai.

  • Batch PDF apdorojimasPridėkite kelis PDF failus tuo pačiu metu ištraukti ir supaprastinti darbo srautus.

  • Paprasta .NET integracijaStraightforward API – pridėkite prie bet kurio C# arba .NET projekto greitai įgyvendinti.

Iš pradžių su Aspose.PDF teksto ekstraktoriaus įtaisas

  • Įdiegti Aspose.PDF .NETPridėti per NuGet arba atsisiųsti rinkinį į savo .NET sprendimą.

  • Įveskite savo licencijąAkcentuokite neribotą apdorojimą ir paramą.

  • Konfiguruoti ekstrakcijos parinktisUse TextExtractor ir TextExtractorOptions Įveskite ekstrakcijos režimą, kaip pageidaujama (pure, Raw, Plain).

  • Procesas ir atkurti tekstąVykdykite ekstrakcijos ir prieigos rezultatus per rezultato konteinerio surinkimą.

Pavyzdys: Tekstą iš PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Pavyzdys: „Batch Extract Text“ iš kelių PDF failų

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Use atvejų ir išplėtimų

  • PDF į TXT konvertavimas: Automatiškai konvertuoti PDF į paprastą tekstą indeksavimo, paieškos ar archyvavimo tikslais.
  • Data Mining: Išimkite lentelės duomenis, sąskaitas ar formas tolesniam apdorojimui ar analizei.
  • Prieinamumas: Paruoškite skaityti turinį ekrano skaitytojams arba alternatyviems formatams.
  • Batch apdorojimas: Naudokite ekstrakcijos režimus tam tikriems nuotolinio darbo srauto srautams (pavyzdžiui, „OCR“ išankstinio apdirbimo, subjekto atpažinimo).

Išplėstinė ekstrakcija, pvz., Šifruotų PDF tvarkymas arba teksto išleidimo pritaikymas, nurodo oficialią API nuorodą.

Geriausios praktikos

  • Visada pasirinkite ekstrakcijos režimą, kuris atitinka jūsų produkcijos poreikius (formatuoti, žalia arba švarus).
  • Dėl didelių dokumentų rinkinys, batch procesas, siekiant padidinti perdavimo pajėgumą ir sumažinti rankinį krūvį.
  • Bandymų ekstrakcijos rezultatai su realaus pasaulio PDF, kad būtų užtikrintas duomenų tikslumas.

Susiję ištekliai:

 Lietuvių