Teksto ekstraktorius Plugin for Aspose.PDF

Aspose.PDF Text Extractor Plugin .NET leidžia kūrėjams iš PDF failų ištraukti tekstinį turinį – struktūrizuotą, plokščią ar as-is. Su trimis ekstrakcijos režimais idealiai tinka dokumentų konversijai, duomenų šalinimui, prieinamumo patobulinimui ir dar daugiau.

Paskutiniai straipsniai

Aspose.PDF Teksto ekstraktorius Pluginas Pagrindinės funkcijos

    • Daugiafunkcinis ekstrakcijos režimas*Išimkite tekstą kaip gryną (formatuotą), žalią (as-is) arba plokščią (išvalytą) maksimaliai lanksčiai.
  • Batch PDF apdorojimasPridėkite kelis PDF failus tuo pačiu metu ištraukti ir supaprastinti darbo srautus.

    • Paprasta .NET integracija*Straightforward API – pridėkite prie bet kurio C# arba .NET projekto greitai įgyvendinti.

Iš pradžių su Aspose.PDF teksto ekstraktoriaus įtaisas

  • ** Įdiegti Aspose.PDF .NET**Pridėti per NuGet arba atsisiųsti rinkinį į savo .NET sprendimą.

    • Įveskite savo licenciją*Akcentuokite neribotą apdorojimą ir paramą.
  • Konfiguruoti ekstrakcijos parinktisUse TextExtractor ir TextExtractorOptions Įveskite ekstrakcijos režimą, kaip pageidaujama (pure, Raw, Plain).

  • ** Procesas ir atkurti tekstą**Vykdykite ekstrakcijos ir prieigos rezultatus per rezultato konteinerio surinkimą.

Pavyzdys: Tekstą iš PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Pavyzdys: „Batch Extract Text“ iš kelių PDF failų

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

*Use atvejų ir išplėtimų

  • PDF į TXT konvertavimas: Automatiškai konvertuoti PDF į paprastą tekstą indeksavimo, paieškos ar archyvavimo tikslais.
  • Data Mining: Išimkite lentelės duomenis, sąskaitas ar formas tolesniam apdorojimui ar analizei.
  • ** Prieinamumas:** Paruoškite skaityti turinį ekrano skaitytojams arba alternatyviems formatams.
  • Batch apdorojimas: Naudokite ekstrakcijos režimus tam tikriems nuotolinio darbo srauto srautams (pavyzdžiui, „OCR“ išankstinio apdirbimo, subjekto atpažinimo).

Išplėstinė ekstrakcija, pvz., Šifruotų PDF tvarkymas arba teksto išleidimo pritaikymas, nurodo oficialią API nuorodą.

„Geriausios praktikos“

  • Visada pasirinkite ekstrakcijos režimą, kuris atitinka jūsų produkcijos poreikius (formatuoti, žalia arba švarus).
  • Dėl didelių dokumentų rinkinys, batch procesas, siekiant padidinti perdavimo pajėgumą ir sumažinti rankinį krūvį.
  • Bandymų ekstrakcijos rezultatai su realaus pasaulio PDF, kad būtų užtikrintas duomenų tikslumas.

Susiję ištekliai:

 Lietuvių