Kaip surinkti visus vaizdus iš kelių PDF failų .NET

Kaip surinkti visus vaizdus iš kelių PDF failų .NET

Nuotraukų ekstrakcija iš vieno PDF yra paprasta – bet kas apie šimtus ar tūkstančius?Šis vadovas rodo, kaip automatizuoti didelio masto vaizdo ekstraktą iš kelių PDF naudojant Aspose.PDF.ImageExtractor Plugin .NET. Idealus žiniasklaidos archyvams, IT turto apdorojimui ar skaitmeninio turinio atkūrimui.

Batch apdorojimo darbo srautas

  • Organizuokite savo įrašą: Įdėkite visus šaltinio PDF failus į vieną aplanką (pavyzdžiui, /Assets/InputPDFs).
  • Design Output Folder: Pasirinktinai sukurkite kiekvieno PDF subfolderį arba suraskite visas nuotraukas viename direktoriuje.
  • ** Įdiegti Batch Script:** Naudokite Aspose.PDF.Plugin’s ImageExtractor Į kiekvieną failą tvarkyti.

Skelbiant per failus (kodas pavyzdys)

using Aspose.Pdf.Plugins;
using System.IO;

string inputDir = @"C:\Assets\InputPDFs";
string outputBaseDir = @"C:\Assets\ExtractedImages";

string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

foreach (var pdfFile in pdfFiles)
{
    // Optionally create a unique folder for each PDF
    string pdfName = Path.GetFileNameWithoutExtension(pdfFile);
    string imageOutputDir = Path.Combine(outputBaseDir, pdfName);
    Directory.CreateDirectory(imageOutputDir);

    // Configure extractor
    var extractor = new ImageExtractor();
    var options = new ImageExtractorOptions();
    options.AddInput(new FileDataSource(pdfFile));

    // Process extraction
    var resultContainer = extractor.Process(options);
    int imageIndex = 0;
    foreach (var imageResult in resultContainer.ResultCollection)
    {
        string imgPath = Path.Combine(imageOutputDir, $"img_{++imageIndex}.png");
        File.WriteAllBytes(imgPath, imageResult.ToFile());
    }
    Console.WriteLine($"Extracted {imageIndex} images from {pdfName}");
}

Išleidimo vadybos ir pažangių patarimų

  • Folder Organization: Naudokite unikalius failus kiekvienam PDF arba pavardės vaizdus pagal šaltinio failų pavadinimą ir puslapį.
  • Skalabilumas: Įvesties failus suskirstykite į rinkinį, kad būtų galima atlikti lygiagrečią apdorojimą, jei tvarkomi 100 ar 1000 PDF failų.
  • Formatai: Pavyzdžiui, išimti vaizdai išsaugomi savo gimtojoje formatoje (pvz., PNG, JPEG).
  • Logging: Saugokite tvarkomų PDF / vaizdų logus auditui ir klaidų sekimui.

Naudokite atvejus

  • Didelio masto skaitmeniniai archyvai / vaizdo migracija
  • Automatinis grafinio turto ekstrakcija publikacijai ar žiniatinkliui
  • Teisinių ar teisinių įrodymų paruošimas iš dokumentų rinkimų

Dažnai užduodami klausimai

**Q: Kaip aš galiu išsaugoti vaizdus į pritaikytus aplankus arba naudoti priskirtus pavadinimus?**A: Naudokite PDF failų pavadinimą (be išplėtimo), kad sukurtumėte subfolderius, ir indeksuotume vaizdus per PDF, kaip parodyta aukščiau.

**Q: Ar galiu apdoroti šimtus ar tūkstančius PDF failų vienoje pakuotėje?**Atsakymas: Taip! labai dideliems darbams nutraukti įvedimą į mažesnius batus ir paleisti lygiagrečiai optimaliam greičiui.

**Q: Ar visi vaizdo tipai yra ištraukti (JPEG, PNG ir tt)?**A: Taip – ekstraktorius išsaugo originalius formatus, nebent po proceso / konvertavimo po ekstrakto.

Pro patarimas: Po ekstrakcijos naudokite Optimizer sumažinti sandėliavimo pėdsaką arba Splitter Prieš išgaunant PDF failus.

 Lietuvių