Hogyan lehet kivonni a strukturált adatokat és táblákat a PDF-ből .NET-ben

Hogyan lehet kivonni a strukturált adatokat és táblákat a PDF-ből .NET-ben

A táblák és a strukturált adatok PDF-ből történő kivonása gyakori feladat az elemzők, a könyvelők és bárki számára, aki jelentésekkel vagy pénzügyi beszámolókkal dolgozik. Aspose.PDF.Plugin a .NET számára programozási lehetőségeket kínál a tiszta szöveg, CSV vagy JSON táblainak felderítésére, párosítására és exportálására.

Táblák azonosítása PDF szövegben

  • Egyszerű PDF: A tálcák egyértelmű sejthatárokkal (táb, tér vagy vonal határokat) a legegyszerűbb kivonat.
  • Vizuális ellenőrzés: Kivonja a nyers vagy tiszta szöveget, és ellenőrizze a következetes sor / oszlop mintákat.
  • Heurisztikus Parsing: Használja a logikát (például rendszeres kifejezéseket, meghatározókat), hogy azonosítsa a kivetett szövegből valószínű sorokat és oszlopokat.

Példa: CSV formátumú táblák kivitelezése

using Aspose.Pdf.Plugins;
using System.IO;

string input = @"C:\Docs\financial-report.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(input));
string extracted = extractor.Process(options).ResultCollection[0].ToString();

// Simple parsing: Assume rows separated by '\n', columns by tabs or spaces
var rows = extracted.Split('\n');
using (var writer = new StreamWriter(@"C:\Docs\extracted-table.csv"))
{
    foreach (var row in rows)
    {
        var columns = row.Split(new[] {'\t', ' '}, StringSplitOptions.RemoveEmptyEntries);
        writer.WriteLine(string.Join(",", columns));
    }
}

Példa: Export táblák, mint JSON

using System.Text.Json;
var table = rows
    .Where(r => r.Trim().Length > 0)
    .Select(r => r.Split(new[] {'\t', ' '}, StringSplitOptions.RemoveEmptyEntries))
    .ToList();

File.WriteAllText(@"C:\Docs\extracted-table.json", JsonSerializer.Serialize(table));

Korlátozások és fejlett tippek

  • Merged/Spanned Cells: A legtöbb programozott kivonat nem tudja megbízhatóan kimutatni a vegyes vagy többszögű sejteket; kézi felülvizsgálat vagy személyre szabott logika szükséges lehet.
  • Komplex táblák: A képekkel, grafikákkal vagy szabálytalan elrendezésekkel rendelkező tápláknak fejlett parszióra vagy vizuális asztal kivonási eszközre van szükségük.
  • Pontosság: A kivonat a legjobb egyszerű, jól strukturált táblákkal; mindig felülvizsgálja a kimenetet és módosítja az adatokat.

Használati esetek

  • Pénzügyi elemzés és könyvvizsgálat (kivonatok, kiadási táblák)
  • A felmérés és a visszajelzések adatai (parse bulk response tables)
  • Adatok migrációja örökségi PDF-k adatbázisok vagy Excel

Gyakran feltett kérdések

**Q: A vegyes sejteket automatikusan észlelhetjük vagy kezeljük?**A: Nem megbízható – a kevert/csúszott sejtek általában kézi korrekciót vagy vizuális felülvizsgálatot igényelnek a kivágás után.

**Q: Az adatok kivonása mindig 100% -ban pontos?**A: Nem – az eredmények az asztal szerkezetétől, formázásától és PDF Mindig felülvizsgálja a kivonott táblákat, és ha szükséges, tisztítsa meg a személyre szabott szabályokat vagy forgatókönyvet.

**Q: Mi a legjobb mód az asztali kivonathoz?**A: Kezdjük a Tiszta üzemmódban a strukturált táblákhoz. A nyers üzem hasznos lehet az adatbányászathoz vagy a személyre szabott hierarchiához.

Pro Tipp: Az ismétlődő kivonatok, finomítsa a parsing logikáját minden jelentéssablonra csv és JSON A maximális rugalmasság érdekében.

 Magyar