Hogyan lehet kivonni a strukturált adatokat és táblákat a PDF-ből .NET-ben
A táblák és a strukturált adatok PDF-ből történő kivonása gyakori feladat az elemzők, a könyvelők és bárki számára, aki jelentésekkel vagy pénzügyi beszámolókkal dolgozik. Aspose.PDF.Plugin a .NET számára programozási lehetőségeket kínál a tiszta szöveg, CSV vagy JSON táblainak felderítésére, párosítására és exportálására.
Táblák azonosítása PDF szövegben
- Egyszerű PDF: A tálcák egyértelmű sejthatárokkal (táb, tér vagy vonal határokat) a legegyszerűbb kivonat.
- Vizuális ellenőrzés: Kivonja a nyers vagy tiszta szöveget, és ellenőrizze a következetes sor / oszlop mintákat.
- Heurisztikus Parsing: Használja a logikát (például rendszeres kifejezéseket, meghatározókat), hogy azonosítsa a kivetett szövegből valószínű sorokat és oszlopokat.
Példa: CSV formátumú táblák kivitelezése
using Aspose.Pdf.Plugins;
using System.IO;
string input = @"C:\Docs\financial-report.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(input));
string extracted = extractor.Process(options).ResultCollection[0].ToString();
// Simple parsing: Assume rows separated by '\n', columns by tabs or spaces
var rows = extracted.Split('\n');
using (var writer = new StreamWriter(@"C:\Docs\extracted-table.csv"))
{
foreach (var row in rows)
{
var columns = row.Split(new[] {'\t', ' '}, StringSplitOptions.RemoveEmptyEntries);
writer.WriteLine(string.Join(",", columns));
}
}Példa: Export táblák, mint JSON
using System.Text.Json;
var table = rows
.Where(r => r.Trim().Length > 0)
.Select(r => r.Split(new[] {'\t', ' '}, StringSplitOptions.RemoveEmptyEntries))
.ToList();
File.WriteAllText(@"C:\Docs\extracted-table.json", JsonSerializer.Serialize(table));Korlátozások és fejlett tippek
- Merged/Spanned Cells: A legtöbb programozott kivonat nem tudja megbízhatóan kimutatni a vegyes vagy többszögű sejteket; kézi felülvizsgálat vagy személyre szabott logika szükséges lehet.
- Komplex táblák: A képekkel, grafikákkal vagy szabálytalan elrendezésekkel rendelkező tápláknak fejlett parszióra vagy vizuális asztal kivonási eszközre van szükségük.
- Pontosság: A kivonat a legjobb egyszerű, jól strukturált táblákkal; mindig felülvizsgálja a kimenetet és módosítja az adatokat.
Használati esetek
- Pénzügyi elemzés és könyvvizsgálat (kivonatok, kiadási táblák)
- A felmérés és a visszajelzések adatai (parse bulk response tables)
- Adatok migrációja örökségi PDF-k adatbázisok vagy Excel
Gyakran feltett kérdések
**Q: A vegyes sejteket automatikusan észlelhetjük vagy kezeljük?**A: Nem megbízható – a kevert/csúszott sejtek általában kézi korrekciót vagy vizuális felülvizsgálatot igényelnek a kivágás után.
**Q: Az adatok kivonása mindig 100% -ban pontos?**A: Nem – az eredmények az asztal szerkezetétől, formázásától és PDF Mindig felülvizsgálja a kivonott táblákat, és ha szükséges, tisztítsa meg a személyre szabott szabályokat vagy forgatókönyvet.
**Q: Mi a legjobb mód az asztali kivonathoz?**A: Kezdjük a Tiszta üzemmódban a strukturált táblákhoz. A nyers üzem hasznos lehet az adatbányászathoz vagy a személyre szabott hierarchiához.
Pro Tipp: Az ismétlődő kivonatok, finomítsa a parsing logikáját minden jelentéssablonra csv és JSON A maximális rugalmasság érdekében.