Ako extrahovať štruktúrované údaje z PDF pomocou ChatGPT a .NET
Odomknite pokročilú automatizáciu a pracovné toky na báze umenia vo vašich aplikáciách .NET extrahovaním štruktúrovaných údajov (ako sú tabuľky, formuláre alebo subjekty) z PDF a prevedením ich do strojovo čitateľných formátov.
Úvodná stránka
Struktúrovaná extrakcia údajov z dokumentov PDF je kritickou požiadavkou pre obchodnú inteligenciu, spravodajstvo a automatizáciu scenárov. zatiaľ čo Aspose.PDF.Plugin umožňuje robustný textový extrakt v .NET, kombinácia s ChatGPT vám umožňuje rozdeliť, kategorizovať a formátovať informácie ako JSON, CSV alebo doménové objekty.
Zvyčajné prípady použitia:
- Účtovné údaje na automatizáciu účtovníctva
- Odstránenie tabuľky z výskumných dokumentov
- Premeny skenovaných formulárov na štruktúrované záznamy
Krok 1: Odstráňte text alebo tabuľkový obsah z PDF
Začnite s použitím TextExtractor
alebo pre tabuľkové údaje špecializované možnosti v aplikácii Aspose.PDF.Plugin.
using Aspose.Pdf.Plugins;
var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();
Krok 2: Pripraviť a odoslať Prompts na ChatGPT
Môžete použiť ChatGPT na rozmazanie a vrátenie údajov v štruktúrovanom formáte, ako je napríklad JSON alebo CSV.
string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
Tipy pre lepšie výsledky:
Použite jasné, explicitné heslá: “Vyložiť tabuľku popisov položiek, ceny a sumy ako JSON.”
V prípade veľkých súborov PDF extrahujte a odošlite text v logických segmentoch (napr. jedna tabuľka naraz).
Krok 3: Parse a Validate AI Output
Po získaní odpovede ChatGPT, rozdeliť štruktúrované údaje pomocou JSON (alebo CSV) parcer:
// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);
public class InvoiceItem
{
public string Description { get; set; }
public decimal Price { get; set; }
public int Quantity { get; set; }
public decimal Total { get; set; }
}
Validácia krokov:
- Skontrolujte platné typy údajov (číslo, dátum atď.)
- Záznam alebo vlajka neúplné/dôvodné údaje pre preskúmanie
Krok 4: Uložiť alebo použiť extrahované údaje
- Uložte štruktúrované výsledky v databáze, Excelovom súbore alebo systéme spracovania downstream.
- Opcionálne použite aplikáciu Aspose.PDF.Plugin TableGenerator na injekciu štruktúrovaných údajov späť do súhrnu PDF alebo správy.
Výkonné scenáre a riešenie problémov
Batch extrakcia:
Prejdite viacerými PDF a zhromažďujte štruktúrované údaje zo všetkých dokumentov.
Spojenie OCR:
Pre skenované PDF, používať OCR pluginy najprv pred textové extrakcie.
Chyby v riešení:
Chytiť a zaznamenať chyby API, neplatné odpovede JSON a neštruktúrované fragmenty.
Najlepšie postupy pre presnosť a súlad
- Pred čistením PDF text pred odoslaním na ChatGPT odstrániť hlavičky / stopy.
- Vyhnite sa odosielaniu citlivých dokumentov, pokiaľ nepoužívate bezpečné/autorizované AI koncové body.
- Pri kritickej extrakcii údajov použite postup validácie po spracovaní.
FAQ: Štruktúrovaná extrakcia údajov s ChatGPT
**Q: Aké typy štruktúrovaných údajov môžem extrahovať z PDF?**A: tabuľky, zoznamy, menované polia a pravidelné vzory (ako sú dátumy, množstvo, ID).
**Q: Môže táto metóda spracovať viacero PDF súčasne?**Odpoveď: Áno. Batch extrakcia je podporovaná – prejdite cez váš súbor PDF a zhromažďujte výsledky.
**Q: Je ChatGPT vždy presný s tabuľkami a číslami?**A: Pre najlepšie výsledky použite presné rýchlosti a overte všetky výstupy v kóde.