Ako extrahovať štruktúrované údaje z PDF pomocou ChatGPT a .NET

Odomknite pokročilú automatizáciu a pracovné toky na báze umenia vo vašich aplikáciách .NET extrahovaním štruktúrovaných údajov (ako sú tabuľky, formuláre alebo subjekty) z PDF a prevedením ich do strojovo čitateľných formátov.

Úvodná stránka

Struktúrovaná extrakcia údajov z dokumentov PDF je kritickou požiadavkou pre obchodnú inteligenciu, spravodajstvo a automatizáciu scenárov. zatiaľ čo Aspose.PDF.Plugin umožňuje robustný textový extrakt v .NET, kombinácia s ChatGPT vám umožňuje rozdeliť, kategorizovať a formátovať informácie ako JSON, CSV alebo doménové objekty.

Zvyčajné prípady použitia:

Účtovné údaje na automatizáciu účtovníctva
Odstránenie tabuľky z výskumných dokumentov
Premeny skenovaných formulárov na štruktúrované záznamy

Krok 1: Odstráňte text alebo tabuľkový obsah z PDF

Začnite s použitím TextExtractor alebo pre tabuľkové údaje špecializované možnosti v aplikácii Aspose.PDF.Plugin.

using Aspose.Pdf.Plugins;

var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();

Krok 2: Pripraviť a odoslať Prompts na ChatGPT

Môžete použiť ChatGPT na rozmazanie a vrátenie údajov v štruktúrovanom formáte, ako je napríklad JSON alebo CSV.

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples

Tipy pre lepšie výsledky:
Použite jasné, explicitné heslá: “Vyložiť tabuľku popisov položiek, ceny a sumy ako JSON.”
V prípade veľkých súborov PDF extrahujte a odošlite text v logických segmentoch (napr. jedna tabuľka naraz).

Krok 3: Parse a Validate AI Output

Po získaní odpovede ChatGPT, rozdeliť štruktúrované údaje pomocou JSON (alebo CSV) parcer:

// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);

public class InvoiceItem
{
    public string Description { get; set; }
    public decimal Price { get; set; }
    public int Quantity { get; set; }
    public decimal Total { get; set; }
}

Validácia krokov:

Skontrolujte platné typy údajov (číslo, dátum atď.)
Záznam alebo vlajka neúplné/dôvodné údaje pre preskúmanie

Krok 4: Uložiť alebo použiť extrahované údaje

Uložte štruktúrované výsledky v databáze, Excelovom súbore alebo systéme spracovania downstream.
Opcionálne použite aplikáciu Aspose.PDF.Plugin TableGenerator na injekciu štruktúrovaných údajov späť do súhrnu PDF alebo správy.

Výkonné scenáre a riešenie problémov

Batch extrakcia:
Prejdite viacerými PDF a zhromažďujte štruktúrované údaje zo všetkých dokumentov.
Spojenie OCR:
Pre skenované PDF, používať OCR pluginy najprv pred textové extrakcie.
Chyby v riešení:
Chytiť a zaznamenať chyby API, neplatné JSON Odpovede a neštruktúrované fragmenty.

Najlepšie postupy pre presnosť a súlad

Pred čistením PDF text pred odoslaním na ChatGPT odstrániť hlavičky / stopy.
Vyhnite sa odosielaniu citlivých dokumentov, pokiaľ nepoužívate bezpečné/autorizované AI koncové body.
Pri kritickej extrakcii údajov použite postup validácie po spracovaní.

FAQ: Štruktúrovaná extrakcia údajov s ChatGPT

**Q: Aké typy štruktúrovaných údajov môžem extrahovať z PDF?**A: tabuľky, zoznamy, menované polia a pravidelné vzory (ako sú dátumy, množstvo, ID).

**Q: Môže táto metóda spracovať viacero PDF súčasne?**A: Áno. Batch extrakcia je podporovaná – prejdite cez vašu PDF Zoznam a agregácia výsledkov.

**Q: Je ChatGPT vždy presný s tabuľkami a číslami?**A: Pre najlepšie výsledky použite presné rýchlosti a overte všetky výstupy v kóde.