Ako extrahovať štruktúrované údaje z PDF pomocou ChatGPT a .NET

Ako extrahovať štruktúrované údaje z PDF pomocou ChatGPT a .NET

Odomknite pokročilú automatizáciu a pracovné toky na báze umenia vo vašich aplikáciách .NET extrahovaním štruktúrovaných údajov (ako sú tabuľky, formuláre alebo subjekty) z PDF a prevedením ich do strojovo čitateľných formátov.

Úvodná stránka

Struktúrovaná extrakcia údajov z dokumentov PDF je kritickou požiadavkou pre obchodnú inteligenciu, spravodajstvo a automatizáciu scenárov. zatiaľ čo Aspose.PDF.Plugin umožňuje robustný textový extrakt v .NET, kombinácia s ChatGPT vám umožňuje rozdeliť, kategorizovať a formátovať informácie ako JSON, CSV alebo doménové objekty.

Zvyčajné prípady použitia:

  • Účtovné údaje na automatizáciu účtovníctva
  • Odstránenie tabuľky z výskumných dokumentov
  • Premeny skenovaných formulárov na štruktúrované záznamy

Krok 1: Odstráňte text alebo tabuľkový obsah z PDF

Začnite s použitím TextExtractor alebo pre tabuľkové údaje špecializované možnosti v aplikácii Aspose.PDF.Plugin.

using Aspose.Pdf.Plugins;

var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();

Krok 2: Pripraviť a odoslať Prompts na ChatGPT

Môžete použiť ChatGPT na rozmazanie a vrátenie údajov v štruktúrovanom formáte, ako je napríklad JSON alebo CSV.

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
  • Tipy pre lepšie výsledky:

  • Použite jasné, explicitné heslá: “Vyložiť tabuľku popisov položiek, ceny a sumy ako JSON.”

  • V prípade veľkých súborov PDF extrahujte a odošlite text v logických segmentoch (napr. jedna tabuľka naraz).

Krok 3: Parse a Validate AI Output

Po získaní odpovede ChatGPT, rozdeliť štruktúrované údaje pomocou JSON (alebo CSV) parcer:

// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);

public class InvoiceItem
{
    public string Description { get; set; }
    public decimal Price { get; set; }
    public int Quantity { get; set; }
    public decimal Total { get; set; }
}

Validácia krokov:

  • Skontrolujte platné typy údajov (číslo, dátum atď.)
  • Záznam alebo vlajka neúplné/dôvodné údaje pre preskúmanie

Krok 4: Uložiť alebo použiť extrahované údaje

  • Uložte štruktúrované výsledky v databáze, Excelovom súbore alebo systéme spracovania downstream.
  • Opcionálne použite aplikáciu Aspose.PDF.Plugin TableGenerator na injekciu štruktúrovaných údajov späť do súhrnu PDF alebo správy.

Výkonné scenáre a riešenie problémov

  • Batch extrakcia:

  • Prejdite viacerými PDF a zhromažďujte štruktúrované údaje zo všetkých dokumentov.

  • Spojenie OCR:

  • Pre skenované PDF, používať OCR pluginy najprv pred textové extrakcie.

  • Chyby v riešení:

  • Chytiť a zaznamenať chyby API, neplatné odpovede JSON a neštruktúrované fragmenty.

Najlepšie postupy pre presnosť a súlad

  • Pred čistením PDF text pred odoslaním na ChatGPT odstrániť hlavičky / stopy.
  • Vyhnite sa odosielaniu citlivých dokumentov, pokiaľ nepoužívate bezpečné/autorizované AI koncové body.
  • Pri kritickej extrakcii údajov použite postup validácie po spracovaní.

FAQ: Štruktúrovaná extrakcia údajov s ChatGPT

**Q: Aké typy štruktúrovaných údajov môžem extrahovať z PDF?**A: tabuľky, zoznamy, menované polia a pravidelné vzory (ako sú dátumy, množstvo, ID).

**Q: Môže táto metóda spracovať viacero PDF súčasne?**Odpoveď: Áno. Batch extrakcia je podporovaná – prejdite cez váš súbor PDF a zhromažďujte výsledky.

**Q: Je ChatGPT vždy presný s tabuľkami a číslami?**A: Pre najlepšie výsledky použite presné rýchlosti a overte všetky výstupy v kóde.

 Slovenčina