Jak extrahovat strukturované údaje z PDF pomocí ChatGPT a .NET

Jak extrahovat strukturované údaje z PDF pomocí ChatGPT a .NET

Odemkněte pokročilou automatizaci a pracovní toky na bázi umělé inteligence ve vašich aplikacích .NET tím, že extrahujete strukturované údaje (jako jsou tabulky, formuláře nebo subjekty) z PDF a převádíte je do strojově čitelných formátů.

• Úvod

Strukturované datové extrakce z dokumentů PDF je kritickým požadavkem pro obchodní inteligenci, reporting a automatizační scénáře. Zatímco Aspose.PDF.Plugin umožňuje robustní textové ekstrakci v .NET, propojení s ChatGPT umožňuje rozlišovat, kategorizovat a formátovat informace jako JSON, CSV nebo doménové objekty.

Obvyklé případy používání:

  • Účetní data pro účetní automatizaci
  • Přehled tabulek z výzkumných dokumentů
  • Přeměna skenovaných formulářů na strukturované záznamy

Krok 1: Odstraňte text nebo tabulkový obsah z PDF

Začněte tím, že používáte TextExtractor nebo pro tabulkové údaje specializované možnosti v Aspose.PDF.Plugin.

using Aspose.Pdf.Plugins;

var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();

Krok 2: Připravte a pošlete příručky na ChatGPT

Můžete nařídit ChatGPT, abyste rozmazali a vrátili data ve strukturovaném formátu, jako je JSON nebo CSV.

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
  • Tipy pro lepší výsledky:

  • Použijte jasné, explicitní přísloví: „Vyložit tabulku popisů položek, cen a celků jako JSON.“

  • Pro velké PDF, extrahujte a odesílejte text v logických segmentech (např. jedna tabulka najednou).

Krok 3: Parse a Validate AI Output

Po obdržení odpovědi ChatGPT, parci strukturované údaje pomocí parce JSON (nebo CSV):

// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);

public class InvoiceItem
{
    public string Description { get; set; }
    public decimal Price { get; set; }
    public int Quantity { get; set; }
    public decimal Total { get; set; }
}

Validační kroky :

  • Zkontrolujte platné typy dat (číslo, datum atd.)
  • Záznam nebo vlajka neúplné / dvoumístné údaje pro přezkum

Krok 4: Uložte nebo použijte extrahované údaje

  • Skladování strukturovaných výsledků v databázi, Excelovém souboru nebo downstreamovém systému zpracování.
  • Volitelně použijte tabulkový generátor aplikace Aspose.PDF.Plugin, abyste strukturované údaje znovu vložili do souhrnného PDF nebo zprávy.

Pokročilé scénáře a řešení problémů

  • Výrobce Batch:

  • Procházet více PDF a shromažďovat strukturované údaje ze všech dokumentů.

  • Kombinace OCR:

  • Pro skenované PDF použijte OCR pluginy nejprve před textovou extrakcí.

  • Chyby při zpracován:

  • Chytit a zaznamenat chyby API, neplatné odpovědi JSON a nestrukturované fragmenty.

Nejlepší postupy pro přesnost a shodu

  • Předem vyčistěte text PDF před odesláním do ChatGPT, abyste odstranili titulky / stopy.
  • Vyhněte se odesílání citlivých dokumentů, ledaže používáte bezpečné/autorizované AI koncové body.
  • Pro extrakci kritických údajů použijte post-procesní fázi validace.

FAQ: Strukturovaná data extrakce s ChatGPT

**Q: Jaké typy strukturovaných dat mohu extrahovat z PDF?**A: Tabulky, seznamy, pojmenované pole a pravidelné vzory (jako jsou data, množství, ID).

**Q: Může tato metoda zpracovávat více PDF najednou?**Odpověď: Ano. Batch extrakce je podporována – projděte prostřednictvím vašeho souboru PDF a shromažďujte výsledky.

**Q: Je ChatGPT vždy přesný s tabulkami a čísly?**Odpověď: Pro nejlepší výsledky použijte přesné rychlosti a ověřte všechny výstupy v kódu.

 Čeština