Jak extrahovat strukturované údaje z PDF pomocí ChatGPT a .NET

Odemkněte pokročilou automatizaci a pracovní toky na bázi umělé inteligence ve vašich aplikacích .NET tím, že extrahujete strukturované údaje (jako jsou tabulky, formuláře nebo subjekty) z PDF a převádíte je do strojově čitelných formátů.

Úvod

Strukturované datové extrakce z dokumentů PDF je kritickým požadavkem pro obchodní inteligenci, reporting a automatizační scénáře. Zatímco Aspose.PDF.Plugin umožňuje robustní textové ekstrakci v .NET, propojení s ChatGPT umožňuje rozlišovat, kategorizovat a formátovat informace jako JSON, CSV nebo doménové objekty.

Obvyklé případy používání:

Účetní data pro účetní automatizaci
Přehled tabulek z výzkumných dokumentů
Přeměna skenovaných formulářů na strukturované záznamy

Krok 1: Odstraňte text nebo tabulkový obsah z PDF

Začněte tím, že používáte TextExtractor nebo pro tabulkové údaje specializované možnosti v Aspose.PDF.Plugin.

using Aspose.Pdf.Plugins;

var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();

Krok 2: Připravte a pošlete příručky na ChatGPT

Můžete nařídit ChatGPT, abyste rozmazali a vrátili data ve strukturovaném formátu, jako je JSON nebo CSV.

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples

Tipy pro lepší výsledky:
Použijte jasné, explicitní přísloví: „Vyložit tabulku popisů položek, cen a celků jako JSON.”
Pro velké PDF, extrahujte a odesílejte text v logických segmentech (např. jedna tabulka najednou).

Krok 3: Parse a Validate AI Output

Po obdržení odpovědi ChatGPT, parci strukturované údaje pomocí parce JSON (nebo CSV:

// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);

public class InvoiceItem
{
    public string Description { get; set; }
    public decimal Price { get; set; }
    public int Quantity { get; set; }
    public decimal Total { get; set; }
}

Validační kroky:

Zkontrolujte platné typy dat (číslo, datum atd.)
Záznam nebo vlajka neúplné / dvoumístné údaje pro přezkum

Krok 4: Uložte nebo použijte extrahované údaje

Skladování strukturovaných výsledků v databázi, Excelovém souboru nebo downstreamovém systému zpracování.
Volitelně použijte tabulkový generátor aplikace Aspose.PDF.Plugin, abyste strukturované údaje znovu vložili do souhrnného PDF nebo zprávy.

Pokročilé scénáře a řešení problémů

Výrobce Batch:
Procházet více PDF a shromažďovat strukturované údaje ze všech dokumentů.
Kombinace OCR:
Pro skenované PDF použijte OCR pluginy nejprve před textovou extrakcí.
Chyby při zpracován:
Chytit a zaznamenat chyby API, neplatné JSON Odpovídání a neústavní fragmenty.

Nejlepší postupy pro přesnost a shodu

Předem vyčistěte text PDF před odesláním do ChatGPT, abyste odstranili titulky / stopy.
Vyhněte se odesílání citlivých dokumentů, ledaže používáte bezpečné/autorizované AI koncové body.
Pro extrakci kritických údajů použijte post-procesní fázi validace.

FAQ: Strukturovaná data extrakce s ChatGPT

**Q: Jaké typy strukturovaných dat mohu extrahovat z PDF?**A: Tabulky, seznamy, pojmenované pole a pravidelné vzory (jako jsou data, množství, ID).

**Q: Může tato metoda zpracovávat více PDF najednou?**Odpověď: Ano. Batch extrakce je podporována – běh přes vaše PDF Sestavte a agregujte výsledky.

**Q: Je ChatGPT vždy přesný s tabulkami a čísly?**Odpověď: Pro nejlepší výsledky použijte přesné rychlosti a ověřte všechny výstupy v kódu.