Jak extrahovat strukturované údaje z PDF pomocí ChatGPT a .NET
Odemkněte pokročilou automatizaci a pracovní toky na bázi umělé inteligence ve vašich aplikacích .NET tím, že extrahujete strukturované údaje (jako jsou tabulky, formuláře nebo subjekty) z PDF a převádíte je do strojově čitelných formátů.
• Úvod
Strukturované datové extrakce z dokumentů PDF je kritickým požadavkem pro obchodní inteligenci, reporting a automatizační scénáře. Zatímco Aspose.PDF.Plugin umožňuje robustní textové ekstrakci v .NET, propojení s ChatGPT umožňuje rozlišovat, kategorizovat a formátovat informace jako JSON, CSV nebo doménové objekty.
Obvyklé případy používání:
- Účetní data pro účetní automatizaci
- Přehled tabulek z výzkumných dokumentů
- Přeměna skenovaných formulářů na strukturované záznamy
Krok 1: Odstraňte text nebo tabulkový obsah z PDF
Začněte tím, že používáte TextExtractor
nebo pro tabulkové údaje specializované možnosti v Aspose.PDF.Plugin.
using Aspose.Pdf.Plugins;
var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();
Krok 2: Připravte a pošlete příručky na ChatGPT
Můžete nařídit ChatGPT, abyste rozmazali a vrátili data ve strukturovaném formátu, jako je JSON nebo CSV.
string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
Tipy pro lepší výsledky:
Použijte jasné, explicitní přísloví: „Vyložit tabulku popisů položek, cen a celků jako JSON.“
Pro velké PDF, extrahujte a odesílejte text v logických segmentech (např. jedna tabulka najednou).
Krok 3: Parse a Validate AI Output
Po obdržení odpovědi ChatGPT, parci strukturované údaje pomocí parce JSON (nebo CSV):
// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);
public class InvoiceItem
{
public string Description { get; set; }
public decimal Price { get; set; }
public int Quantity { get; set; }
public decimal Total { get; set; }
}
Validační kroky :
- Zkontrolujte platné typy dat (číslo, datum atd.)
- Záznam nebo vlajka neúplné / dvoumístné údaje pro přezkum
Krok 4: Uložte nebo použijte extrahované údaje
- Skladování strukturovaných výsledků v databázi, Excelovém souboru nebo downstreamovém systému zpracování.
- Volitelně použijte tabulkový generátor aplikace Aspose.PDF.Plugin, abyste strukturované údaje znovu vložili do souhrnného PDF nebo zprávy.
Pokročilé scénáře a řešení problémů
Výrobce Batch:
Procházet více PDF a shromažďovat strukturované údaje ze všech dokumentů.
Kombinace OCR:
Pro skenované PDF použijte OCR pluginy nejprve před textovou extrakcí.
Chyby při zpracován:
Chytit a zaznamenat chyby API, neplatné odpovědi JSON a nestrukturované fragmenty.
Nejlepší postupy pro přesnost a shodu
- Předem vyčistěte text PDF před odesláním do ChatGPT, abyste odstranili titulky / stopy.
- Vyhněte se odesílání citlivých dokumentů, ledaže používáte bezpečné/autorizované AI koncové body.
- Pro extrakci kritických údajů použijte post-procesní fázi validace.
FAQ: Strukturovaná data extrakce s ChatGPT
**Q: Jaké typy strukturovaných dat mohu extrahovat z PDF?**A: Tabulky, seznamy, pojmenované pole a pravidelné vzory (jako jsou data, množství, ID).
**Q: Může tato metoda zpracovávat více PDF najednou?**Odpověď: Ano. Batch extrakce je podporována – projděte prostřednictvím vašeho souboru PDF a shromažďujte výsledky.
**Q: Je ChatGPT vždy přesný s tabulkami a čísly?**Odpověď: Pro nejlepší výsledky použijte přesné rychlosti a ověřte všechny výstupy v kódu.