Kā izņemt strukturētus datus no PDF, izmantojot ChatGPT un .NET

Atslēdziet uzlabotas automatizācijas un AI darbplūsmas jūsu .NET lietojumprogrammās, iegūstot strukturētus datus (piemēram, tabulas, veidlapas vai vienības) no PDF un pārvēršot tos mašīnlasāmos formātos.

ievadīšana

Strukturēta datu ekstrakcija no PDF dokumentiem ir kritiska prasība uzņēmējdarbības izlūkošanas, ziņošanas un automatizācijas scenārijām. Lai gan Aspose.PDF.Plugin ļauj spēcīgu teksta extrakciju .NET, apvienojot to ar ChatGPT, jūs varat sadalīt, kategorizēt un formatēt informāciju kā JSON, CSV vai domēna objektus.

Visbiežāk lietotie gadījumi:

Rēķinu datu iegūšana grāmatvedības automatizācijai
Parādīt tabulas no pētniecības dokumentiem
Pārveidojiet skenētos veidlapas strukturētajos ierakstos

Kāp 1: Izņemt teksta vai tabulas saturu no PDF

Sāciet, izmantojot TextExtractor vai, tabulas datiem, specializētas iespējas Aspose.PDF.Plugin.

using Aspose.Pdf.Plugins;

var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();

Kāp 2: Sagatavojiet un nosūtīt Prompts ChatGPT

Jūs varat norādīt ChatGPT, lai parsētu un atgriezt datus strukturētā formātā, piemēram, JSON vai CSV.

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples

Tips par labākajiem rezultātiem:
Izmantojiet skaidrus, izteiktus apgalvojumus: “Izvadīt tabulu priekšmetu aprakstu, cenas un kopumā kā JSON.”
Lieliem PDF dokumentiem izrakstīt un nosūtīt tekstu loģiskajos segmentos (piemēram, vienu tabulu vienlaicīgi).

Kāp 3: Parse un validate AI output

Pēc tam, kad saņemat ChatGPT atbildi, sadalīt strukturētos datus, izmantojot JSON (vai CSV) sadales:

// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);

public class InvoiceItem
{
    public string Description { get; set; }
    public decimal Price { get; set; }
    public int Quantity { get; set; }
    public decimal Total { get; set; }
}

Validācijas posmi:

Pārbaudiet derīgos datu veidus (numeris, datums utt.)
Dzīvoklis vai zīme nepilnīgi / abstrakti dati pārskatīšanai

4. solis: glabāt vai izmantot iegūtos datus

Uzglabāt strukturētos rezultātus datubāzē, Excel failā vai lejupslīdes apstrādes sistēmā.
Opcionāli izmantojiet Aspose.PDF.Plugin tabulas ģeneratoru, lai ievietotu strukturētus datus atpakaļ kopsavilkuma PDF vai ziņojumā.

Scenāriji un problēmu risināšana

Batch ekstrakcija:
Meklējiet vairākus PDF failus un apkopojiet strukturētus datus no visiem dokumentiem.
Saskaņā ar OCR:
Skanētiem PDF failiem vispirms pirms teksta ekstrakcijas izmantojiet OCR plugins.
kļūdu apstrāde:
Pieņemt un ierakstīt API kļūdas, neesošas JSON atbildes, un nestrukturēti fragmenti.

Labākās prakses precizitātes un atbilstības nodrošināšanai

Pre-tīrs PDF teksts pirms nosūtīšanas uz ChatGPT, lai noņemtu virsrakstus / pēdas.
Izvairieties no jutīgu dokumentu nosūtīšanas, ja vien neizmantojiet drošas/autoritātes AI galamērķus.
Lai iegūtu kritiskus datus, izmantojiet pēcapstrādes validācijas posmu.

FAQ: Strukturēta datu ekstrakcija ar ChatGPT

**Q: Kādus strukturētus datus es varu iegūt no PDF?**A: tabulas, saraksti, nosauktie lauki un regulāri modeļi (piemēram, datumi, summas, ID).

**Q: Vai šī metode var apstrādāt vairākus PDF failus vienlaicīgi?**A: Jā. Batch ekstrakcija tiek atbalstīta — iet caur jūsu PDF Iestatīt un apvienot rezultātus.

**Q: Vai ChatGPT vienmēr ir precīzs ar tabulām un skaitļiem?**A: Lai iegūtu vislabākos rezultātus, izmantojiet precīzus ātrumus un validējiet visus iznākumus kodā.