Kā izņemt strukturētus datus no PDF, izmantojot ChatGPT un .NET
Atslēdziet uzlabotas automatizācijas un AI darbplūsmas jūsu .NET lietojumprogrammās, iegūstot strukturētus datus (piemēram, tabulas, veidlapas vai vienības) no PDF un pārvēršot tos mašīnlasāmos formātos.
ievadīšana
Strukturēta datu ekstrakcija no PDF dokumentiem ir kritiska prasība uzņēmējdarbības izlūkošanas, ziņošanas un automatizācijas scenārijām. Lai gan Aspose.PDF.Plugin ļauj spēcīgu teksta extrakciju .NET, apvienojot to ar ChatGPT, jūs varat sadalīt, kategorizēt un formatēt informāciju kā JSON, CSV vai domēna objektus.
Visbiežāk lietotie gadījumi:
- Rēķinu datu iegūšana grāmatvedības automatizācijai
- Parādīt tabulas no pētniecības dokumentiem
- Pārveidojiet skenētos veidlapas strukturētajos ierakstos
Kāp 1: Izņemt teksta vai tabulas saturu no PDF
Sāciet, izmantojot TextExtractor
vai, tabulas datiem, specializētas iespējas Aspose.PDF.Plugin.
using Aspose.Pdf.Plugins;
var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();
Kāp 2: Sagatavojiet un nosūtīt Prompts ChatGPT
Jūs varat norādīt ChatGPT, lai parsētu un atgriezt datus strukturētā formātā, piemēram, JSON vai CSV.
string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
Tips par labākajiem rezultātiem:
Izmantojiet skaidrus, izteiktus apgalvojumus: “Izvadīt tabulu priekšmetu aprakstu, cenas un kopumā kā JSON.”
Lieliem PDF dokumentiem izrakstīt un nosūtīt tekstu loģiskajos segmentos (piemēram, vienu tabulu vienlaicīgi).
Kāp 3: Parse un validate AI output
Pēc tam, kad saņemat ChatGPT atbildi, sadalīt strukturētos datus, izmantojot JSON (vai CSV) sadales:
// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);
public class InvoiceItem
{
public string Description { get; set; }
public decimal Price { get; set; }
public int Quantity { get; set; }
public decimal Total { get; set; }
}
Validācijas posmi:
- Pārbaudiet derīgos datu veidus (numeris, datums utt.)
- Dzīvoklis vai zīme nepilnīgi / abstrakti dati pārskatīšanai
* 4. solis: glabāt vai izmantot iegūtos datus*
- Uzglabāt strukturētos rezultātus datubāzē, Excel failā vai lejupslīdes apstrādes sistēmā.
- Opcionāli izmantojiet Aspose.PDF.Plugin tabulas ģeneratoru, lai ievietotu strukturētus datus atpakaļ kopsavilkuma PDF vai ziņojumā.
Scenāriji un problēmu risināšana
Batch ekstrakcija:
Meklējiet vairākus PDF failus un apkopojiet strukturētus datus no visiem dokumentiem.
** Saskaņā ar OCR:**
Skanētiem PDF failiem vispirms pirms teksta ekstrakcijas izmantojiet OCR plugins.
kļūdu apstrāde:
Iepazīstiet un ierakstiet API kļūdas, nevēlamas JSON atbildes un nestrukturētas fragmentus.
** Labākās prakses precizitātes un atbilstības nodrošināšanai**
- Pre-tīrs PDF teksts pirms nosūtīšanas uz ChatGPT, lai noņemtu virsrakstus / pēdas.
- Izvairieties no jutīgu dokumentu nosūtīšanas, ja vien neizmantojiet drošas/autoritātes AI galamērķus.
- Lai iegūtu kritiskus datus, izmantojiet pēcapstrādes validācijas posmu.
FAQ: Strukturēta datu ekstrakcija ar ChatGPT
**Q: Kādus strukturētus datus es varu iegūt no PDF?**A: tabulas, saraksti, nosauktie lauki un regulāri modeļi (piemēram, datumi, summas, ID).
**Q: Vai šī metode var apstrādāt vairākus PDF failus vienlaicīgi?**A: Jā. Batch ekstrakcija tiek atbalstīta – iet caur jūsu PDF sadaļu un apvienot rezultātus.
**Q: Vai ChatGPT vienmēr ir precīzs ar tabulām un skaitļiem?**A: Lai iegūtu vislabākos rezultātus, izmantojiet precīzus ātrumus un validējiet visus iznākumus kodā.