Hogyan lehet kivonni a strukturált adatokat a PDF-ből a ChatGPT és a .NET segítségével

Hogyan lehet kivonni a strukturált adatokat a PDF-ből a ChatGPT és a .NET segítségével

Távolítsa el a fejlett automatizálást és az AI-alapú munkafolyamatokat a .NET alkalmazásokban a strukturált adatok (például táblák, űrlapok vagy szervezetek) PDF-kból történő kivonásával és gépesen olvasható formátumokba történő átalakításával.Ez a részletes útmutató minden lépésen keresztül halad – a szöveges kivonatról az intelligens adatokhoz a ChatGPT segítségével.

Bevezetés

A PDF dokumentumokból származó strukturált adatok kivonása kritikus követelmény az üzleti intelligencia, a jelentés és az automatizálási forgatókönyvek szempontjából.Míg az Aspose.PDF.Plugin lehetővé teszi a .NET szilárd szöveges kivonatát, azt a ChatGPT-vel összefüggésbe hozhatja, kategorizálja és formázza az információkat JSON, CSV vagy domain objektumként.

Általános használati esetek:

  • Számlázási adatok kivonása számviteli automatizáláshoz
  • A kutatási papírokból származó táblák
  • A szkennelt formanyomtatványok strukturált rekordokká alakítása

1. lépés: A szöveg vagy a táblázat tartalmának PDF-ből történő kivonása

Kezdjük azzal, hogy a TextExtractor vagy a táblázati adatokhoz speciális opciók az Aspose.PDF.Plugin.

using Aspose.Pdf.Plugins;

var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();

Kezdés 2: Készítsen és küldje el a Prompts a ChatGPT

A ChatGPT-t arra utasíthatja, hogy az adatokat strukturált formátumban, mint például a JSON vagy a CSV-ben törölje és visszaküldi.

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
  • Tippek a jobb eredményekért:

  • Használjon egyértelmű, kifejezett javaslatokat: „Távolítsa ki az elemek leírásainak, áraknak és összességének táblázatát, mint JSON.”

  • A nagy PDF-k esetében a szöveget logikai szegmensekben (például egy táblázat egyszerre) kell kivonni és elküldeni.

Lépés 3: Parse és Validate AI Output

Miután megkapta a ChatGPT válaszát, osztja meg a strukturált adatokat egy JSON (vagy CSV) osztó segítségével:

// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);

public class InvoiceItem
{
    public string Description { get; set; }
    public decimal Price { get; set; }
    public int Quantity { get; set; }
    public decimal Total { get; set; }
}

Validációs lépések:

  • Ellenőrizze az érvényes adattípusokat (szám, dátum stb.)
  • Log vagy zászló hiányos / kétértelmű adatok felülvizsgálat céljából

4. lépés: Adatok mentése vagy használata

  • A strukturált eredményeket egy adatbázisban, az Excel-fájlban vagy a downstream feldolgozó rendszerben tárolja.
  • Opcionálisan használja az Aspose.PDF.Plugin TableGenerator-ot a strukturált adatok visszaadásához egy összefoglaló PDF-be vagy jelentésbe.

Fokozott forgatókönyvek és problémamegoldások

  • • Batch extrakció:

  • Menjen keresztül több PDF-t, és összegyűjti a strukturált adatokat az összes dokumentumból.

  • Az OCR kombinációja:

  • A szkennelt PDF-k esetében először használja az OCR plug-ineket a szöveg kivonása előtt.

  • • Hibaelhárítás:

  • Az API hibák, a nem megfelelő JSON válaszok és a strukturálatlan töredékek rögzítése és bejegyzése.

Legjobb gyakorlatok a pontosságért és a megfelelésért

  • Előzetesen tisztítsa meg a PDF szöveget, mielőtt elküldi a ChatGPT-nek, hogy eltávolítsák a fejhallgatókat / lábnyomokat.
  • Kerülje az érzékeny dokumentumok küldését, kivéve, ha biztonságos/engedélyezett AI végpontokat használ.
  • A kritikus adatok kivonásához használjon egy feldolgozás utáni validációs lépést.

FAQ: Strukturált adatok kivonása a ChatGPT-vel

**Q: Milyen típusú strukturált adatokat tudok kivonni a PDF-kból?**A: Táblázatok, listák, megnevezett mezők és rendszeres minták (például dátumok, mennyiségek, azonosítók).

**Q: Ez a módszer egyszerre több PDF-t feldolgozhat?**A: Igen. a Batch kivonata támogatott – fut a PDF-készleten keresztül, és összegyűjti az eredményeket.

**Q: A ChatGPT mindig pontos a táblákkal és a számokkal?**A: A legjobb eredmények elérése érdekében használjon pontos pontokat, és validálja az összes kimenetet a kódban.

 Magyar