Hogyan lehet kivonni a strukturált adatokat a PDF-ből a ChatGPT és a .NET segítségével
Távolítsa el a fejlett automatizálást és az AI-alapú munkafolyamatokat a .NET alkalmazásokban a strukturált adatok (például táblák, űrlapok vagy szervezetek) PDF-kból történő kivonásával és gépesen olvasható formátumokba történő átalakításával.Ez a részletes útmutató minden lépésen keresztül halad – a szöveges kivonatról az intelligens adatokhoz a ChatGPT segítségével.
Bevezetés
A PDF dokumentumokból származó strukturált adatok kivonása kritikus követelmény az üzleti intelligencia, a jelentés és az automatizálási forgatókönyvek szempontjából.Míg az Aspose.PDF.Plugin lehetővé teszi a .NET szilárd szöveges kivonatát, azt a ChatGPT-vel összefüggésbe hozhatja, kategorizálja és formázza az információkat JSON, CSV vagy domain objektumként.
Általános használati esetek:
- Számlázási adatok kivonása számviteli automatizáláshoz
- A kutatási papírokból származó táblák
- A szkennelt formanyomtatványok strukturált rekordokká alakítása
1. lépés: A szöveg vagy a táblázat tartalmának PDF-ből történő kivonása
Kezdjük azzal, hogy a TextExtractor
vagy a táblázati adatokhoz speciális opciók az Aspose.PDF.Plugin.
using Aspose.Pdf.Plugins;
var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();
Kezdés 2: Készítsen és küldje el a Prompts a ChatGPT
A ChatGPT-t arra utasíthatja, hogy az adatokat strukturált formátumban, mint például a JSON vagy a CSV-ben törölje és visszaküldi.
string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
Tippek a jobb eredményekért:
Használjon egyértelmű, kifejezett javaslatokat: „Távolítsa ki az elemek leírásainak, áraknak és összességének táblázatát, mint JSON.”
A nagy PDF-k esetében a szöveget logikai szegmensekben (például egy táblázat egyszerre) kell kivonni és elküldeni.
Lépés 3: Parse és Validate AI Output
Miután megkapta a ChatGPT válaszát, osztja meg a strukturált adatokat egy JSON (vagy CSV) osztó segítségével:
// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);
public class InvoiceItem
{
public string Description { get; set; }
public decimal Price { get; set; }
public int Quantity { get; set; }
public decimal Total { get; set; }
}
Validációs lépések:
- Ellenőrizze az érvényes adattípusokat (szám, dátum stb.)
- Log vagy zászló hiányos / kétértelmű adatok felülvizsgálat céljából
4. lépés: Adatok mentése vagy használata
- A strukturált eredményeket egy adatbázisban, az Excel-fájlban vagy a downstream feldolgozó rendszerben tárolja.
- Opcionálisan használja az Aspose.PDF.Plugin TableGenerator-ot a strukturált adatok visszaadásához egy összefoglaló PDF-be vagy jelentésbe.
Fokozott forgatókönyvek és problémamegoldások
• Batch extrakció:
Menjen keresztül több PDF-t, és összegyűjti a strukturált adatokat az összes dokumentumból.
Az OCR kombinációja:
A szkennelt PDF-k esetében először használja az OCR plug-ineket a szöveg kivonása előtt.
• Hibaelhárítás:
Az API hibák, a nem megfelelő JSON válaszok és a strukturálatlan töredékek rögzítése és bejegyzése.
Legjobb gyakorlatok a pontosságért és a megfelelésért
- Előzetesen tisztítsa meg a PDF szöveget, mielőtt elküldi a ChatGPT-nek, hogy eltávolítsák a fejhallgatókat / lábnyomokat.
- Kerülje az érzékeny dokumentumok küldését, kivéve, ha biztonságos/engedélyezett AI végpontokat használ.
- A kritikus adatok kivonásához használjon egy feldolgozás utáni validációs lépést.
FAQ: Strukturált adatok kivonása a ChatGPT-vel
**Q: Milyen típusú strukturált adatokat tudok kivonni a PDF-kból?**A: Táblázatok, listák, megnevezett mezők és rendszeres minták (például dátumok, mennyiségek, azonosítók).
**Q: Ez a módszer egyszerre több PDF-t feldolgozhat?**A: Igen. a Batch kivonata támogatott – fut a PDF-készleten keresztül, és összegyűjti az eredményeket.
**Q: A ChatGPT mindig pontos a táblákkal és a számokkal?**A: A legjobb eredmények elérése érdekében használjon pontos pontokat, és validálja az összes kimenetet a kódban.