Hogyan lehet automatizálni az adatok kivonását többoldalú PDF-kból az Aspose.OCR segítségével
A szkennerek, archívumok vagy vállalati munkafolyamatok több oldalas PDF-jei gyakran hatalmas mennyiségű kereshetetlen szöveget és táblázatot tartanak fenn. A kézi kivonás lassú és nem méretezhető. Az Aspose.OCR a .NET számára automatizálja a szöveg, az asztalok és a szerkezet hosszú, bonyolult, minimális kódgal rendelkező pdf-k kivonatát.
Valódi problémák
A jogi, pénzügyi és tudományos archívumok rendszeresen foglalkoznak többoldalú szkennelt PDF-kkal, amelyek több száz oldalt tartalmaznak.
megoldás áttekintése
Az ASPOSE.OCR for .NET csomagolhatja a feldolgozást és kiválaszthatja a szöveget / táblákat minden oldalról többoldalú PDF-ben. megadhatja az oldal rangsorát, az export formátumokat és az automatikus integrációt az üzleti alkalmazásokkal vagy a digitális archívumokkal.
előfeltételek
- Visual Studio 2019 vagy újabb
- .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET a NuGet-ről
- Alapvető C# programozási készségek
PM> Install-Package Aspose.OCR
lépésről lépésre megvalósítás
1. lépés: Az Aspose.OCR telepítése és konfigurálása
using Aspose.OCR;
2. lépés: Többoldalú PDF fájlok hozzáadása
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14
3. lépés: Állítsa be a felismerési beállításokat és az oldal rangsorát
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
4. lépés: A szöveg és a táblák kivonása minden oldalról
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5. lépés: Az egyes oldalak export eredményei
int page = 1;
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.txt", SaveFormat.Text);
result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
result.Save($"output_page_{page}.json", SaveFormat.Json);
page++;
}
6. lépés: A hibák kezelése és az adatok érvényesítése
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7. lépés: Optimalizálja a nagy fájlokat és a munkahelyeket
- PDF fájlok feldolgozása katalógus szerint
- Használja a szelektív oldalfeldolgozást a sebességhez
- Memória/CPU használata
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
8. lépés: Teljes példa
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf");
input.Add("report.pdf", 5, 10);
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
int page = 1;
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.txt", SaveFormat.Text);
result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
result.Save($"output_page_{page}.json", SaveFormat.Json);
page++;
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Esetek és alkalmazások használata
Jogi és megfelelőségi archívum
Jelölje ki a szerződések teljes tartalmát, a bírósági indítványokat vagy a kormányzati nyilvántartásokat a keresés és a megfelelés érdekében.
Akadémiai és kutatási archívumok
Digitalizálja és osztja a folyóiratokat, értekezleteket vagy adatlapokat az elemzéshez vagy az e-tanuláshoz.
Pénzügyi és ellenőrzési munkafolyamatok
Automatikus kivonás a nagy nyilatkozat archívumokból, jelentésekből és táblákból.
Közös kihívások és megoldások
1. kihívás: következetlenséges oldaltervezés
** Megoldás:** Az AUTO felderítés használata vagy az oldal tartományonként különböző módok beállítása.
Kihívás 2: Nagyon nagy PDF-k
** Megoldás:** Process in batches; split files for better memory performance.
3. kihívás: vegyes tartalom (szöveg, táblák, képek)
** Megoldás:** Validate és post-process kimenetek; tune detection mód.
A teljesítmény megfontolása
- A nagy PDF-k több memóriát/CPU-t igényelnek
- Szórakoztató munkák a legjobb teljesítményért
- Az integráció előtt hitelesítse a kimeneti mintákat
Legjobb gyakorlatok
- Használjon névszerződéseket a könnyű nyomon követéshez
- A többoldalú PDF-k megosztása, ha a fájlok nagyon nagyok
- Biztonságos forrás- és kimeneti dokumentumok
- Validálás és spot-check eredmények kritikus munkafolyamatokban
fejlett forgatókönyvek
1. forgatókönyv: Az oldalonként kereshető PDF-re exportálva
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
page++;
}
2. forgatókönyv: Adatbázishoz vagy felhőhöz való integráció
foreach (RecognitionResult result in results)
{
string json = File.ReadAllText($"output_page_{page}.json");
// Upload json or send to a cloud endpoint
}
következtetések
Az Aspose.OCR for .NET lehetővé teszi a szöveg és a strukturált adatok robusztus, méretezhető kivonását a többoldalú PDF-kból – időt takarít meg a kézi erőfeszítés és javítja a munkafolyamat automatizálását.
Lásd több PDF és csomag feldolgozási példát a Az ASPOSE.OCR a .NET API referenciájához .