Hogyan lehet kivonni a szöveget a szkennelt PDF-kból a .NET-ben az Aspose.OCR használatával
A szkennelt PDF-k gyakran kihívást jelentenek azért, mert lényegében csak szöveges képek.Ezeknek a képeknek a kereshető, szerkeszthető szövegdokumentumokká való átalakítása a dokumentumkezelés és a tartalom hozzáférhetőségének lehetőségeinek világát nyitja meg. Aspose.OCR for .NET segítségével a skannált pdf-eket teljes körűen kereshetőkké alakíthatja, miközben megőrizheti az eredeti képeket.
Miért fontos az OCR (Optical Character Recognition) a szkennelt PDF-k számára
Adatok kivonása:- Az OCR lehetővé teszi, hogy a szkennelt szöveget gépi olvasható adatokká alakítsa át, amelyek szerkeszthetők és indexálhatók.
Keresési lehetőségek:- A szkennelt PDF-k kereshető dokumentumokká történő átalakításával gyorsan megtalálhatja a releváns információkat anélkül, hogy manuálisan keresné az oldalakat.
A termelékenység javítása:- Időt takarít meg azáltal, hogy automatizálja a szkennelt dokumentumok szerkeszthető formátumokba történő átalakítását, mint például a Word vagy az Excel.
Előfeltételek: A szkennelt PDF szöveges kivonat beállítása
Mielőtt elkezdené a szöveg kivonását a szkennelt PDF-kból, győződjön meg róla, hogy a következő lépések teljesek:
Az ASPOSE.OCR telepítése a .NET-hez:- Hozzáadása Aspose.OCR a projekthez a NuGet használatával:
dotnet add package Aspose.OCR
Megszerezze a Mérett Licencet:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Készítsd el a szkennelt PDF-jeit:- Győződjön meg róla, hogy a szkennelt PDF-k magas minőségűek. jobb minőségű eredmények pontosabb OCR.
Lépésről lépésre útmutató: A szöveg kivonása a szkennelt PDF-kból
1. lépés: A szükséges könyvtár telepítése
Kezdje a Aspose.OCR .NET telepítésével a projektbe. ezt közvetlenül a NuGet-ről teheti meg.
dotnet add package Aspose.OCR
2. lépés: Állítsa be a licenc kulcsokat
Az eljárás megkezdése előtt állítsa be az Aspose.OCR licencjét, hogy feloldja az összes funkciót.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
3. lépés: Töltse le a szkennelt PDF-t az OCR beviteli objektumba
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
4. lépés: A szkennelt PDF feldolgozása az OCR motorral
A PDF feltöltésével átadja a Aspose OCR motorra a felismeréshez.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
5. lépés: Távolítsa el az elismert szöveget vagy mentse el
Miután az OCR motor feldolgozza a PDF-t, akkor vagy közvetlenül kiadhatja az elismert szöveget, vagy mentheti egy fájlba.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
6. lépés: tesztelni és optimalizálni az OCR eredményeket
A szöveg kivonása után teszteljük a kimenetet a pontosság érdekében. ha szükséges, az OCR beállításokat nyomhatja, hogy javítsa az eredményeket a különböző dokumentumtervezésekhez.
Közös problémák és megoldások
1. A rossz OCR pontosság
- Teljesítmény: Győződjön meg arról, hogy a szkennelt PDF-minőség magas.A felismerés pontosságának javítása érdekében használjon nagy felbontású szkennereket.
2. Támogatatlan források
- Feltételek: A helyes nyelvi beállítás biztosítása az OCR opciókban a nem latin karakterek felismerésének javítása érdekében.
3. Lassú teljesítmény
- Teljesítés: A PDF-t kisebb darabokra vagy oldalakra vágjuk fel a gyorsabb feldolgozás érdekében, különösen a nagy dokumentumok esetében.