Hogyan lehet átalakítani a szkennelt PDF-ket kereshető szöveges dokumentumok .NET
A szkennelt PDF-k gyakran kihívást jelentenek azért, mert lényegében csak szöveges képek.Ezeknek a képeknek a kereshető, szerkeszthető szövegdokumentumokká való átalakítása a dokumentumkezelés és a tartalom hozzáférhetőségének lehetőségeinek világát nyitja meg. Aspose.OCR for .NET segítségével a skannált pdf-eket teljes körűen kereshetőkké alakíthatja, miközben megőrizheti az eredeti képeket.
Miért átalakítja a szkennelt PDF-eket kereshető szöveges dokumentumokká?
hozzáférhetőség:- A szkennelt tartalmat kereshetővé teszi, így könnyű információkat találni anélkül, hogy manuálisan olvasson a dokumentumon keresztül.
tartalomszerkesztés:- A szövegre való átalakítás után a tartalmat szerkeszthetjük, frissíthetjük vagy más formátumokban újra használhatjuk.
Hatékonyság:- Időt takarít meg azáltal, hogy automatizálja a szkennelt PDF-k teljes mértékben hozzáférhető szöveges dokumentumokká történő átalakítását.
Előfeltételek: A szkennelt PDF szöveges kivonat beállítása
Mielőtt kivonja a szöveget a szkennelt PDF-k, kövesse ezeket a lépéseket, hogy minden be van állítva:
Az ASPOSE.OCR telepítése a .NET-hez:- Hozzáadása Aspose.OCR a projekthez a NuGet használatával:
dotnet add package Aspose.OCR
A licenc megszerzése:- Set up your metered license using
SetMeteredKey()
to unlock the full functionality of Aspose.OCR.Készítse fel a szkennelt PDF-t:- Győződjön meg róla, hogy a szkennelt PDF-k jó minőségűek a jobb felismerési pontosság érdekében.
Lépésről lépésre útmutató: A szkennelt PDF-k kereshető szövegre történő átalakítása
1. lépés: A licenc beállítása
Kezdjük azzal, hogy konfigurálja az Aspose.OCR licencét, hogy minden funkciót feloldjon.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
2. lépés: Töltse le a szkennelt PDF-t az OCR beviteli objektumba
Ezután töltse le a szkennelt PDF-t a OcrInput objektumba, hogy elkezdje az OCR folyamatot.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
3. lépés: Az OCR motor beállítása a felismeréshez
Állítsa be az OCR-motort, és állítsa be a felismerési beállításokat, például a nyelvet és a pontosságot.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
4. lépés: Az elismert szöveg kivonása és kivonása
Most húzza ki a szöveget a szkennelt PDF-ből az OCR motor segítségével.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
5. lépés: Vizsgálja meg a kereshető PDF
Győződjön meg arról, hogy a kivont szöveg kereshető és szerkeszthető legyen, ha a kimenetet egy PDF nézőn vagy szerkesztőn teszteli.
Közös problémák és megoldások
1. Alacsony OCR pontosság
- Feltételek: Győződjön meg arról, hogy a szkennelt PDF-k kiváló minőségűek (legalább 300 DPI) a felismerési eredmények javítása érdekében.
2. Támogatatlan források
- Teljesítés: Biztosítsa a helyes nyelvet az OCR beállításokban a pontos szövegfelismerés érdekében, különösen a nem latin karakterek esetében.
3. Lassú teljesítmény nagy PDF-k számára
- Teljesítés: A nagy PDF-k esetében a dokumentumot kisebb darabokban vagy oldalakban feldolgozzuk a memória használatának csökkentése és a folyamat felgyorsítása érdekében.