Hogyan lehet kivonni a szöveget a szkennelt PDF-kból a .NET-ben az Aspose.OCR használatával

Hogyan lehet kivonni a szöveget a szkennelt PDF-kból a .NET-ben az Aspose.OCR használatával

A szkennelt PDF-k gyakran kihívást jelentenek azért, mert lényegében csak szöveges képek.Ezeknek a képeknek a kereshető, szerkeszthető szövegdokumentumokká való átalakítása a dokumentumkezelés és a tartalom hozzáférhetőségének lehetőségeinek világát nyitja meg. Aspose.OCR for .NET segítségével a skannált pdf-eket teljes körűen kereshetőkké alakíthatja, miközben megőrizheti az eredeti képeket.

Miért fontos az OCR (Optical Character Recognition) a szkennelt PDF-k számára

  • Adatok kivonása:- Az OCR lehetővé teszi, hogy a szkennelt szöveget gépi olvasható adatokká alakítsa át, amelyek szerkeszthetők és indexálhatók.

  • Keresési lehetőségek:- A szkennelt PDF-k kereshető dokumentumokká történő átalakításával gyorsan megtalálhatja a releváns információkat anélkül, hogy manuálisan keresné az oldalakat.

  • A termelékenység javítása:- Időt takarít meg azáltal, hogy automatizálja a szkennelt dokumentumok szerkeszthető formátumokba történő átalakítását, mint például a Word vagy az Excel.

Előfeltételek: A szkennelt PDF szöveges kivonat beállítása

Mielőtt elkezdené a szöveg kivonását a szkennelt PDF-kból, győződjön meg róla, hogy a következő lépések teljesek:

  • Az ASPOSE.OCR telepítése a .NET-hez:- Hozzáadása Aspose.OCR a projekthez a NuGet használatával: dotnet add package Aspose.OCR

  • Megszerezze a Mérett Licencet:- Set up your metered license to unlock all features of the Aspose.OCR library using SetMeteredKey().

  • Készítsd el a szkennelt PDF-jeit:- Győződjön meg róla, hogy a szkennelt PDF-k magas minőségűek. jobb minőségű eredmények pontosabb OCR.

Lépésről lépésre útmutató: A szöveg kivonása a szkennelt PDF-kból

1. lépés: A szükséges könyvtár telepítése

Kezdje a Aspose.OCR .NET telepítésével a projektbe. ezt közvetlenül a NuGet-ről teheti meg.

dotnet add package Aspose.OCR

2. lépés: Állítsa be a licenc kulcsokat

Az eljárás megkezdése előtt állítsa be az Aspose.OCR licencjét, hogy feloldja az összes funkciót.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

3. lépés: Töltse le a szkennelt PDF-t az OCR beviteli objektumba

You’ll need to load the scanned PDF into the OcrInput object. Aspose.OCR supports scanning multiple pages of a PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

4. lépés: A szkennelt PDF feldolgozása az OCR motorral

A PDF feltöltésével átadja a Aspose OCR motorra a felismeréshez.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

5. lépés: Távolítsa el az elismert szöveget vagy mentse el

Miután az OCR motor feldolgozza a PDF-t, akkor vagy közvetlenül kiadhatja az elismert szöveget, vagy mentheti egy fájlba.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

6. lépés: tesztelni és optimalizálni az OCR eredményeket

A szöveg kivonása után teszteljük a kimenetet a pontosság érdekében. ha szükséges, az OCR beállításokat nyomhatja, hogy javítsa az eredményeket a különböző dokumentumtervezésekhez.

Közös problémák és megoldások

1. A rossz OCR pontosság

  • Teljesítmény: Győződjön meg arról, hogy a szkennelt PDF-minőség magas.A felismerés pontosságának javítása érdekében használjon nagy felbontású szkennereket.

2. Támogatatlan források

  • Feltételek: A helyes nyelvi beállítás biztosítása az OCR opciókban a nem latin karakterek felismerésének javítása érdekében.

3. Lassú teljesítmény

  • Teljesítés: A PDF-t kisebb darabokra vagy oldalakra vágjuk fel a gyorsabb feldolgozás érdekében, különösen a nagy dokumentumok esetében.
 Magyar