Ako extrahovať text z skenovaných PDF v .NET pomocou Aspose.OCR
Skanované PDF sú často náročné pracovať s tým, pretože sú v podstate len obrázky textu. Konverzia týchto obrázkov do vyhľadávateľných, editovateľných textových dokumentov otvára svet možností pre správu dokumentu a prístupnosť obsahu. Aspose.OCR pre .NET, môžete konverziu skenovaných PDF do plne hľadaných dokladov pri zachovaní pôvodných obrazov.
Prečo je OCR (Optical Character Recognition) dôležité pre skenované PDF
Data extrakcia:- OCR umožňuje premeniť skenovaný text na strojovo čitateľné údaje, ktoré môžu byť upravené a indexované.
Vyhľadávateľnosť:- Konvertovaním skenovaných PDF do vyhľadávateľných dokumentov môžete rýchlo nájsť relevantné informácie bez manuálneho vyhľadávania cez stránky.
Zlepšená produktivita:- Ušetrite čas automatizáciou konverzie skenovaných dokumentov do editovateľných formátov, ako je napríklad Word alebo Excel.
Predpoklady: Nastavenie skenovanej PDF textovej extrakcie
Predtým, než začnete extrahovať text z skenovaných PDF, uistite sa, že nasledujúce kroky sú kompletné:
Inštalovať Aspose.OCR pre .NET:- Pridajte Aspose.OCR do svojho projektu pomocou NuGet:
dotnet add package Aspose.OCR
Získajte zmiernenú licenciu:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Pripravte svoje skenované PDF súbory:- Uistite sa, že vaše skenované PDF sú vysokej kvality. Lepšie výsledky kvality v presnejších OCR.
Krok za krokom sprievodca: Odstránenie textu z skenovaných PDF
Krok 1: Inštalácia potrebnej knižnice
Začnite inštaláciou Aspose.OCR pre .NET do vášho projektu.
dotnet add package Aspose.OCR
Krok 2: Nastavenie licenčných kľúčov
Pred začatím postupu nastavte svoju licenciu pre Aspose.OCR a odomknite všetky funkcie.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Krok 3: Nahrať skenovaný PDF do OCR vstupného objektu
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Krok 4: Spracovanie skenovaného PDF pomocou motora OCR
S PDF nahraným, prejdite ho na Aspose OCR motor pre rozpoznanie.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Krok 5: Vypnite rozpoznaný text alebo ho uložte
Akonáhle motor OCR spracováva PDF, môžete buď vytiahnuť uznaný text priamo alebo ho uložiť do súboru.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Krok 6: Testovanie a optimalizácia výsledkov OCR
Po extrahovaní textu testujte výstup pre presnosť. Ak je to potrebné, môžete tlačiť nastavenia OCR na zlepšenie výsledkov pre rôzne rozloženia dokumentov.
Spoločné problémy a riešenia
Nízka presnosť OCR
- Riešenie: Uistite sa, že skenovaná kvalita PDF je vysoká.
• Nepodporované fonty
- Riešenie: Poskytnite správne jazykové nastavenie v možnostiach OCR na zvýšenie rozpoznávania ne-latínskych znakov.
3. pomalé výkony
- Riešenie: Rozdeľte PDF do menších kusov alebo stránok pre rýchlejšie spracovanie, najmä pre veľké dokumenty.