Hogyan lehet javítani az OCR pontosságát az alacsony minőségű képeken az Aspose.OCR segítségével
Sok üzleti szempontból kritikus kép alacsony minőségű – blurry szkennelések, okostelefon fényképek, csúszott felvételek, vagy zajos faxok. Ezek a kihívások csökkentik az OCR pontosságát. Aspose.OCR for .NET beépített eszközöket és legjobb gyakorlatokat kínál a lehető legjobb szöveg kivonására még nehéz képekből.
Valódi problémák
Amikor a szkennelés zavaros, sötét, alacsony kontraszt, vagy háttér zaj, a szabványos OCR elveszíti a szavakat vagy rosszul felismerheti a karaktereket.
megoldás áttekintése
A preprocessing (deskew, denoise, kontraszt beállítása) és az Aspose.OCR beállítások alkalmazásával drámaian javíthatja a szöveges kivágást – még a subpar képekből is.
előfeltételek
- Visual Studio 2019 vagy újabb
- .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET a NuGet-ről
- Alapvető C# készségek
PM> Install-Package Aspose.OCR
lépésről lépésre megvalósítás
1. lépés: Az Aspose.OCR telepítése és konfigurálása
using Aspose.OCR;
2. lépés: Értékelje a kép minőségét
Ellenőrizze a:
- Blurriness
- Rózsaszín / Rotation
- háttér zaj
- Alacsony kontraszt
- Gyenge fény / árnyékok
3. lépés: A kép előre feldolgozása és javítása
Az ASPOSE.OCR szűrőkkel rendelkezik a megtagadáshoz, a leválasztáshoz, binarizálásához, kontraszthoz és még sok máshoz:
RecognitionSettings settings = new RecognitionSettings();
settings.AutoContrast = true; // Improve contrast automatically
settings.Denoising = true; // Remove background noise
settings.Deskew = true; // Correct rotated images
settings.Binarization = true; // Convert to black/white for clarity
4. lépés: Helyezze a felismerési beállításokat a nehéz képekre
Jobb eredményeket érhet el a tuning segítségével:
Language
ingatlan (válassza ki a legközelebbi mérkőzést)DetectAreasMode
(Auto vs. fotó)
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.PHOTO; // If image is a photo
5. lépés: A szöveg kivonása és érvényesítése
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("blurry_invoice.jpg");
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
6. lépés: Ellenőrizze és tesztelje a különböző beállításokkal
Próbálja ki a több kombinációt előre feldolgozó szűrők és beállítások, majd felülvizsgálja a kimenetel a legjobb pontosság.
7. lépés: A tömeges munkahelyek automatikus előfeldolgozása
Az összes képet az optimális beállításokkal feldolgozza egy kézikönyvben:
foreach (string file in Directory.GetFiles("./problem_images", "*.png"))
{
input.Add(file);
}
8. lépés: Teljes példa
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("blurry_invoice.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.AutoContrast = true;
settings.Denoising = true;
settings.Deskew = true;
settings.Binarization = true;
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.PHOTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Esetek és alkalmazások használata
Fájlok és faxok digitalizálása
Adatok kivonása feldolgozott, faxolt vagy törött bevételekből és számlákból.
Fizethető számlák automatizálása rossz szkenneléssel
Csökkentse az újrahasznosítást és felgyorsítsa az AP feldolgozását még rossz forrásokból is.
Archive for örökség papír
Használható szöveg mentése a régi, romlott archívumokból és kézzel írt jegyzetekből.
Közös kihívások és megoldások
1. kihívás: a képek olvashatatlanok
** Megoldás:** Kérj mentéseket vagy használjon fejlett fejlesztési eszközöket, ha szükséges.
2. kihívás: Batch feldolgozás botlenecks
** Megoldás:** Automatikus előre feldolgozás és a munkahelyek órán kívüli ütemezés.
3. kihívás: rendkívül változó bejáratok
** Megoldás:** A legjobb beállításokat dokumentumtípus szerint tárolja; rendszeresen érvényesítse.
A teljesítmény megfontolása
- Az előfeldolgozás hozzáadja a CPU időt, de megduplázhatja az OCR pontosságát
- Tesztes csomag mérete a hardverhez
- Az OCR tárgyak rendelkezésre állása a futások után
Legjobb gyakorlatok
- Az eredeti képek tárolása ellenőrzés céljából
- Megerősítse az integráció előtti eredményt
- Használjon minőségellenőrzési ellenőrzéseket a kritikus munkafolyamatokhoz
- Rendszeresen frissíti az ASPOSE.OCR-t a fejlesztésekhez
fejlett forgatókönyvek
1. forgatókönyv: A külső eszközökkel való előfeldolgozás (opcionális)
Javítsa a képeket olyan eszközzel, mint a ImageMagick vagy az OpenCV az OCR előtt a szélsőséges esetekben.
2. forgatókönyv: Dokumentumtípus szerinti szűrés
A beállítások tárolása és újrafelhasználása forrásonként vagy munkafolyamatként a maximális pontosság érdekében.
következtetések
A megfelelő előfeldolgozással és beállításokkal az Aspose.OCR for .NET értékes adatokat menthet még rossz minőségű képektől is, növelheti az automatizálást és a megfelelést.
A fejlett tippek és a legújabb szűrők, ellenőrizze a Az ASPOSE.OCR a .NET API referenciájához .