Jak zbierać skanowane dokumenty dla OCR w .NET

Jak zbierać skanowane dokumenty dla OCR w .NET

Przy przygotowywaniu skanowanych dokumentów do Optical Character Recognition (OCR), niezbędne jest, aby zbiory obrazu skupiały się na obszarach ciężkich tekstów. Krzywanie nieistotnych części dokumentu zapewnia, że oprogramowanie OCR może wyciągać tekst bardziej precyzyjnie i efektywnie. Aspose.Imaging dla .NET zapewnia narzędzia niezbędne do zbioru skanowanych dokumentów i przygotowania ich do przetwarzania OCR.

Korzyści płynące z skanowania dokumentów dla OCR

  • Wzmocniona dokładność:- Działania OCR koncentrują się na odpowiednich sekcjach tekstu, unikając hałasu lub nieistotnego treści.

  • Zmniejszony czas przetwarzania:- Roślina obrazu, aby zminimalizować obszar do przetwarzania, przyspieszając proces OCR.

  • Lepsza ekstrakcja tekstu:- Upewnij się, że tekst jest odpowiednio zharmonizowany i dobrze układany dla silników OCR.

Wymagania: Ustawienie Aspose.Imaging

  • Instalacja The Źródło .NET SDK w Twoim systemie.
  • Dodaj Aspose.Imaging do Twojego projektu: dotnet add package Aspose.Imaging
  • Uzyskaj licencję mierzoną i skonfigurować ją za pomocą SetMeteredKey().

Krok po kroku Przewodnik po skanowanych dokumentach dla OCR

Krok 1: Ustaw licencję mierzoną

Zainstaluj Aspose.Imaging dla nieograniczonego dostępu do funkcji gromadzenia.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Krok 2: Pobierz obraz skanowanego dokumentu

Pobierz skanowany plik dokumentowy, który musi być wykopany do przygotowania OCR.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Krok 3: Określ obszar uprawy

Określ obszar prostokątny wokół tekstu, który musi być wyciągnięty.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Krok 4: Zastosuj operację zioła

Korzystaj z Crop() Metoda wyciągania wymaganej sekcji tekstu z obrazu.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Krok 5: Zachowaj ukryty obraz

Przechowywanie obrazu w celu przetwarzania OCR.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

Wdrażanie i wykorzystanie

  • Systemy przetwarzania dokumentów:- Wdrożenie gromadzenia w automatycznych systemach skanowania dokumentów w celu przygotowania obrazów do OCR.

  • Integracja OCR Workflow:- Dokumenty roślinne przed przekazaniem do silników OCR w celu szybszego i bardziej precyzyjnego ekstrakcji tekstu.

  • Wydaje się, że wydajność jest ważna:- Otwórz zgromadzony obraz, aby upewnić się, że tekst jest wyraźnie widoczny i prawidłowo układany.

Aplikacje real-world

  • Skanowanie dokumentów prawnych i medycznych:- Skanowane kontrakty roślinne lub dokumentacje medyczne, aby skupić się na ważnym tekście do przetwarzania OCR.

  • Archiwum systemów:- Przygotuj historyczne dokumenty do ekstrakcji tekstów i cyfryzacji.

  • Usługi E-Government Usługi:- Automatyzuj ekstrakcję tekstu z skanowanych formularzy lub aplikacji.

Wspólne problemy i korekty

  • Nieprawidłowe obszary roślinne:- Upewnij się, że Rectangle Koordynacje odpowiadają sekcji z tekstem.

  • Zdjęcia o niskiej jakości:- Upewnij się, że skanowany obraz ma wystarczająco wysoką rozdzielczość, aby uzyskać dokładność OCR.

  • Przekierowano licencję:- Sprawdź, że katalogi wyjściowe mają odpowiednie uprawnienia do pisania.

konkluzja

Używając Aspose.Imaging dla .NET, można łatwo zbierać skanowane dokumenty, aby skupić się na ważnych sekcjach przetwarzania OCR, poprawiając dokładność i wydajność.

 Polski