Jak przygotować skanowane obrazy do OCR z Deskew za pomocą .NET

Jak przygotować skanowane obrazy do OCR z Deskew za pomocą .NET

Precyzyjna OCR (Optical Character Recognition) zaczyna się od doskonale zharmonizowanych obrazów. skanowane lub rotowane scany zmniejszają dokładność oCR, więc odkurzanie jest krytycznym krokiem wstępnego przetwarzania. Aspose.Imaging dla .NET pozwala na wyciągnięcie dokumentów / zdjęć w celu uzyskania najlepszych wyników w dowolnym zewnętrznym narzędziu OCC.

Problem świata rzeczywistego

Silniki OCR najlepiej działają na dobrze zharmonizowanych obrazach. skanowanie krookowane powoduje pominięte znaky lub błędy w tekście. ręczne strzyżenie jest zbyt powolne dla dużych zestawów.

Przegląd rozwiązania

Użyj Aspose.Imaging dla .NET, aby automatycznie wyłączyć skanowane obrazy. przechowywać je w bezpłatnym formacie, takim jak PNG lub TIFF, gotowy do importu do oprogramowania OCR wybranego (Asposa.OCR, Tesseract itp.).

Warunki

  • Visual Studio 2019 lub później
  • .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
  • Aspose.Imaging dla .NET z NuGet
  • skanowany dokument lub obraz (JPEG, PNG, TIFF itp.)
PM> Install-Package Aspose.Imaging

Wdrażanie krok po kroku

Krok 1: Odłącz skanowany obraz

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Krok 2: Przenoszenie obrazu na dowolny silnik OCR

  • Użyj ulubionego narzędzia OCR, aby rozpoznać tekst z wyświetlonego obrazu.
  • Przykład: Import scan_for_ocr_deskewed.png do Twojego rurociągu OCR lub oprogramowania (Aspose.OCR, Tesseract, ABBYY itp.).

Krok 3: Przegląd i refiniowanie

  • Sprawdź wyniki OCR. Jeśli dokładność jest niska, dostosuj ustawienia podłogi / tła lub jakość skanowania.
  • Uważaj na przetwarzanie zestawu dla wszystkich nowych skanów, aby utrzymać efektywny przepływ pracy w zakresie cyfryzacji.

Korzystanie z przypadków i aplikacji

  • Digitalizacja archiwów, odbiorców, umów lub formularzy do wyszukiwanego tekstu
  • Przygotowanie dokumentów biznesowych dla zgodności i audytu
  • Poprawa precyzji w dowolnym OCR lub papierze automatyzacji

Wspólne wyzwania i rozwiązania

Przekierowane obrazy nadal powodują błędy OCR: Spróbuj różnych kolorów tła, wstępnego filtracji dla hałasu lub skanowania o wyższej rozdzielczości.

Dane wyjściowe są zbyt duże: Użyj TIFF z kompresją lub PNG, jeśli potrzebna jest przejrzystość.

Mix formatów obrazu: Normalizuj wszystkie skanowanie do bez stratowego formatu przed OCR.

Najlepsze praktyki

  • Zawsze używaj formatu obrazu bez strat dla OCR
  • Utrzymanie oryginalnych i przetworzonych obrazów dla odniesienia
  • Dokumentacja Twojego przepływu pracy i cyfryzacji dla zespołu

FAQ

** Q: Czy mogę wyłączyć wszystkie obrazy w folderze?**Odpowiedź: Tak – wklej ten kod w przewód nad wszystkimi plikami, jak pokazano w poprzednich przykładach.

**Q: Jaki kolor tła najlepiej działa dla OCR?**Odpowiedź: Biały jest najbezpieczniejszy dla tekstu; użyj przejrzystych dla grafiki lub dopasuj dokument.

** Q: Czy to w porządku, aby komprimować pliki po wyłączeniu?**Odpowiedź: Użyj kompresji bez strat, aby uniknąć artefaktów, które zmniejszają dokładność OCR.

konkluzja

Odkrywanie z Aspose.Imaging dla .NET jest koniecznością wiarygodnego OCR, cyfryzacji i automatyzacji biznesowej. Utrzymaj swój rurociąg czysty, szybki i precyzyjny! Aspose.Imaging dla .NET API Referencje .

 Polski