Hogyan lehet kivonni a szöveget a szkennelt képek segítségével Aspose.OCR

Hogyan lehet kivonni a szöveget a szkennelt képek segítségével Aspose.OCR

A szerződések, megállapodások, könyves oldalak vagy régi feljegyzések szkennelése általában képfájlokat termel – nem szerkeszthető szöveget.A Aspose.OCR Scan to Text for .NET lehetővé teszi, hogy automatizálja a szerkezetű, kereshető szöveg kivonását bármilyen skannált dokumentumból vagy fotóból, és számtalan órát takarít meg a kézi bejegyzésből.

Valódi problémák

A papírdokumentumok, könyvek és archívumokat gyakran képként tárolják.A tartalmuk kivonása a digitális munkafolyamatokhoz, a megfelelőséghez vagy a kutatáshoz lassú, költséges és hibás lehet, ha manuálisan történik.

megoldás áttekintése

Az Aspose.OCR Scan to Text for .NET átalakítja a nyomtatott oldalak képét használható szövegbe, egy oszlopos, többszöges és összetett elrendezéseket kezeli. A munkafolyamat tökéletes a szerződések, könyvek, feljegyzések és üzleti dokumentumok digitalizálására a modern használathoz.

előfeltételek

Győződjön meg róla, hogy van:

  • Visual Studio 2019 vagy újabb
  • .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET a NuGet-ről
  • Alapvető C# tudás
PM> Install-Package Aspose.OCR

lépésről lépésre megvalósítás

1. lépés: Az Aspose.OCR telepítése és konfigurálása

Adja meg a NuGet csomagot és az Aspose.OCR referenciát:

using Aspose.OCR;

2. lépés: Adja meg a szkennelt képeket

Töltse fel egy vagy több képfájlokat feldolgozni.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

3. lépés: A felismerési beállítások beállítása

A dokumentum nyelve és elrendezése szükséges.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

4. lépés: Végezze el a felismerési folyamatot

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5. lépés: A kivetett szöveg mentése vagy feldolgozása

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

6. lépés: Hibaelhárítás hozzáadása

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7. lépés: A dokumentumok elrendezésének optimalizálása

  • Könyvekhez vagy cikkekhez használja a DetectAreasMode.DOCUMENT-t vagy próbálja ki a detectSphere.AUTO
  • Preprocess képek (termelés, lemez) a legjobb pontosság érdekében
  • Batch folyamat nagy archívumokhoz
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

8. lépés: Teljes példa

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Esetek és alkalmazások használata

Megállapodás és digitalizáció

Gyorsan digitalizálja a jogi vagy üzleti dokumentumokat keresési, archiválási és digitális munkafolyamatokhoz.

A könyv és az archívum feldolgozása

A könyv oldalak vagy a történelmi rekordok átalakítása kereshető, szerkeszthető formátumokká.

Megfelelés és az adatok kivonása

Lehetővé teszi az automatizált megfelelőségi ellenőrzéseket, auditokat vagy szöveges kivonatokat az öröklési dokumentumokból.

Közös kihívások és megoldások

1. kihívás: Alacsony minőségű szkennelések vagy feldolgozott szöveg

** Megoldás:** Használjon előfeldolgozást vagy javítsa a képeket a jobb OCR pontosság érdekében.

2. kihívás: több oszlopos vagy összetett elrendezések

** Megoldás:** Adjust DetectAreasMode és teszt a legjobb elrendezés kezelése érdekében.

3. kihívás: Batch digitalizáció

** Megoldás:** Használja a csomagkezelést és az erőforrás-menedzsmentet a nagyszabású munkákhoz.

A teljesítmény megfontolása

  • Batch folyamat a sebesség és a skálázhatóság érdekében
  • Kiváló minőségű forrásképek használata
  • Az OCR objektumok használata után

Legjobb gyakorlatok

  • Mindig érvényesítse a kivetett szöveget az automatizálás vagy az archiválás előtt
  • Használja a helyes felismerési beállításokat a dokumentum típusához
  • Backup eredeti szkennelés referenciákhoz
  • Az OCR teszt eredményei a gyártást megelőző mintacsomagon

fejlett forgatókönyvek

1. forgatókönyv: Többnyelvű dokumentumok kivonása

settings.Language = Language.French;

2. forgatókönyv: Export a JSON-ba az integrációért

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

következtetések

Az ASPOSE.OCR Scan to Text for .NET a leggyorsabb módja annak, hogy a szkennelt képeket és papíralapú dokumentumokat használható, szerkeszthető szövegké alakítsák át – ideális jogi, tudományos vagy vállalati projektekhez.

További példák és technikai részletek a Az ASPOSE.OCR a .NET API referenciájához .

 Magyar