Hogyan lehet kivonni a szöveget a szkennelt képek segítségével Aspose.OCR
A szerződések, megállapodások, könyves oldalak vagy régi feljegyzések szkennelése általában képfájlokat termel – nem szerkeszthető szöveget.A Aspose.OCR Scan to Text for .NET lehetővé teszi, hogy automatizálja a szerkezetű, kereshető szöveg kivonását bármilyen skannált dokumentumból vagy fotóból, és számtalan órát takarít meg a kézi bejegyzésből.
Valódi problémák
A papírdokumentumok, könyvek és archívumokat gyakran képként tárolják.A tartalmuk kivonása a digitális munkafolyamatokhoz, a megfelelőséghez vagy a kutatáshoz lassú, költséges és hibás lehet, ha manuálisan történik.
megoldás áttekintése
Az Aspose.OCR Scan to Text for .NET átalakítja a nyomtatott oldalak képét használható szövegbe, egy oszlopos, többszöges és összetett elrendezéseket kezeli. A munkafolyamat tökéletes a szerződések, könyvek, feljegyzések és üzleti dokumentumok digitalizálására a modern használathoz.
előfeltételek
Győződjön meg róla, hogy van:
- Visual Studio 2019 vagy újabb
- .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET a NuGet-ről
- Alapvető C# tudás
PM> Install-Package Aspose.OCR
lépésről lépésre megvalósítás
1. lépés: Az Aspose.OCR telepítése és konfigurálása
Adja meg a NuGet csomagot és az Aspose.OCR referenciát:
using Aspose.OCR;
2. lépés: Adja meg a szkennelt képeket
Töltse fel egy vagy több képfájlokat feldolgozni.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
3. lépés: A felismerési beállítások beállítása
A dokumentum nyelve és elrendezése szükséges.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
4. lépés: Végezze el a felismerési folyamatot
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5. lépés: A kivetett szöveg mentése vagy feldolgozása
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
// Save to Word or PDF as needed
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
6. lépés: Hibaelhárítás hozzáadása
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Use results...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7. lépés: A dokumentumok elrendezésének optimalizálása
- Könyvekhez vagy cikkekhez használja a DetectAreasMode.DOCUMENT-t vagy próbálja ki a detectSphere.AUTO
- Preprocess képek (termelés, lemez) a legjobb pontosság érdekében
- Batch folyamat nagy archívumokhoz
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
input.Add(file);
}
8. lépés: Teljes példa
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Esetek és alkalmazások használata
Megállapodás és digitalizáció
Gyorsan digitalizálja a jogi vagy üzleti dokumentumokat keresési, archiválási és digitális munkafolyamatokhoz.
A könyv és az archívum feldolgozása
A könyv oldalak vagy a történelmi rekordok átalakítása kereshető, szerkeszthető formátumokká.
Megfelelés és az adatok kivonása
Lehetővé teszi az automatizált megfelelőségi ellenőrzéseket, auditokat vagy szöveges kivonatokat az öröklési dokumentumokból.
Közös kihívások és megoldások
1. kihívás: Alacsony minőségű szkennelések vagy feldolgozott szöveg
** Megoldás:** Használjon előfeldolgozást vagy javítsa a képeket a jobb OCR pontosság érdekében.
2. kihívás: több oszlopos vagy összetett elrendezések
** Megoldás:** Adjust DetectAreasMode és teszt a legjobb elrendezés kezelése érdekében.
3. kihívás: Batch digitalizáció
** Megoldás:** Használja a csomagkezelést és az erőforrás-menedzsmentet a nagyszabású munkákhoz.
A teljesítmény megfontolása
- Batch folyamat a sebesség és a skálázhatóság érdekében
- Kiváló minőségű forrásképek használata
- Az OCR objektumok használata után
Legjobb gyakorlatok
- Mindig érvényesítse a kivetett szöveget az automatizálás vagy az archiválás előtt
- Használja a helyes felismerési beállításokat a dokumentum típusához
- Backup eredeti szkennelés referenciákhoz
- Az OCR teszt eredményei a gyártást megelőző mintacsomagon
fejlett forgatókönyvek
1. forgatókönyv: Többnyelvű dokumentumok kivonása
settings.Language = Language.French;
2. forgatókönyv: Export a JSON-ba az integrációért
foreach (RecognitionResult result in results)
{
result.Save("scanned_text.json", SaveFormat.Json);
}
következtetések
Az ASPOSE.OCR Scan to Text for .NET a leggyorsabb módja annak, hogy a szkennelt képeket és papíralapú dokumentumokat használható, szerkeszthető szövegké alakítsák át – ideális jogi, tudományos vagy vállalati projektekhez.
További példák és technikai részletek a Az ASPOSE.OCR a .NET API referenciájához .