Kaip padidinti paiešką skaitmeniniuose archyvuose su Aspose.OCR
Milijonai skanintų dokumentų ir vaizdų yra saugomi skaitmeniniuose archyvuose, tačiau jų turinio paiešką neįmanoma, nebent tekstas yra ištraukiamas ir indeksuojamas. „Aspose.OCR for .NET“ leidžia atverti archyvų vertę, todėl kiekvieną dokumentą galima ieškoti, nuo sutarčių iki istorinių laikraščių.
Realaus pasaulio problemos
Archyvai yra supakuoti su skenuojamų sutarčių, knygų, straipsnių ar vaizdų. Naudotojai negali ieškoti šių failų viduje, nebent tekstas yra ištraukti, sulėtinti mokslinius tyrimus, teisinį peržiūrą, arba eDiscovery.
Sprendimo apžvalga
Aspose.OCR for .NET batch-ekstratuoja tekstą iš skenuojamų vaizdų ar PDF ir leidžia jums švirkšti šiuos duomenis į savo mėgstamą paieškos sprendimą – leidžiančią visą teksto paieška, pažymėjimas ir informacijos perėmimas per didelius archyvus.
Prerequisites
Įsitikinkite, kad turite:
- „Visual Studio 2019“ arba vėliau
- .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
- ASPOSE.OCR už .NET iš NuGet
- Pagrindiniai C# įgūdžiai
PM> Install-Package Aspose.OCR
Žingsnis po žingsnio įgyvendinimas
1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR
using Aspose.OCR;
2 žingsnis: organizuokite savo archyvų failus
Suraskite visus savo vaizdus ar PDF failus loginėje aplankų struktūroje, kad būtų lengva apdoroti rinkinį.
string archivePath = "./archive";
string[] files = Directory.GetFiles(archivePath, "*.pdf");
3 žingsnis: nustatyti atpažinimo nustatymus
Tune kalba, dokumentų išdėstymas ir optimizavimas batch runs.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Good for mixed archive content
4 žingsnis: teksto ekstraktas batch
OcrInput input = new OcrInput(InputType.PDF);
foreach (string file in files)
{
input.Add(file);
}
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5 žingsnis: Išsaugoti išvestą tekstą indeksavimui
foreach (RecognitionResult result in results)
{
string textFile = Path.ChangeExtension(result.FilePath, ".txt");
result.Save(textFile, SaveFormat.Text);
}
6 žingsnis: sukurkite ar atnaujinkite paieškos indeksą
Integruokite su „Lucene.NET“, „ElasticSearch“ arba savo pageidaujamu indeksavimo / paieškos įrankiu.
7 žingsnis: integruokite paiešką su žiūrovu
Prisijunkite savo paieškos indeksą prie archyvo žiniatinklio sąsajos, dokumentų žiūrovas ar tyrimų įrankis, kad gautumėte visą tekstą.
8 žingsnis: pridėti klaidų tvarkymą
try
{
// All recognition and indexing code here
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
9 žingsnis: bandymas ir patvirtinimas
Atlikite pavyzdžių užklausas ir patvirtinkite, kad jūsų archyvas dabar yra visiškai paieškos.
Naudokite atvejus ir paraiškas
Skaitmeninės bibliotekos ir muziejai
Galite naudoti visą teksto paiešką skaitmeninėms knygoms, rankraščiams ir kolekcijoms.
Įmonių ir teisiniai archyvai
Rasti sutartis, memorandumus ir ataskaitas iš karto – nepriklausomai nuo jų originalaus formato.
Akademiniai ir laikraščių archyvai
Mokslininkai gali greitai ieškoti istorinių dokumentų, straipsnių ar cenzūros duomenų.
Bendrieji iššūkiai ir sprendimai
1 iššūkis: įvairūs dokumentai
Išsprendimas: Naudokite AUTO režimą ir bandymų pripažinimą skirtingose dokumentų struktūrose.
Iššūkis 2: OCR tikslumas senų ar sugadintų dokumentų
Išsprendimas: Preprocesas kontrastui / iškrovimui arba kalbos ir filtravimo nustatymų naudojimas.
Iššūkis 3: Skala ir našumas
Išsprendimas: Batch procesas lygiagrečiai ir stebėti išteklių naudojimą.
Veiksmingumo apžvalgos
- Procesų archyvai tvarkomuose batchuose
- Išimtas tekstas saugomas efektyviais indekso formatais
- Atminties ir I/O failų stebėjimas dideliems bėgimams
Geriausios praktikos
- Organizuokite archyvus pagal dokumentų tipą ar metus, kad būtų lengviau indeksuoti
- Reguliariai pakartotinai indeksuoti, kai jūsų archyvas auga
- Naudokite metaduomenis (datą, autorių, tipą), kad padidintumėte paieškos svarbą
- Išsaugoti originalius failus ir išvestą tekstą
Išplėstiniai scenarijai
1 scenarijus: daugiašalių archyvų paieška
settings.Language = Language.Spanish;
2 scenarijus: eksportuoti į paieškos PDF
foreach (RecognitionResult result in results)
{
result.Save(Path.ChangeExtension(result.FilePath, ".pdf"), SaveFormat.Pdf);
}
Conclusion
Su Aspose.OCR .NET galite paversti statinius skaitmeninius archyvus turtingais, visiškai paieškos ištekliais – leidžiančiais atitiktį, mokslinius tyrimus ir greitą informacijos atradimą.
Sužinokite daugiau integracijos patarimų ir API pavyzdžių ASPOSE.OCR už .NET API nuorodą .