Kaip padidinti paiešką skaitmeniniuose archyvuose su Aspose.OCR

Milijonai skanintų dokumentų ir vaizdų yra saugomi skaitmeniniuose archyvuose, tačiau jų turinio paiešką neįmanoma, nebent tekstas yra ištraukiamas ir indeksuojamas. „Aspose.OCR for .NET“ leidžia atverti archyvų vertę, todėl kiekvieną dokumentą galima ieškoti, nuo sutarčių iki istorinių laikraščių.

Realaus pasaulio problemos

Archyvai yra supakuoti su skenuojamų sutarčių, knygų, straipsnių ar vaizdų. Naudotojai negali ieškoti šių failų viduje, nebent tekstas yra ištraukti, sulėtinti mokslinius tyrimus, teisinį peržiūrą, arba eDiscovery.

Sprendimo apžvalga

Aspose.OCR for .NET batch-ekstratuoja tekstą iš skenuojamų vaizdų ar PDF ir leidžia jums švirkšti šiuos duomenis į savo mėgstamą paieškos sprendimą – leidžiančią visą teksto paieška, pažymėjimas ir informacijos perėmimas per didelius archyvus.

Prerequisites

Įsitikinkite, kad turite:

„Visual Studio 2019“ arba vėliau
.NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
ASPOSE.OCR už .NET iš NuGet
Pagrindiniai C# įgūdžiai

PM> Install-Package Aspose.OCR

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR

using Aspose.OCR;

2 žingsnis: organizuokite savo archyvų failus

Suraskite visus savo vaizdus ar PDF failus loginėje aplankų struktūroje, kad būtų lengva apdoroti rinkinį.

string archivePath = "./archive";
string[] files = Directory.GetFiles(archivePath, "*.pdf");

3 žingsnis: nustatyti atpažinimo nustatymus

Tune kalba, dokumentų išdėstymas ir optimizavimas batch runs.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Good for mixed archive content

4 žingsnis: teksto ekstraktas batch

OcrInput input = new OcrInput(InputType.PDF);
foreach (string file in files)
{
    input.Add(file);
}
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5 žingsnis: Išsaugoti išvestą tekstą indeksavimui

foreach (RecognitionResult result in results)
{
    string textFile = Path.ChangeExtension(result.FilePath, ".txt");
    result.Save(textFile, SaveFormat.Text);
}

6 žingsnis: sukurkite ar atnaujinkite paieškos indeksą

Integruokite su „Lucene.NET“, „ElasticSearch“ arba savo pageidaujamu indeksavimo / paieškos įrankiu.

7 žingsnis: integruokite paiešką su žiūrovu

Prisijunkite savo paieškos indeksą prie archyvo žiniatinklio sąsajos, dokumentų žiūrovas ar tyrimų įrankis, kad gautumėte visą tekstą.

8 žingsnis: pridėti klaidų tvarkymą

try
{
    // All recognition and indexing code here
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

9 žingsnis: bandymas ir patvirtinimas

Atlikite pavyzdžių užklausas ir patvirtinkite, kad jūsų archyvas dabar yra visiškai paieškos.

Naudokite atvejus ir paraiškas

Skaitmeninės bibliotekos ir muziejai

Galite naudoti visą teksto paiešką skaitmeninėms knygoms, rankraščiams ir kolekcijoms.

Įmonių ir teisiniai archyvai

Rasti sutartis, memorandumus ir ataskaitas iš karto – nepriklausomai nuo jų originalaus formato.

Akademiniai ir laikraščių archyvai

Mokslininkai gali greitai ieškoti istorinių dokumentų, straipsnių ar cenzūros duomenų.

Bendrieji iššūkiai ir sprendimai

1 iššūkis: įvairūs dokumentai

Išsprendimas: Naudokite AUTO režimą ir bandymų pripažinimą skirtingose dokumentų struktūrose.

Iššūkis 2: OCR tikslumas senų ar sugadintų dokumentų

Išsprendimas: Preprocesas kontrastui / iškrovimui arba kalbos ir filtravimo nustatymų naudojimas.

Iššūkis 3: Skala ir našumas

Išsprendimas: Batch procesas lygiagrečiai ir stebėti išteklių naudojimą.

Veiksmingumo apžvalgos

Procesų archyvai tvarkomuose batchuose
Išimtas tekstas saugomas efektyviais indekso formatais
Atminties ir I/O failų stebėjimas dideliems bėgimams

Geriausios praktikos

Organizuokite archyvus pagal dokumentų tipą ar metus, kad būtų lengviau indeksuoti
Reguliariai pakartotinai indeksuoti, kai jūsų archyvas auga
Naudokite metaduomenis (datą, autorių, tipą), kad padidintumėte paieškos svarbą
Išsaugoti originalius failus ir išvestą tekstą

Išplėstiniai scenarijai

1 scenarijus: daugiašalių archyvų paieška

settings.Language = Language.Spanish;

2 scenarijus: eksportuoti į paieškos PDF

foreach (RecognitionResult result in results)
{
    result.Save(Path.ChangeExtension(result.FilePath, ".pdf"), SaveFormat.Pdf);
}

Conclusion

Su Aspose.OCR .NET galite paversti statinius skaitmeninius archyvus turtingais, visiškai paieškos ištekliais – leidžiančiais atitiktį, mokslinius tyrimus ir greitą informacijos atradimą.

Sužinokite daugiau integracijos patarimų ir API pavyzdžių ASPOSE.OCR už .NET API nuorodą .