Kaip konvertuoti nuskaitytus PDF failus į paieškos dokumentus
Daugelis vertingų dokumentų yra įstrigę skenuojamuose PDF, todėl jie nėra ieškomi ir nesiekiami paieškos sistemoms ar produktyvumo įrankiams. Aspose.OCR Scanned PDF to Text for .NET leidžia paversti šiuos statinius failus visiškai ieškomais, redaguojamais dokumentais su minimaliu kodu.
Realaus pasaulio problemos
Skanytos PDF sutartys, knygos ar archyvai negali būti paieškai, indeksuojami arba kopijuojami, nebent tekstas yra ištrauktas.
Sprendimo apžvalga
ASPOSE.OCR .NET gali apibendrinti skanytus PDF failus, ištraukti ir eksportuoti tekstą įvairiais formatais – sukurti paieškos, indeksavimo dokumentus ir pasirengti skaitmeniniams darbo srautams ar atitikimui.
Prerequisites
- „Visual Studio 2019“ arba vėliau
- .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
- ASPOSE.OCR už .NET iš NuGet
- C# programavimo patirtis
PM> Install-Package Aspose.OCR
Žingsnis po žingsnio įgyvendinimas
1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR
using Aspose.OCR;
2 žingsnis: įtraukti skanytus PDF failus
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
3 žingsnis: nustatykite PDF atpažinimo nustatymus
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts
4 žingsnis: paleiskite OCR ant skanintų PDF failų
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5 žingsnis: eksportuoti į paieškos formatus
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf); // Searchable PDF
result.Save("archive_text.txt", SaveFormat.Text); // Plain text
result.Save("archive_word.docx", SaveFormat.Docx); // Word document
}
6 žingsnis: pridėti klaidų tvarkymą ir patvirtinimą
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7 žingsnis: optimizuokite daugiašalius ir didelius PDF failus
- PDF su daugybe puslapių, pridėkite failą ir nustatykite puslapio juostus, kaip reikia
- Tune nustatymai dokumentų išdėstymo ir kalbos
- „Batch“ tvarko visus failus viename kataloge
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
8 žingsnis: pilnas pavyzdys
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf);
result.Save("archive_text.txt", SaveFormat.Text);
result.Save("archive_word.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Naudokite atvejus ir paraiškas
Skaitmeninių archyvų paieška
Statinių, skenuojamų archyvų keitimas į paieškos, indeksuojamus išteklius bibliotekoms, teisinėms įmonėms ar korporacijoms.
Reglamentavimo ir atitikties skaitmeninimas
Iš skenuojamų atitikties dokumentų išgauti tekstą patvirtinimui ir auditui.
Akademiniai ir knygų leidiniai
Skaitmenizuokite tekstinius knygas ir mokslinių tyrimų dokumentus skaitmeniniam prieigai, e-mokymui ar platinimui.
Bendrieji iššūkiai ir sprendimai
1 iššūkis: žemos kokybės arba sutrumpintas skenavimas
Išsprendimas: Preprocesas aiškumui; naudokite AUTO režimą tvirtam tvarkymo tvarkymui.
Iššūkis 2: Daugiakalbės PDF
Išsprendimas: Pritaikykite kalbos nustatymus ir bandykite mėginių failus.
3 iššūkis: labai dideli arba batch failai
Išsprendimas: Procesas valdomose pakuotėse ir atminties naudojimo stebėjimas.
Veiksmingumo apžvalgos
- Batch procesas maksimaliai efektyviai
- Naudokite kokybiškus PDF failus
- OCR objektų naudojimas po naudojimo
Geriausios praktikos
- Išleidimo patvirtinimas prieš šaltinį PDF prieš integraciją
- Organizuokite PDF pagal temą ar skyrių, kad būtų lengviau valdyti
- Saugokite visus skenuojamus ir tvarkomus failus
- Naudokite naujausią versiją Aspose.OCR geriausiam tikslumui
Išplėstiniai scenarijai
1 scenarijus: duomenų vamzdžių eksportas į JSON
foreach (RecognitionResult result in results)
{
result.Save("archive_data.json", SaveFormat.Json);
}
Scenarijus 2: Selektyvi puslapis OCR
input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only
Conclusion
Aspose.OCR Scanned PDF to Text for .NET leidžia greitai paversti skanuotus PDF į paieškos, redaguojamus dokumentus šiuolaikiniams darbo srautams.
Rasti daugiau pažangių kodų ir patarimų ASPOSE.OCR už .NET API nuorodą .