Как конвертировать сканированные PDF-файлы в поисковые документы
Многие ценные документы застряли в сканированных PDF-файлах, делая их неискажимыми и недоступными для поисковых систем или инструментов производительности. Aspose.OCR Scanned PDF to Text for .NET позволяет превратить эти статические файлы в полностью искаемые, редактируемые документы с минимальным кодом.
Реальные мировые проблемы
Сканированные PDF-контракты, книги или архивы не могут быть исканы, индексированы или копированы, если текст не извлечен. Ручное переписывание медленно, дорого и рискует ввести ошибки — особенно для больших или многостраничных файлов.
Решение обзор
ASPOSE.OCR для .NET может перерабатывать скенированные PDF-файлы, экстрактировать и экспортировать текст в различных форматах — делая документы поисковыми, индексируемыми и готовыми к цифровым рабочим потокам или соответствию.
Предупреждения
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET от NuGet
- Опыт программирования C#
PM> Install-Package Aspose.OCR
Step-by-Step реализация
Шаг 1: Инсталляция и настройка Aspose.OCR
using Aspose.OCR;
Шаг 2: Добавить сканированные PDF-файлы
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
Шаг 3: Настройка настройки распознавания для PDF
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts
Шаг 4: Используйте OCR на сканированных PDF-файлах
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Шаг 5: Экспорт в поисковые форматы
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf); // Searchable PDF
result.Save("archive_text.txt", SaveFormat.Text); // Plain text
result.Save("archive_word.docx", SaveFormat.Docx); // Word document
}
Шаг 6: Добавить обработку ошибок и валидацию
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Шаг 7: Оптимизация для многостраничных и больших PDF-файлов
- Для PDF-файлов с множеством страниц добавьте файл и настройте страничные диапазоны, как это необходимо.
- Настройки Tune для оформления документа и языка
- Батч обрабатывает все файлы в одном каталоге
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Шаг 8: Полный пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf);
result.Save("archive_text.txt", SaveFormat.Text);
result.Save("archive_word.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Используйте случаи и приложения
Цифровые архивные поиски
Конвертируйте статические, сканируемые архивы в поисковые, индексированные ресурсы для библиотек, юридических фирм или корпораций.
Дигитализация регулирования и соответствия
Экстракт текста из скенированных документов соответствия для валидации и проверки.
Академическая и книжная публикация
Цифровывать учебники и научные документы для цифрового доступа, электронного обучения или распределения.
Общие вызовы и решения
Проблема 1: низкое качество или сканированные сканы
Решение: Препроцесс для четкости; используйте режим AUTO для прочной обработки расположения.
Проблема 2: Многоязычные PDF-файлы
Решение: Сделайте настройки языка и тестируйте на файлах образца.
Проблема 3: Очень большие или бач файлы
Решение: Процесс в управляемых комплектах и мониторинг использования памяти.
Рассмотрим производительность
- Бач-процесс для максимальной эффективности
- Используйте качественные сканированные PDF-файлы
- Наличие ОКР-объектов после использования
Лучшие практики
- Проверка выхода против источника PDF до интеграции
- Организуйте PDF-файлы по теме или отделам для легкого управления
- Защитите все сканированные и обработанные файлы
- Используйте новейшую версию Aspose.OCR для наилучшей точности
Развитые сценарии
Сценарий 1: Экспорт в JSON для трубопроводов данных
foreach (RecognitionResult result in results)
{
result.Save("archive_data.json", SaveFormat.Json);
}
Сценарий 2: Селективная страница OCR
input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only
Заключение
Aspose.OCR Scanned PDF to Text for .NET позволяет быстро превратить сканированные PDF-файлы в поисковые, редактируемые документы для современных рабочих потоков.
Найти более продвинутый код и советы в ASPOSE.OCR для .NET API .