Як перетворити скановані PDF-файли на пошукові документи

Як перетворити скановані PDF-файли на пошукові документи

Багато цінних документів застрягли в сканованих PDF, що робить їх непошуковими і недоступними для пошукових систем або інструментів продуктивності. Aspose.OCR Scanned PDF to Text for .NET дозволяє перетворити ці статичні файли в повністю пошукові, редагувальні документи з мінімальним кодом.

Реальні проблеми світу

Скановані PDF-контракти, книги або архіви не можна шукати, індексувати або копіювати, за винятком випадків, коли текст витягується. ручний ретипінг повільний, дорогий, і ризикує вводити помилки — особливо для великих або багатосторонніх файлів.

Огляд рішення

ASPOSE.OCR для .NET може обробляти скановані PDF-файли, витягувати і експортувати текст у різних форматах — створюючи документи, які можна шукати, індексувати, і готові до цифрових робочих потоків або дотримання.

Передумови

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
  • Досвід програмування C#
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

using Aspose.OCR;

Крок 2: Додати скановані PDF-файли

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");

Крок 3: Налаштування налаштувань розпізнавання для PDF

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts

Крок 4: Виконайте OCR на сканованих PDF-х

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Крок 5: Експорт до пошукових форматів

foreach (RecognitionResult result in results)
{
    result.Save("archive_searchable.pdf", SaveFormat.Pdf);   // Searchable PDF
    result.Save("archive_text.txt", SaveFormat.Text);         // Plain text
    result.Save("archive_word.docx", SaveFormat.Docx);       // Word document
}

Крок 6: Додайте справу з помилками та валідацію

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Крок 7: Оптимізація для багатосторінкових і великих PDF-файлів

  • Для PDF-файлів з багатьма сторінками додайте файл і налаштуйте рядки сторінки, як це необхідно.
  • Налаштування Tune для оформлення документа та мови
  • Батч обробляє всі файли в каталозі
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Крок 8: Повний приклад

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive1.pdf");
            input.Add("books.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("archive_searchable.pdf", SaveFormat.Pdf);
                result.Save("archive_text.txt", SaveFormat.Text);
                result.Save("archive_word.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Використання випадків та додатків

Цифрові архіви пошуку

Перетворюйте статичні, скановані архіви в пошукові, індексувані ресурси для бібліотек, юридичних фірм або корпорацій.

Регулярна та відповідна цифровизація

Витяг тексту з сканованих документів відповідності для валідації та аудиту.

Академічна та книжкова публікація

Цифровуйте книжки та науково-дослідні документи для цифрового доступу, електронного навчання або розповсюдження.

Спільні виклики та рішення

Виклик 1: Низька якість або скановані скани

Рішення: Препроцес для чіткості; використовуйте режим AUTO для міцного обробки розташування.

Створення Challenge 2: Multi-Language PDF

Рішення: Налаштувати налаштування мови і тестувати на зразкових файлах.

Виклик 3: Дуже великі або бач файли

**Рішення: **Процес в управлінських комплектах і контроль використання пам’яті.

Виконання розглядів

  • Батч-процес для максимальної ефективності
  • Використовуйте якісні скановані PDF-файли
  • Використання об’єктів ОКР після використання

Найкращі практики

  • Валідація виходу проти джерел PDF перед інтеграцією
  • Організуйте PDF-файли за темою або відділом для легкого управління
  • Забезпечити всі скановані та оброблені файли
  • Використовуйте найновішу версію Aspose.OCR для кращої точності

Розширені сценарії

Сценарій 1: Експорт до JSON для трубопроводів даних

foreach (RecognitionResult result in results)
{
    result.Save("archive_data.json", SaveFormat.Json);
}

Сценарій 2: Селективна сторінка OCR

input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only

Заключення

ASPOSE.OCR Сканований PDF до тексту для .NET дозволяє швидко перетворювати скановані PDF-файли в пошукові, редагувальні документи для сучасних робочих потоків.

Знайдіть більш передові коди та поради в Aspose.OCR для .NET API Референт .

 Українська