Як витягти текст з сканованих PDF-файлів за допомогою Aspose.OCR

Як витягти текст з сканованих PDF-файлів за допомогою Aspose.OCR

Витяг тексту з сканованих або зображених PDF-файлів, що використовуються для того, щоб вимагати складних робочих потоків або дорогоцінної ручної роботи. з Aspose.OCR Сканований PDF до тексту для .NET, ви можете автоматизувати цей процес, перетворюючи PDF в пошуковий і редагувальний текст з декількома рядками коду.

Реальні проблеми світу

Організації часто отримують контракти, звіти або архіви, як скановані PDF-файли. Ручно копіювати текст або шукати всередині цих документів незручно і піддається помилкам, прискорюючи дотримання, архівування та проекти цифрової трансформації.

Огляд рішення

Aspose.OCR для .NET дозволяє обробляти скановані PDF-файли — перетворюючи їх в текстові або пошукові PDF, роблячи інформацію доступною, індексуваною і готовою до цифрових робочих потоків.

Передумови

Перед тим, як почати, переконайтеся, що у вас є:

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
  • Основні знання C#
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

Додайте пакет NuGet та посилання Aspose.OCR:

using Aspose.OCR;

Крок 2: Додати скановані PDF-файли

Створіть об’єкт OcrInput для введення PDF і додайте скановані PDF-файли.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Крок 3: Налаштування налаштувань пізнання

Налаштуйте мову та інші налаштування розпізнавання, щоб відповідати вашим документам.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Крок 4: Виконайте процес визнання

Визначте текст з сканованих PDF-файлів:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Крок 5: Зберегти або експортувати визнаний текст

Експортуйте визнаний текст в файли або перетворюйте результати в пошукові PDF-файли.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Крок 6: Використання помилок

Завантажити розпізнавання в блоці спробу/приймання для міцності.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Крок 7: Оптимізація для великих або багатосторонніх PDF-файлів

  • Переробка PDF-сторінки за сторінкою для великих файлів
  • Використовуйте високоякісні скани для кращих результатів
  • Паралельний процес обробки для великих колекцій
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Крок 8: Повний робочий приклад

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Використання випадків та додатків

Цифрові архіви

Конвертуйте цілі бібліотеки сканованих документів в пошукові, індексні файли для відповідності та управління знаннями.

Юридичне та контрактне управління

Витяг положень договору або умов з PDF для перегляду, автоматизації або цифрового підписання.

Пошук поточних документів

Дозволяється швидке пошук повного тексту в архівах, базах знань або файлах випадків.

Спільні виклики та рішення

Виклик 1: Низька якість або скановані скани

Рішення: Використовуйте фільтри попереднього обробки та високоякісні скани, коли це можливо.

Створення Challenge 2: Multi-language PDF

Рішення: Налаштуйте мову в розпізнавальних налаштуваннях або процесі з кількома мовними варіантами.

Проблема 3: Дуже великі PDF-файли

Рішення: Процедура в комплектах або за сторінкою, і моніторинг використання пам’яті.

Виконання розглядів

  • Використання оптимального ДПІ (300+) для сканованих ПДФ
  • Бетч-процес для кращого проходження
  • Використовуйте об’єкти OCR та закриті файлові обробки

Найкращі практики

  • Оцінка OCR перед подальшою автоматизацією
  • Організація та резервна копія оригінальних PDF-файлів
  • Використовуйте правильний SaveFormat для робочого потоку
  • Регулярні оновлення Aspose.OCR для нових функцій PDF

Розширені сценарії

Сценарій 1: Витяг тільки конкретних сторінок з PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Сценарій 2: Експорт до кількох форматів

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Заключення

Aspose.OCR для .NET дозволяє конвертувати скановані PDF-файли в діючі текстові та пошукові файли — видаляючи ручний вхід і роблячи інформацію доступною для всієї вашої організації.

Більше деталей та прикладів, див. Aspose.OCR для .NET API Референт .

 Українська