Extract Media from Word Documents

.NET에서 Word 문서에서 텍스트, 이미지 및 메타데이터 추출하는 방법

Word 문서에서 텍스트, 이미지 및 메타 데이터를 추출하는 것은 문서 분석 및 처리에 필수적입니다. Aspose.Words for .NET를 사용하면 개발자는 다양한 사용 사례, 인덱스, 아카이브 또는 콘텐츠 변환과 같은 문서 콘텐츠 및 속성을 프로그래밍으로 추출할 수 있습니다.

원칙

  • 설치할 수 있는 넷 SDK .
  • Aspose.Words NuGet 패키지를 추가하십시오 :dotnet add package Aspose.Words
  • 단어 문서를 작성하십시오 (document.docx) 텍스트, 이미지 및 메타 데이터와 함께.

단계별로 Word 파일에서 콘텐츠를 추출하는 가이드

1) 단어 문서를 업로드

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

설명: 이 코드는 추가 처리를 위해 지정된 Word 문서를 메모리로 업로드합니다.

2) 문서에서 텍스트를 추출

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

설명: 이 코드는 충전된 Word 문서에서 모든 텍스트 콘텐츠를 추출하고 콘솔에 인쇄합니다.

3) 문서에서 메타 데이터를 추출

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

설명: 이 코드는 Word 문서에서 제목, 저자 및 생성 날짜 메타 데이터를 추출하고 인쇄합니다.

4) 문서에서 사진을 추출

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

설명: 이 코드는 Word 문서에서 모든 이미지를 추출하고 프로젝트 디렉토리에 PNG 파일로 저장합니다.

5) 해결책 테스트

  • 보안 document.docx 프로젝트 디렉토리에 있습니다.
  • 프로그램을 실행하고 확인하십시오 :- 콘솔 출력에서 추출 된 텍스트.
  • 메타 데이터 세부 사항 인쇄.
  • 프로젝트 폴더에 저장된 추출된 이미지.

주요 플랫폼에서 배치 및 실행하는 방법

윈도우

  • .NET 실행 시간을 설치하고 응용 프로그램을 실행합니다.
  • 응용 프로그램을 시험하여 명령선을 통해 실행합니다.

리눅스

  • .NET 실행 시간을 설치합니다.
  • 터미널 명령을 사용하여 응용 프로그램을 실행하거나 서버에 호스팅합니다.

마코스

  • Kestrel을 사용하여 응용 프로그램을 실행하거나 클라우드 서비스에 배치합니다.

일반적인 문제와 고정

  • 촬영되지 않은 사진:- 문서에는 내장된 이미지가 포함되어 있고 외부적으로 연결되지 않은 이미지가 포함되어 있는지 확인합니다.

  • 메타데이터가 잃어버린 경우:- 문서에는 제목 또는 저자 세트와 같은 메타 데이터 속성이 있는지 확인합니다.

  • 넓은 파일 처리:- 메모리 효율적인 접근 방식을 사용하여 문서의 특정 섹션을 처리합니다.

이 가이드를 사용하면 .NET을 위한 Aspose.Words를 사용하여 Word 문서에서 소중한 콘텐츠를 소프트웨어적으로 추출할 수 있습니다.

 한국어