Extract Media from Word Documents
.NET에서 Word 문서에서 텍스트, 이미지 및 메타데이터 추출하는 방법
Word 문서에서 텍스트, 이미지 및 메타 데이터를 추출하는 것은 문서 분석 및 처리에 필수적입니다. Aspose.Words for .NET를 사용하면 개발자는 다양한 사용 사례, 인덱스, 아카이브 또는 콘텐츠 변환과 같은 문서 콘텐츠 및 속성을 프로그래밍으로 추출할 수 있습니다.
원칙
- 설치할 수 있는 넷 SDK .
- Aspose.Words NuGet 패키지를 추가하십시오 :
dotnet add package Aspose.Words
- 단어 문서를 작성하십시오 (
document.docx
) 텍스트, 이미지 및 메타 데이터와 함께.
단계별로 Word 파일에서 콘텐츠를 추출하는 가이드
1) 단어 문서를 업로드
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
설명: 이 코드는 추가 처리를 위해 지정된 Word 문서를 메모리로 업로드합니다.
2) 문서에서 텍스트를 추출
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
설명: 이 코드는 충전된 Word 문서에서 모든 텍스트 콘텐츠를 추출하고 콘솔에 인쇄합니다.
3) 문서에서 메타 데이터를 추출
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
설명: 이 코드는 Word 문서에서 제목, 저자 및 생성 날짜 메타 데이터를 추출하고 인쇄합니다.
4) 문서에서 사진을 추출
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
설명: 이 코드는 Word 문서에서 모든 이미지를 추출하고 프로젝트 디렉토리에 PNG 파일로 저장합니다.
5) 해결책 테스트
- 보안
document.docx
프로젝트 디렉토리에 있습니다. - 프로그램을 실행하고 확인하십시오 :- 콘솔 출력에서 추출 된 텍스트.
- 메타 데이터 세부 사항 인쇄.
- 프로젝트 폴더에 저장된 추출된 이미지.
주요 플랫폼에서 배치 및 실행하는 방법
윈도우
- .NET 실행 시간을 설치하고 응용 프로그램을 실행합니다.
- 응용 프로그램을 시험하여 명령선을 통해 실행합니다.
리눅스
- .NET 실행 시간을 설치합니다.
- 터미널 명령을 사용하여 응용 프로그램을 실행하거나 서버에 호스팅합니다.
마코스
- Kestrel을 사용하여 응용 프로그램을 실행하거나 클라우드 서비스에 배치합니다.
일반적인 문제와 고정
촬영되지 않은 사진:- 문서에는 내장된 이미지가 포함되어 있고 외부적으로 연결되지 않은 이미지가 포함되어 있는지 확인합니다.
메타데이터가 잃어버린 경우:- 문서에는 제목 또는 저자 세트와 같은 메타 데이터 속성이 있는지 확인합니다.
넓은 파일 처리:- 메모리 효율적인 접근 방식을 사용하여 문서의 특정 섹션을 처리합니다.
이 가이드를 사용하면 .NET을 위한 Aspose.Words를 사용하여 Word 문서에서 소중한 콘텐츠를 소프트웨어적으로 추출할 수 있습니다.