C#を使用してWordの空白ページを削除する方法

C#を使用してWordの空白ページを削除する方法

このクイックチュートリアルでは、C#を使用してWord文書(DOCX、DOCなど)から空白ページを削除する方法を説明します。このプロセスには、Wordファイルの読み込み、個々のページの分析、空のページの特定、そして最終的に空白ページのない新しい文書の作成が含まれます。

Word文書から空白ページを削除する利点

  1. クリーンな文書:
    • 読みやすさとプロフェッショナリズムが向上します。
  2. ファイルサイズの削減:
    • 不要なページを排除することで効率的なストレージを実現します。
  3. 自動化機能:
    • 大きな文書を自動的にクリーンアップするのに最適です。

前提条件:環境の準備

  1. Visual Studioまたはその他の.NET IDE。
  2. NuGetパッケージマネージャーを介して追加されたAspose.Words。

C#を使用してWordから空白ページを削除する手順ガイド

ステップ1:環境の設定

NuGetパッケージマネージャーを通じてAspose.Wordsライブラリをインストールします。

Install-Package Aspose.Words

ステップ2:Word文書の読み込み

Documentクラスオブジェクトを使用して元のWordファイルを読み込みます。

Document originalDoc = new Document("WordFileWithBlankPages.docx");

ステップ3:各ページを個別に抽出

各ページをループ処理し、分析のために各ページを別々のDocumentに抽出します。

int totalPages = originalDoc.PageCount;

for (int i = 0; i < totalPages; i++)
{
    Document singlePageDoc = originalDoc.ExtractPages(i, 1);
    // 次のステップでsinglePageDocを分析します
}

ステップ4:単一ページ文書の分析

単一ページ文書にテキストや図形が含まれているか確認します。

int shapesCounter = 0;
string pageText = "";

foreach (Section docSection in singlePageDoc.Sections)
{
    pageText += docSection.Body.ToString(SaveFormat.Text);
    shapesCounter += docSection.Body.GetChildNodes(NodeType.Shape, true).Count;
}

ステップ5:非空ページのリストを維持

コンテンツを含むページ番号を追跡します。

ArrayList blankPages = new ArrayList();
blankPages.Add(-1);

if (string.IsNullOrEmpty(pageText.Trim()) && shapesCounter == 0)
    blankPages.Add(i); // iはループ内のページインデックス

ステップ6:非空ページを新しい文書に追加

新しい文書を作成し、追跡したリストを使用して非空ページのみを追加します。

Document finalDoc = (Document)originalDoc.Clone(false);
finalDoc.RemoveAllChildren();

blankPages.Add(totalPages);

for (int i = 1; i < blankPages.Count; i++)
{
    int index = (int)blankPages[i - 1] + 1;
    int count = (int)blankPages[i] - index;

    if (count > 0)
        finalDoc.AppendDocument(originalDoc.ExtractPages(index, count), ImportFormatMode.KeepSourceFormatting);
}

ステップ7:修正された文書を保存

空白ページを削除した新しい文書を保存します。

finalDoc.Save(@"cleaned.docx");

C#を使用してWordから空白ページを削除する完全なコード例

以下は、上記のステップを示す完全な実行可能なコード例です:

Document originalDoc = new Document("WordFileWithBlankPages.docx");

ArrayList blankPages = new ArrayList();
blankPages.Add(-1);

int totalPages = originalDoc.PageCount;

for (int i = 0; i < totalPages; i++)
{
    Document singlePageDoc = originalDoc.ExtractPages(i, 1);
    int shapesCounter = 0;
    string pageText = "";

    foreach (Section docSection in singlePageDoc.Sections)
    {
        pageText += docSection.Body.ToString(SaveFormat.Text);
        shapesCounter += docSection.Body.GetChildNodes(NodeType.Shape, true).Count;
    }

    if (string.IsNullOrEmpty(pageText.Trim()) && shapesCounter == 0)
        blankPages.Add(i);
}

blankPages.Add(totalPages);

Document finalDoc = (Document)originalDoc.Clone(false);
finalDoc.RemoveAllChildren();

for (int i = 1; i < blankPages.Count; i++)
{
    int index = (int)blankPages[i - 1] + 1;
    int count = (int)blankPages[i] - index;

    if (count > 0)
        finalDoc.AppendDocument(originalDoc.ExtractPages(index, count), ImportFormatMode.KeepSourceFormatting);
}

finalDoc.Save(@"NonEmptyPages.docx");
System.Console.WriteLine("空白ページが正常に削除されました。");

結論

この記事では、C#を使用してWordファイルから空白ページを削除する方法を説明しました。提供されたステップに従うことで、プログラムで空のページを検出し、それらを削除してクリーンな文書を作成できます。さらに、Word文書の操作タスクについてはAspose.Wordsを探索してみてください。

 日本語