ウェブサイト上のすべてのページを見つける方法 – 8 つの簡単な方法

146088

•

11 分で読めます

•

著者

Tatiana Tsyulia

Tatsiana は、 SEO PowerSuite会社のデジタルマーケティング担当者兼コンテンツライターであり、ブログ投稿を書いたり、SEO...

日付

Sep 05, 2024

Web サイト上に存在するすべてのページをどのようにして見つけますか?最初に思い浮かぶのは、サイトのドメイン名を Google で検索することです。

しかし、インデックスに登録されなかった URL はどうなるでしょうか?それとも孤立したページでしょうか？それともWebキャッシュでしょうか？

Web サイト上のすべてのページを見つけるのは非常に簡単です。ただし、訪問者や検索ボットの目から隠されているページがあることを考慮すると、特別な注意が必要です。このガイドでは、サイトのすべてのページを検索する 8 つの異なる方法と使用するツールを示します。

Web サイト上のすべてのページを検索する方法は次のとおりです。

Google 検索演算子で調べます
robots.txt ファイルを確認します。
サイトマップを確認する
SEO スパイダーでクロールする
Search Console でページを確認する
Google アナリティクスを使用する
ログを分析する
CMS を操作する

コンテンツ

Web サイト上のすべてのページを検索する必要がある理由
1. Google 検索演算子で調べます
2. robots.txt ファイルを確認します。
3. サイトマップを確認する
4. SEO スパイダーでクロールする
5. Search Console でページを確認する
6. Google アナリティクスを使用する
7. ログを分析する
8. CMS を操作する

Web サイト上のすべてのページを検索する必要がある理由

Web サイト上のすべてのページを検索する必要がある理由はたくさんあります。いくつか例を挙げると、

1. 新しいクライアントの Web サイトを監査し、インデックス作成の問題を見つけるため。

リンク切れ、サーバーエラー、ページ速度の遅さ、モバイルの使いやすさの悪さなどの技術的な問題により、Google はページをインデックスに登録できません。したがって、サイト監査により、サイトにいくつの URL があるのか、そしてそれらのどれに問題があるのかが明らかになります。最終的には、SEO がプロジェクトの将来の作業範囲を見積もるのに役立ちます。

2. 誤ってインデックスに登録されていない自分のサイトのページを検出するため。

ウェブサイトに重複コンテンツがある場合、Google は重複コンテンツをすべてインデックスに登録できない可能性があります。長いリダイレクトチェーンや 404 URL についても同様です。サイト上にリダイレクトチェーンが多数存在すると、クロールバジェットが無駄に消費されます。その結果、検索ボットがサイトを訪問する頻度が減り、全体的にインデックス付けが悪くなります。そのため、一般的には正常に見える場合でも、定期的な監査が必要です。

3. Google インデックス対象外のインデックス付きページを特定する。

管理者用のログインページ、開発中のページ、ショッピングカートなど、一部のページは検索インデックスに必要ありません。ただし、技術ファイル内のルールの矛盾やエラーにより、これらのページはユーザーの意志に反してインデックスに登録される可能性があります。たとえば、robots.txt のみに依存してページを禁止している場合でも、URL がクロールされて検索に表示される可能性があります。

4. 古くなったページを見つけて、コンテンツの完全な見直しを計画する。

Google はユーザーに可能な限り最高の結果を提供することを目指しているため、コンテンツの品質が低かったり、内容が薄かったり重複していたりすると、インデックスに登録されない可能性があります。まだ取り上げていないトピックを知るために、すべてのページのリストを用意しておくとよいでしょう。すべてのコンテンツインベントリを手元に置くことで、コンテンツ戦略をより効果的に計画できるようになります。

5. 孤立したページを見つけてリンク戦略を計画する。

孤立したページは、受信リンクがないページです。そのため、ユーザーや検索ボットはめったにアクセスしないか、まったくアクセスしません。孤立したページは Google でインデックスに登録され、偶発的なユーザーを引き寄せる可能性があります。しかし、Web サイト上に多数の孤立したページがあると、Web サイトの権威が損なわれます。サイトの構造は明確ではなく、ページは役に立たない、または重要ではないように見える可能性があり、すべての枯れ木が Web サイト全体の可視性を低下させます。

6. Web サイトを再設計し、アーキテクチャを変更する。

Web サイトの再設計を計画し、ユーザーエクスペリエンスを向上させるには、まずすべてのページと関連する指標を見つける必要があります。

すべてのページの論理階層を含む明確で整理された構造は、検索エンジンがコンテンツを見つけやすくするのに役立ちます。したがって、すべての重要な URL は、ホームページから 1、2、または 3 回クリックするだけでアクセスできる必要があります。

ユーザーエクスペリエンスはクロールやランキングには影響しませんが、Web サイトの品質シグナルにとっては重要です。購入の成功、再訪問者の数、訪問者あたりのページビュー、その他の多数の指標は、Web サイトが訪問者にとってどれだけ役立つかを示します。

7. 競合他社のウェブサイトを分析するため。

競合他社のページを監査することで、競合他社の SEO 戦略をより深く掘り下げることができます。つまり、トラフィックの多いページ、最もリンクされているページ、最適な参照元などを明らかにすることができます。このようにして、貴重な洞察を得ることができ、競合他社にとってうまく機能することを学ぶことができます。。彼らのテクニックを借りて結果を比較し、自分の Web サイトを改善する方法を確認できます。

Web サイト上のすべてのページを検索する方法はたくさんありますが、ケースごとに異なる方法を使用できます。それでは、それぞれの方法の長所と短所、そしてそれを手間なく使用する方法を見てみましょう。

1. Google 検索演算子で調べます

Google 検索を使用すると、Web サイトのすべてのページをすばやく見つけることができます。検索バーに「サイト: ドメイン」と入力するだけで、Google がインデックスに登録した Web サイトのすべてのページを表示します。

サイト検索演算子は、Google がウェブサイト上で見つけたすべての URL を返します

site:search の結果には、Google がサイト上で見つけたすべての URL が表示されます

ただし、「site:」演算子によって表示される検索結果は、サイトのインデックス付けされたページの正確な数を必ずしも反映しているわけではないことに注意することが重要です。

まず、Google がすべてのページをクロールした直後にすべてのページをインデックスに登録するという保証はありません。さまざまな理由で特定のページをインデックスから除外する場合があります。たとえば、一部のページを重複または低品質と見なします。

次に、「site:」検索演算子には、Web サイトから削除されたページも表示される場合がありますが、それらは Google 上でキャッシュまたはアーカイブされたページとして保持されます。

したがって、「site:」検索クエリは、サイトの規模をおおよそ把握するのに適した開始点です。ただし、インデックスから欠落している可能性のある残りのページを見つけるには、他のツールが必要になります。

2. robots.txt ファイルを確認します。

Robots.txt は、個々のページまたはディレクトリ全体の許可/不許可ルールを利用して、Web サイトをクロールする方法を検索ボットに指示する技術ファイルです。

したがって、このファイルにはサイト上のすべてのページが表示されるわけではありません。ただし、検索ボットによるアクセスが禁止されているページを見つけるのには役立ちます。

方法

robots.txt を使用して制限されたページを見つける方法の手順は次のとおりです。

Web サイトで robots.txt ファイルを見つけます。通常、これはルートディレクトリにあるため、example.com/robots.txt と入力するとそこに表示されます。
テキストエディタまたはブラウザでファイルを開きます。
次のルールが適用される検索エンジンクローラーを指定する「User-agent」行に注目してください。
「禁止」ルールを探してください。これらの行は、検索エンジンクローラーがアクセスを許可されないページまたはディレクトリを指定します。
見つかった場合は、ブロックされている URL とディレクトリを調べてください。

以下は YouTube のロボットディレクティブの例です。

YouTube のロボットディレクティブ

YouTube Web サイトのロボットディレクティブ

どのように動作するかを確認してください。たとえば、サインアップページは許可されません。ただし、Google で検索するとこの情報を取得できます。このページには説明的な情報がないことに注意してください。

ロボットディレクティブによって禁止されているページが検索に表示される

ロボットディレクティブによって禁止されているページが検索結果に表示される

robots.txt ルールを再チェックして、すべてのページが適切にクロールされていることを確認する必要があります。したがって、それを確認するには、Google Search Console やサイトクローラーなどのツールが必要になる場合があります。それについては後ほど説明します。

これまでのところ、ファイルの目的について詳しく知りたい場合は、 Web ページをインデックスから非表示にするこのガイドをお読みください。

3. サイトマップを調べる

サイトマップは、Web マスターがサイトのインデックスを適切に作成するために使用するもう 1 つの技術ファイルです。このドキュメントは、多くの場合 XML 形式で、インデックスを作成する必要がある Web サイト上のすべての URL をリストします。サイトマップは、Web サイトの構造とコンテンツに関する貴重な情報源です。

大規模な Web サイトには複数のサイトマップがある場合があります。ファイルのサイズは 50,000 URL および 50 MB に制限されているため、ファイルをいくつかに分割して、ディレクトリ、画像、ビデオなどの個別のサイトマップを含めることができます。 ShopifyやWixなどの電子商取引プラットフォームサイトマップを自動的に生成します。その他の場合は、ファイルを作成するためのプラグインまたはサイトマップジェネレーターツールがあります。

方法

とりわけ、 Web サイトのサイトマップを使用すると、その Web サイト上のすべてのページを簡単に見つけて、それらがインデックスに登録されていることを確認できます。

Web サイトのフッターまたはヘッダーでサイトマップへのリンクを探します。サイトマップは通常、yourdomain.com/sitemap.xml または同様の URL にあります。ロボットのファイルはサイトマップへの参照が含まれる最も一般的な場所であるため、ロボットのファイルを確認することもできます。
テキストエディタまたは XML ビューアでサイトマップを開きます。
サイトマップファイルの <loc> タグを確認してください。これらのタグには、Web サイト上の各ページの URL が含まれています。
<loc> タグの URL をスプレッドシートまたはテキストドキュメントにコピーできます。

すべてのサブカテゴリを含むサイトマップの例

Web サイト上のすべてのページをリストする複数のサイトマップの例

また、サイトマップにも問題がある可能性があるため、サイトマップが正しいかどうかを時々再確認する必要があります。サイトマップが空白であるか、404 コードで応答しているか、ずっと前にキャッシュされているか、単純に望ましくない間違った URL が含まれている可能性があります。インデックスに表示されます。

サイトマップを検証する良い方法は、Web サイトクロールツールを使用することです。オンラインで利用できる Web サイトクローラーツールはいくつかありますが、その 1 つであるWebSite Auditor は、サイト全体の監査のための強力な SEO ツールです。 Web サイト上のすべてのページを検索し、技術ファイルを検証するのにどのように役立つかを見てみましょう。

4. SEO スパイダーでクロールする

このステップで必要となるのは、 WebSite Auditor. 今すぐ無料でダウンロードできます。ダウンロード WebSite Auditor

方法

WebSite Auditor を使用して Web サイト上のすべてのページを検索する方法は次のとおりです。

WebSite Auditor を起動し、Web サイトの URL を入力して新しいプロジェクトを作成します。
[詳細設定] ボックスをオンにし、正確なクロールパラメータを指定してセットアップを完了します。 (何を調べればよいかまだわからない場合は、高度な設定をスキップして、SEO スパイダーがデフォルト設定でサイトをクロールできるようにします。)
詳細設定には、Web サイトクローラーがすべてのページを確実に検出できるようにするためのいくつかのオプションがあります。たとえば、「孤立ページの検索」にチェックを入れると、受信リンクを含まないすべての URL が収集されます。

特定の検索ボットまたはユーザーエージェントの指示を指定できます。 URL パラメータを無視する、パスワードで保護されたサイトをクロールする、ドメインを単独でクロールするかサブドメインと一緒にクロールするなどをクローラーに指示します。

孤立した URL を含むすべてのページを検索するための Web クローラーの設定

他のページからリンクされていないページを含むすべてのページを検索するための Web クローラーの設定

[OK]をクリックすると、ツールがサイトを監査し、 [サイト構造] > [ページ]セクションのすべてのページを収集します。

WebSite Auditor は、 URL が検索エンジンに対して適切に最適化されているかどうかを再チェックするのに役立ちます。セットアップは迅速で、インターフェースは非常に直感的であるため、数分でこのツールを理解できるようになります。

ここに短いビデオガイドがあります:

Web サイトクローリングツールから何が得られるかを見てみましょう。

すべてのリソースを含むページのリストを収集する

[すべてのページ]タブで、列ヘッダーをクリックすると、URL、タイトル、またはその他の列でリストを並べ替えることができます。

「サイト構造」>「ページ」セクションで、すべてのリソースを含むすべてのページのリストを取得します。

「サイト構造」>「ページ」セクションで、すべてのリソースを含むすべてのページのリストを取得します。

ダウンロード Website Auditor

検索ボックスを使用して、キーワードまたはページ URL でページのリストをフィルタリングできます。これは、特定のページまたはページのグループを探している場合に役立ちます。

さらに、表示可能な列を追加して、メタタグ、見出し、キーワード、リダイレクト、その他のページ上の SEO 要素など、このページに関する詳細情報を表示できます。

最後に、任意の URL をクリックして、ワークスペースの下半分にあるページ上のすべてのリソースを調べることができます。

すべてのデータはツール内で処理することも、CSV または Excel 形式でコピー/エクスポートすることもできます。

技術的エラーの影響を受けるページのリストを取得する

[サイト監査]セクションには、次のようなエラーの種類ごとに分割されたページのリストが表示されます。

重複した問題
欠陥のあるリダイレクトとリダイレクトチェーン
インデックス作成が制限されているページ
壊れたリソース

エラーの種類ごとにリストされているサイトのすべてのページを検索します

エラーの種類ごとにリストされているサイトのすべてのページを検索します

ダウンロード Website Auditor

問題の種類ごとに、この要素が重要である理由の説明と、それを修正する方法に関するいくつかの提案が表示されます。

視覚化されたサイト構造を確認する

さらに、 [サイト構造] > [視覚化]でビジュアルサイトマップを調べることができ、すべての URL 間の関係が表示されます。インタラクティブなマップを使用すると、ページやリンクを追加または削除して、サイトの構造を調整できます。内部 PageRank 値を再計算し、ページビュー (Google Analytics によって追跡される) を確認できます。

サイト構造の可視化

ビジュアルサイトマップでサイトのすべてのページを表示

ダウンロード Website Auditor

ジェネレーターツールを使用して技術ファイルを検証する

それに加えて、 WebSite Auditor はrobots.txt ファイルとサイトマップの両方が利用可能かどうかもチェックします。

これにより、 Web サイトツールで技術ファイルを編集し、適切な設定でサイトに直接アップロードできます。

Website Auditor のサイトマップ生成ツール

WebSite Auditor でのサイトマップの作成

ファイルを編集するときに特別な構文に従う必要はありません。必要な URL を選択し、必要なルールを適用するだけです。次に、クリックしてファイルを生成し、コンピュータに保存するか、FTP 経由でサイトにアップロードします。

WebSite Auditor の Robots.txt 生成ツール

WebSite Auditor でのロボットディレクティブの編集

ダウンロード Website Auditor

5. Search Console でページを確認する

サイトのすべてのページを検索できるもう 1 つの優れたツールは、Google Search Console です。これは、ページのインデックス付けをチェックし、検索ボットがこれらの URL を正しくインデックス付けするのを妨げている問題を明らかにするのに役立ちます。

方法

まだインデックスが作成されていないページも含め、インデックス作成ステータスごとにすべてのページの内訳を取得できます。

Search Console でサイトのすべてのページを検索する方法は次のとおりです。

1.インデックス作成レポートに移動し、 [インデックス付けされたページに関するデータの表示]をクリックします。検索ボットが Web サイト上で最後にクロールしたすべてのページが表示されます。ただし、テーブルには最大 1,000 個の URL という制限があることに注意してください。送信されたすべての URL などからすべての既知のページを並べ替えるクイックフィルターがあります。

Google Search Consoleのインデックスに登録されたすべてのページ

Search Console のインデックスに登録されたすべてのページ

2. [インデックスなし]タブを有効にします。以下のツールは、各 URL がインデックスに登録されない理由の詳細を示します。

Google によるインデックスに失敗したページ

Google がまだインデックスを作成していないサイトのすべてのページ

各理由をクリックすると、問題の影響を受ける URL が表示されます。

問題は、ページのメイン URL だけでなく、アンカーリンク、ページネーションページ、URL パラメーター、および手動での並べ替えが必要なその他のゴミも取得してしまうことです。また、テーブルのエントリ数は 1,000 に制限されているため、リストは不完全になる可能性があります。

とりわけ、さまざまな検索エンジンには他のインデックス作成ルールがある可能性があり、そのような問題を見つけて処理するには、そのウェブマスターツールを使用する必要があることに注意してください。たとえば、 Bing Webmasterツール、 Yandex Webmaster 、 Naver Webmasterなどを使用して、それぞれの検索エンジンのインデックス作成をチェックします。

6. Google アナリティクスを使用する

Google Analytics は最も広く使用されている分析プラットフォームの 1 つであるため、Web サイトの所有者や編集者なら誰でもよく知っていると思います。古き良きユニバーサルアナリティクスは間もなく Google アナリティクス 4 に置き換えられます。そこで、ツールの両方のバージョンを見てみましょう。

方法

Google のユニバーサルアナリティクスでサイトのページを収集するには、次の手順に従います。

Google Analytics アカウントで、探索したい Web サイトを選択します。
左側のサイドバーの「動作」モジュールに移動します。
[サイトコンテンツ] > [すべてのページ] タブを選択します。これで、Google Analytics によって追跡された Web サイト上のすべてのページのリストが表示されます。

Google のユニバーサルアナリティクスですべてのページを表示する

ユニバーサルアナリティクスですべてのページを表示する

ページビュー、直帰率、ページの平均滞在時間などのユーザー行動統計を含むページが表示されます。常にページビュー数が最も少ないページに注目してください。おそらく、それらは孤立したページです。

Google アナリティクス 4で同様のフローを再作成するには:

[レポート] > [エンゲージメント] モジュールに移動します。
「ページと画面」セクションを選択します。
ディメンションを「ページタイトルと画面クラス」から「ページパスと画面クラス」に変更します。 Google アナリティクス 4 によって追跡されたウェブサイト上のすべての URL を示す表が表示されます。

Google アナリティクス 4 ですべてのページを取得する

Google アナリティクス 4 でウェブサイトのすべてのページを検索する

コンソールと同様に、URL パラメーターなどが含まれます。ページの上部にある[エクスポート]ボタンをクリックすると、ページのリストを CSV または Excel シートとしてエクスポートできます。

7. ログを分析する

一部の Web サイトは非常に巨大で、強力な SEO スパイダーでもすべてのページをクロールするのは難しい場合があります。ログ分析は、大規模な Web サイト上のすべてのページを検索して調査する場合に適したオプションです。

Web サイトのログファイルを分析すると、Web からの訪問者を獲得したすべてのページ、その HTTP 応答、クローラーがページを訪問する頻度などを特定できます。

ログファイルはサーバー上に保存されるため、ログファイルを取得するには必要なレベルのアクセス権とログアナライザーツールが必要です。したがって、この方法は、技術に精通した人、ウェブマスター、開発者により適しています。

方法

ログ分析を使用してサイトのすべてのページを検索する手順は次のとおりです。

Web サイトのサーバーログをダウンロードし、選択したログ分析ツールで開きます。
HTTPステータスコードでログデータをフィルタリングします。これは、Web サイト上で訪問者を集めたすべてのページを特定するのに役立ちます。
ページが正常にアクセスされたことを示すステータスコード 200 を持つログエントリを探します。他のステータスコードでフィルターして、301 または 302 リダイレクトなど、リダイレクトされたページを検索することもできます。
他のツールと同様に、ページのリストをスプレッドシートまたは別の形式にエクスポートして、さらに分析することができます。

8. CMS を操作する

Web サイト上のすべてのページを検索するもう 1 つの方法は、コンテンツ管理システム (CMS)を参照することです。CMS には、一度作成した Web サイト上のすべての URLが含まれています。 CMS の例としては、ニュースやブログ、電子商取引、企業サイトなど、さまざまなドメインでコンテンツを編集するための Web サイト構築ツールが含まれるWordpressや Squarespace があります。

方法

CMS は外観によって大きく異なりますが、一般的な手順はほとんどの CMS に適用されます。

CMS ダッシュボードにログインし、ページまたは投稿セクションに移動します。
サイドバー、サブメニュー、または別のページで、Web サイト上のすべてのページまたは投稿のリストを探します。
「すべてのページ」または「すべての投稿」リンクをクリックして、Web サイト上のすべてのページのリストを表示します。

カテゴリ、ブログ投稿、ランディングページなど、CMS のさまざまなセクションに属するさまざまな種類のページが存在する可能性があることに注意してください。

WordPress CMS でサイトのすべてのページを検索する

WordPress CMS でサイトのすべてのページを検索する

ほとんどの CMS では、作成日、作成者、カテゴリ、またはその他の基準で URL を並べ替えることができます。検索ボックスを使用して、キーワードまたはタイトルでページのリストをフィルタリングすることもできます。

まとめ

Web サイト上のすべてのページを検索するには、さまざまな方法とツールがあります。どちらを選択するかは、目的と行う作業の範囲によって異なります。

このリストがお役に立てば、SEO の初心者でもサイトのすべてのページを簡単に収集できるようになります。

まだ答えられていない質問がある場合は、 Facebook のユーザーグループでお気軽に質問してください。

Article stats:

Linking websites	N/A
Backlinks	N/A
InLink Rank	N/A

からのデータ: バックリンクチェッカーツール.