4. クローラを作成する

4. クローラを作成する

①ホーム画面から、「組織」を開きます。


②画面左メニューで、MARS Platform上で提供されるアプリケーションの一覧が表示されます。
MARS FINDER 3.0をご利用の場合は、「MARS FINDER」をクリックします。


③「サービス一覧」 をクリックします。


④クローラを作成したいサービスの「クローラ選択 」をクリックします。


⑤「クローラ作成 」をクリックし、クローラを作成します。


⑥各項目に情報を入力し、「作成」ボタンを押下します。


No.
項目名
説明
1
クローラ名クローラ名を記載します。クローラ名は一覧に表示されます。
2
概要
クローラについての概要を記載します。
3
割り当てドキュメント数
クローラ収集可能なドキュメント数を設定します。
4
タイムゾーン
現状は「Asia/Tokyo (+9:00)」にて固定です。
5
起点URL
クローラが処理を開始する時に一番最初にクロールするURLを設定します。複数設定可能です。
6
URL範囲指定 (正規表現)
クローラが収集したページからURLを抽出する時に対象とするルールを記載します。(※)
7
URL除外指定 (正規表現)
クローラが収集したページからURLを抽出する時に対象外とするルールを記載します。(※)
8
スケジュール
クローラが処理を実行する日時を指定します。
スケジュールは複数指定可能ですが、実行時間が重なっていたり、実行中の場合は、常に実行中のクローラが優勢され、それ以外のクローラは終了になります。

スケジュールが反映されるまでは数分かかりますので最短で動作させる場合でも現在時刻から10分程度未来の日時を指定してください。
9拡張設定:言語
現状は「日本語」で固定です。
10
拡張設定:クロールする深さ
ページからURL抽出して再帰的に辿っていく回数です。
大きな値を設定するとクロール完了に時間がかかります。ほとんどのサイトは深度5で問題ありません。
11
拡張設定:クロール対象ファイル
デフォルトではクローラが収集するファイルはHTMLのみです。
収集対象をPDF/MS-Office(Excel/Word/PowerPoint)と広げることができます。
12
拡張設定:クロール時のリクエストパラメータ保持
ページからURL を抽出する時に、クエリ部分、フラグメント(ハッシュ)部分を保持して実行するかの設定です。
URL1:

クエリ保持をオフの場合
URL1は以下のURLとして実行されます。

フラグメント保持をオフの場合
URL1は以下のURLとして実行されます。

クエリ、フラグメント両方をオフ
URL1は以下のURLとして実行されます。

また、URLのクエリ、フラグメントは正規化(パラメーターの名前をソートされてURLを再生成)され実行されます。
ですので以下のURLはURL1と同じURLをとして解釈されます。
13
拡張設定:クロール時のIP固定
クロール時のアクセス元IPアドレスを固定するための設定です。
固定した場合のIPアドレスは、こちら をご参照ください。
14
拡張設定:Basic認証
Basic認証が設定されているクロール対象のサイトにクローラがアクセスできるようする為の設定です。
15拡張設定:robots.txt/robots metaタグ有効robots.txt
クローラがrobots.txtを解釈するか否かを設定します。
通常はONで問題ありませんが、Webサイトに設置されているrobots.txtを無視してクロールしたい場合は、OFFとしてください。

robots meta
クローラがrobots metaを解釈するか否かを設定します。
通常はONで問題ありませんが、Webサイトに設置されているrobots metaを無視してクロールしたい場合は、OFFとしてください。
※通常のURLから正規表現のURLを生成する ジェネレータExcel  もご用意しておりますので、ダウンロードしてご利用ください。

⑦内容に問題がなければ、「OK」を押してクローラを作成することができます。


⑧作成したクローラは、サービスへ紐付けしておく必要があります。
サービス一覧画面->クローラ選択->「選択」ボタンを押下いただくことで、紐づけができます。


不要なクローラをサービスへ紐づけすると、最大ドキュメント処理数の上限に達する可能性がありますのでご留意ください。

    • Related Articles

    • Basic/Digest認証の設定をされたページは取得可能ですか

      Q.Basic/Digest認証の設定をされたページは取得可能ですか A.Basic認証を設定されたページの取得が可能です。 クローラ詳細画面->拡張設定->Basic認証で下記を設定いただき、クロールを実行ください。  ・ユーザー名  ・パスワード Digest認証には対応しておりません。ご了承ください。 参考: 機能説明->Basic認証ページの検索 管理画面の利用ガイド->4. クローラを作成する
    • 起点URLにsitemap.xmlを登録しクロールすることはできますか

      Q. 起点URLにsitemap.xmlを登録しクロールすることはできますか。 A.はい、可能です。MF3.0のクローラは、一般的なsitemap.xmlの形式に対応しており、locタグにあるURLはクロール対象となります。 但し、lastmodタグ、changefreqタグ、priorityタグは検索結果に反映されません。 参考: マニュアル->4. クローラを作成する
    • 中国語のサイトへの導入は可能でしょうか

      Q. 中国語のサイトへの導入は可能でしょうか。 A.はい、MF3.0としては、可能です。 検索結果画面での中国語(簡体字・繁体字)に対応しております。 クローラの言語は日本語をご選択いただければ、問題ございません。 一般的な注意事項として、グレート・ファイアウォールの懸念はございます。 参考: FAQ->検索結果画面の対応言語を教えてください FAQ->検索結果の表示言語の設定方法を教えてください 管理画面の利用ガイド->4. クローラを作成する
    • クローラと検索DBの役割を教えてください

      Q. クローラと検索DBの役割を教えてください。 A.クローラは、対象のWebサイトからコンテンツ情報を収集します。 検索DBはクローラで収集したコンテンツ情報を加工し、検索用にデータベース化(インデキシング処理)したものになります。 そのため、クローラ詳細画面では、対象のWebサイトにアクセスするとき、どのコンテンツの情報を収集するかの判定に利用される値を設定します。 検索DB詳細画面では、クローラで収集した情報の中から、どのコンテンツを検索対象とするかの判定に利用される値を設定します。 ...
    • #付きURLを検索結果に表示させることは可能ですか

      Q. #付きURLを検索結果に表示させることは可能ですか。 A. はい、可能です。 #付きURLは、デフォルトではクロールおよび検索データベースの取込対象外であるため検索結果には表示されません。 クローラ詳細画面->拡張設定->クロール時のリクエストパラメータ保持->フラグメントを有効に設定変更し、クロールを実行ください。 【注意】 上記を取込対象とする場合、同一ページを複数回、別のURLとして認識する場合があるため、最大ドキュメント数にご留意ください。 ...