hiroron bot は、クローラーは常にrobot.txtとmetaタグのルールを尊重します。
これらによってクロールが拒否されているサイトを収集することはありません。
noindex ディレクティブを有効にするためには、robots.txt ファイルでページやリソースをブロックせず、クローラがページにアクセスできるようにする必要があります。robots.txt ファイルでページがブロックされている場合、またはクローラがページにアクセスできない場合、クローラは noindex ルールを認識することができません。
noindexを利用するとサイトのページを1ページ単位でインデックスするかどうか設定できます。
hiroronbotはサイトをクロールしてタグを見つけると、そのサイトをインデックスから除外します。
次のように記載すると、ルールを尊重するすべての検索エンジンからインデックスされません。
<meta name="robots" content="noindex" >
また、次のように指定することでhiroronbotのみがインデックス登録できないようにすることもできます。
hiroronbotは、hiroronbotまたはGooglebotが拒否されている場合、インデックス登録を行いません。
<meta name="hiroronbot" content="noindex" >
または
<meta name="googlebot" content="noindex" >
また、以下のようにmetaタグを指定することで、hiroronbotによるクロールを明確に許可できます。
これはhiroronbotのオリジナルルールであり、他の検索エンジンには利用できません。
<meta name="hiroronbot" content="index">
検索エンジンによってはこれらのルールが別の意味に解釈される場合があります。
metaタグに関する詳しい情報はGooglebotのWebサイトをご確認ください。
hiroronbot は、robot.txtで次の条件が満たされた場合にクロールを行います。
複数のルールが競合する場合は、より上位のルールが適用されます。
※クロールはあくまで許可された場合であって、必ずクロールが行われているわけではないことをご理解ください。
1、robots.txt で hiroronbot が指定され、Allow と指定されている場合
指定されたパス名をクロールします
2、robots.txt で hiroronbot が指定され、Disallow と指定されている場合
指定されたパス名をクロールしません
3、robots.txt で Googlebot が指定され、Allow と指定されている場合
指定されたパス名をクロールします
4、robots.txt で Googlebot が指定され、Disallow と指定されている場合
指定されたパス名をクロールしません
5、robots.txt で * が指定され、Allow と指定されている場合
指定されたパス名をクロールします
6、robots.txt で * が指定され、Disallow と指定されている場合
指定されたパス名をクロールしません
サンプルの robots.txt ファイルです。
User-agent: hiroronbot
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: *
Allow: /pathname/files/infomation.pdf
Sitemap: https://www.hiroron.net/sitemap.xml
1、User-agent
どのユーザーエージェントに対する指示であるのかを表しています。
*(ワールドカード)を使用することですべてのユーザーエージェントを指定することもできます。
2、Disallow または Allow
User-agentで指定したクローラーに対して、クロールを拒否または許可するファイルのパス名を指定します。
/と入力すると、ルートディレクトリ以下のすべてのディレクトリとファイルが含まれます。
特定のファイルのみを制限する際は、そのファイルのパス名を記載します。
例:/pathname/files/infomation.pdf
ただし、robots.txtはWAN側から閲覧できることに留意してください。
セキュリティの都合などでWAN側から完全に隠すには.htaccessファイルを利用してください。
3、Sitemap
サイトのサイトマップの場所を指定してください。
《注意!》
robot.txtに記載していないユーザーエージェントにはサイト全体のクロールを許可していることに注意が必要です。これは、デフォルトの動作として、全てのユーザー エージェントはサイト全体のクロールが暗黙的に許可されているためです。
robot.txt に関する詳しい情報はGooglebotのWebサイトをご確認ください。
robots.txt ファイルはクロールを希望しないことをクローラーに伝える有効な方法ですが、すべてのクローラーがサイト側の意思を尊重するわけではないことを理解してください。hiroronbot や Googlebot などの信頼できるウェブクローラは robots.txt ファイルの指示に従いますが、他のクローラも従うとは限りません。そのため、ウェブクローラから情報を保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。robot.txt に関する詳しい情報はGooglebotのWebサイトをご確認ください。
hiroronbotは次のユーザーエージェント文字列を利用してサイトをクロールします。
クローラーは常にrobot.txtとmetaタグのルールに従います。
hiroronbot
Botは更新作業中です。新しいUAが決まり次第お知らせします。
クロールによって入手したデータには30日間の有効期限があります。クローラーは過去にクロールしたサイトを15日おきに巡回しており、巡回によって新しい情報を発見した場合、既存の情報を破棄して新しいデータを蓄積します。
サイトの閉鎖やコンテンツの削除等で、過去に収集したデータを巡回中に発見できなかった場合、データは最長30日間保管された後に破棄されます。
現段階では、個人的なプロジェクトの支援ツールとして利用しています。
つまり生身の人間がGoogle検索で情報を得ることと同様に、生身の人間がhiroronbotを利用して効率よく情報を収集しているだけです。
しかし、将来的に自動化プログラム等で情報を処理することがあるかもしれません。その際は他の検索エンジンのクローラーと同様に法令等をしっかり順守したうえで行います。