《Disney +》 迪士尼、Marvel、彼思、星球大戰…  「寶可夢 晶燦鑽石・明亮珍珠」FINAL PV & 新情報公開!   動人的《Kena: Bridge of Spirits》預告片揭露新遊戲畫面與故事細節   TechnoBlood成立新公司「 TechnoBlood eSports」,旨在擴大電競業務   『超級炸彈人R線上遊戲』5月27日開放下載!「老蛇炸彈人」將在商店中登場!   完整再現肉感大腿…!萊莎2與DOAXVV聯動!「ライザコーデガチャ・2021」活動開跑!!   PlayStation官方將播出線上直播節目「State of Play」,並帶來PS5的遊戲情報!   《Ratchet & Clank: Rift Apart》神祕新主角蕾薇特首度曝光   讓聲光效果更上一層樓!「雷蛇 Base Station V2 Chroma」將以三種顏色華麗上市! 

robots.txt 的白名單設定方式

商業

Google / Bing 等搜尋引擎要爬網站,都會參考 robots.txt 有什麼規定。

那想要設定指允許一個網址,剩下的全部擋掉(白名單),這種規則若 robots.txt 有順序性的話,設定起來就會方便許多。

robots.txt 的白名單設定方式

Google 的 Developer 文件有寫 Robots.txt 的 Spec,詳見:Robots.txt Specifications | Google Developers

現在只是想要設定「允許一個網址,剩下的全部擋掉」,可以怎麼做呢?

一般正面表列的情況,就是 Allow 一個 和 Disallow 一卡車,想要簡單的作法,就是想要 Disallow ,再來 Allow 要開放的那一個即可,那這樣子做就需要知道 robots.txt 有沒有順序性。

雖然有 robots.txt 的 Spec,不過直接看範例應該會比較快,所以直接來參考 Google 的 Robots.txt,詳見:Google robots.txt

由 Google 的 robots.txt 可以參考到下述幾個:

  1. Disallow: /m?
  2. Disallow: /m/
  3. Allow: /m/finance

就是我們想要做的事情,所以順序就由上往下設定即可。

範例規則

  • 擋掉全部,允許 /m/profile

rotots.txt 的規則實做

  • User-agent:
  • Disallow: /
  • Allow: /m/profile

這樣子就可以囉~

相關網頁

Tsung

隨機商業新聞

Disney+