歡迎光臨北京龍域網絡科技有限公司官方網站!!
新聞觀點

做企業站有沒有必要設置 如何設置robots.txt

標簽: | 作者:admin | VISITORS: | 來源:北京龍域網絡
23
May
2016
  真正有幾個網站像淘寶一樣牛逼呢,如果都是那樣百度、360等搜索引擎都是改關閉的時候了。先來看下什么是robots.txt。北京做網站給你完美講解.
  
  robots協議(也稱為爬蟲協議、爬蟲規則、機器人協議等)也就是robots.txt,網站通過robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協議是網站國際互聯網界通行的道德規范,其目的是保護網站數據和敏感信息、確保用戶個人信息和隱私不被侵犯。因其不是命令,故需要搜索引擎自覺遵守。一些病毒如malware(馬威爾病毒)經常通過忽略robots協議的方式,獲取網站后臺數據和個人信息。
  
  一般的寫法也是通用的既然是外國定義的肯定他的寫法也是依英文來定義。常見的命令符是:
  
  User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
  
  Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
  
  Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖等等。
  
  對我們不是很專業的運用人員來說沒必要研究的非常透徹,只需看到一些主要指令就可以了,下面依照我的一個織夢CMS網站http://www.rzrxvp.icu來研究下, robots.txt在空間的位置肯定是根目錄下,也是蜘蛛來到你網站能夠方便爬到的位置。
  
  User-agent: * (指的是給所有搜索引擎看的)
  
  Disallow: /plus/ad_js.php
  
  Disallow: /plus/advancedsearch.php
  
  Disallow: /plus/car.php
  
  Disallow: /plus/carbuyaction.php
  
  Disallow: /plus/shops_buyaction.php
  
  Disallow: /plus/erraddsave.php
  
  Disallow: /plus/posttocar.php
  
  Disallow: /plus/disdls.php
  
  Disallow: /plus/feedback_js.php
  
  Disallow: /plus/mytag_js.php
  
  Disallow: /plus/rss.php
  
  Disallow: /plus/search.php
  
  Disallow: /plus/recommend.php
  
  Disallow: /plus/stow.php
  
  Disallow: /plus/count.php
  
  Disallow: /include
  
  Disallow: /templets
  
  以上所有Disallow: /后面的文件夾和具體的文件名是不允許收錄的,一般考慮到網站的安全為主設置的這些指令,當然搜索引擎還是準許的。一般重要的文件和數據庫文件都需要Disallow的。還有就是網站模板所在的頁面templets也不被Disallow的,防止黑客篡改盜用等。更多針對百度搜索引擎的相關內容請訪問 百度搜索幫助中心-禁止搜索引擎收錄的方法http://www.baidu.com/search/robots.html
相關新聞
首頁 | 網站建設 | 經典案例 | 服務范圍 | 新聞觀點 | 服務客戶 | 聯系我們
彩票平台代理 股票指数基金场所 云南时时彩开奖 体彩内部员工揭秘11选5 青海十一选五 上海11选五开奖走势图 一定牛 辽宁11选5规则 极速赛车开奖 网址 幸运农场app官方下载 东方6 1开奖号码 期货配资公司 华东联网15选5 期货冠军侯婷婷 一波中特打一生肖 北京pk技巧想输都难 今日股评大盘分析 2019正版平特一肖图