今天突然發現為什麼我的電腦cpu使用率一直維持在100%,我以為伺服器被攻擊了,查了一下log檔,原來是有一隻http://www.google.com/bot.html,這是google的網頁快取的機器人,我的網頁終於被google發現了,要快取我的網頁,但是看了一下他快取的是”博覽天下”的文章,這是我收集別人的文章,它一直快取這些就快取不完了呀,所以造成我的困擾,經過了解 http://www.google.com/support/webmasters/bin/topic.py?topic=8843, 這個網站有說明如何把不想被快取的網頁蓋起來,都不做的話預設就是全部網站快取。首先要在網站的根目錄, 這個新增一個robots.txt純文字檔,如 http://test.com.tw/robots.txt,裡頭填
所以 robots.txt 這個純文字檔我填入
User-Agent: *
Disallow: /blog/modules/planet/
*:就是不接受所有網頁快取機器人
/blog/modules/planet/: 就是我不想被快取的目錄若不想被快取的網頁就填 Disallow: /private_file.html
若全部網站都不想被快取就填 Disallow: /
Q.那為什麼google要用這個網頁快取機器人呢?
A.google就是因為這樣把所有快取到的網頁做一個很有效率的索引,並且每個網頁都做加權積分,愈常被點閱的網頁積分就高,就會被先搜尋到排在愈前面,嘿…所以咕狗大神就是這樣來的呀^^