各位使用最多的搜尋引擎是什麼?
想必大多數人會說是百度,而果子現在逐漸喜歡使用微信自帶搜尋了。
它確實夠方便
,如果你要問原因,我只能回答:
1、其他搜尋引擎廣告太多。
2、微信使用者群體大,搜尋資源豐富。
並且,還有一個最關鍵的原因:
你只能透過微信本身來查詢公眾號的相關內容
。
而最近,
微信卻遇到了大麻煩
:
據《科創板日報》報道,此前有媒體報道稱:
透過谷歌、必應可以搜尋到微信內容了!
但正如上面所說,一般情況下,微信內容無法透過谷歌等搜尋引擎檢索到
。
還有資訊稱:
國外引擎可以搜尋,而百度卻不行。
各位看到這裡心中肯定有這樣的疑問:
為什麼要開放給國外,
遮蔽百度區別對待嗎?漏洞又是怎麼回事?
但微信官方迴應和事實證明:
這次事故確實是個漏洞而已,現已修復,開放給國外是謠言!
下面果子就帶大家一起看看這個漏洞的來龍去脈!
首先,果子嘗試在谷歌
搜尋了昨天公眾號文章標題
:
並沒有找到對應公眾號原文內容,然後又試了試百度,
同樣沒有。
但是在搜狗居然可以搜尋到?
其實,關注網際網路的大家應該知道:
搜狗搜尋已經被騰訊收購
。
而搜狗也是目前
獨家
提供公眾號內容的搜尋引擎
。
實測目前確實無法透過其他引擎搜尋,
漏洞已修復
!
再來看騰訊微信官方的迴應。根據
澎湃新聞
的報道:微信內容之所以能被谷歌等搜尋引擎檢索到,
是因為
公眾號 robots 協議出現漏洞。
因近期平臺技術升級導致漏洞,一些搜尋引擎,可透過爬蟲技術獲取到微信公眾號內容。
問題就出現在
robots 協議
上,首先:
我們使用搜索引擎的檢索結果
,
均為引擎所爬蟲獲取的。
畫重點:
這張圖中的內容很重要
。
robots 協議一般指:
robots。txt(小寫)
,全稱為:
網路爬蟲排除標準。
它是一種存放於
網站
根目錄下
的
ASCII
編碼的
文字檔案
。
而
它存在的目的就是告訴搜尋引擎爬蟲,
哪些內容允許被收錄獲取
。
透過這張圖,大家應該能清晰的理解
robots。txt
的作用了吧?
比如:果子現在
開設了自己的網站
,我不想讓大家從谷歌中搜索到,我就可以在 robots。txt 中
寫入對應的協議內容
。
而具體的實現方法就是以下面的方式:
User-Agent: *
Allow:
Disallow:
透過內容想必大家應該知道表示什麼了吧?
User-Agent 這裡可以指爬蟲引擎名稱,
Allow、
Dis
allow 分別對應
允許和不允許
爬取的內容。
因此,微信表面上 “開放” 內容給谷歌等引擎,事實上是因為
robots。txt
出現漏洞,
谷歌搜尋網路爬蟲機器人恰好獲取了而已
。
比如:我們訪問
淘寶的 robots。txt
。
一般情況下,網站的 robots。txt 存放在根目錄,因此可採用域名 +
robots。txt
的網址訪問。
哈哈,我們看到,百度阿里之間確實
勢不兩立
。該協議表示:
不允許
百度蜘蛛(百度搜索爬蟲機器人)獲取所有內容。
其中
Disallow:
/ 表示,
不允許爬取所有內容
。
果子接著也查看了我經常逛的
IT 之家
,發現對搜尋引擎爬蟲,
未做過多的限制
,僅對部分敏感目錄(
例如密碼、標籤目錄
)做了宣告。
最後,看看
騰訊網
的,可看到
未對任何搜尋引擎爬蟲做限制
,甚至還貼心的羅列了訪問目錄。
最後,大家肯定關心
為什麼微信不開放搜尋
?
果子認為:微信作為國民級軟體,而公眾號作為微信強有力的
核心競爭力
,限制搜尋肯定有自己的道理。
畢竟,服務於使用者是微信的初衷,在 2020 年的
微信公開課
上,
微信就上線了 “服務搜尋” 功能,
併為各行業開放接入
。
而現在各大網際網路企業也紛紛推出自家的搜尋引擎產品,為了就是建立自己的應用生態。
因此站在商業角度這樣不足為奇
。
並且,在實際使用中,這個 robots
協議僅為
提醒宣告
,因此也
不具備任何防爬蟲能力
。
而 robot
s
協議
事實上
也僅為
君子協議
,它
在
網際網路中雖作為一個約定俗成的規範,
但不具備法律效力
。
總之,技術永遠服務於人,在技術革新中可能存在約束和限制,
但這正是科技發展所必須的
!
你希望微信開放搜尋嗎?