微信作死開放給國外？別胡扯了

各位使用最多的搜尋引擎是什麼？

想必大多數人會說是百度，而果子現在逐漸喜歡使用微信自帶搜尋了。

它確實夠方便

，如果你要問原因，我只能回答：

1、其他搜尋引擎廣告太多。

2、微信使用者群體大，搜尋資源豐富。

並且，還有一個最關鍵的原因：

你只能透過微信本身來查詢公眾號的相關內容

。

而最近，

微信卻遇到了大麻煩

：

據《科創板日報》報道，此前有媒體報道稱：

透過谷歌、必應可以搜尋到微信內容了！

但正如上面所說，一般情況下，微信內容無法透過谷歌等搜尋引擎檢索到

。

還有資訊稱：

國外引擎可以搜尋，而百度卻不行。

各位看到這裡心中肯定有這樣的疑問：

為什麼要開放給國外，

遮蔽百度區別對待嗎？漏洞又是怎麼回事？

但微信官方迴應和事實證明：

這次事故確實是個漏洞而已，現已修復，開放給國外是謠言！

下面果子就帶大家一起看看這個漏洞的來龍去脈！

首先，果子嘗試在谷歌

搜尋了昨天公眾號文章標題

：

並沒有找到對應公眾號原文內容，然後又試了試百度，

同樣沒有。

但是在搜狗居然可以搜尋到？

其實，關注網際網路的大家應該知道：

搜狗搜尋已經被騰訊收購

。

而搜狗也是目前

獨家

提供公眾號內容的搜尋引擎

。

實測目前確實無法透過其他引擎搜尋，

漏洞已修復

！

再來看騰訊微信官方的迴應。根據

澎湃新聞

的報道：微信內容之所以能被谷歌等搜尋引擎檢索到，

是因為

公眾號 robots 協議出現漏洞。

因近期平臺技術升級導致漏洞，一些搜尋引擎，可透過爬蟲技術獲取到微信公眾號內容。

問題就出現在

robots 協議

上，首先：

我們使用搜索引擎的檢索結果

，

均為引擎所爬蟲獲取的。

畫重點：

這張圖中的內容很重要

。

robots 協議一般指：

robots。txt（小寫）

，全稱為：

網路爬蟲排除標準。

它是一種存放於

網站

根目錄下

的

ASCII

編碼的

文字檔案

。

而

它存在的目的就是告訴搜尋引擎爬蟲，

哪些內容允許被收錄獲取

。

透過這張圖，大家應該能清晰的理解

robots。txt

的作用了吧？

比如：果子現在

開設了自己的網站

，我不想讓大家從谷歌中搜索到，我就可以在 robots。txt 中

寫入對應的協議內容

。

而具體的實現方法就是以下面的方式：

User-Agent： *

Allow：

Disallow：

透過內容想必大家應該知道表示什麼了吧？

User-Agent 這裡可以指爬蟲引擎名稱，

Allow、

Dis

allow 分別對應

允許和不允許

爬取的內容。

因此，微信表面上 “開放” 內容給谷歌等引擎，事實上是因為

robots。txt

出現漏洞，

谷歌搜尋網路爬蟲機器人恰好獲取了而已

。

比如：我們訪問

淘寶的 robots。txt

。

一般情況下，網站的 robots。txt 存放在根目錄，因此可採用域名 +

robots。txt

的網址訪問。

哈哈，我們看到，百度阿里之間確實

勢不兩立

。該協議表示：

不允許

百度蜘蛛（百度搜索爬蟲機器人）獲取所有內容。

其中

Disallow：

/ 表示，

不允許爬取所有內容

。

果子接著也查看了我經常逛的

IT 之家

，發現對搜尋引擎爬蟲，

未做過多的限制

，僅對部分敏感目錄（

例如密碼、標籤目錄

）做了宣告。

最後，看看

騰訊網

的，可看到

未對任何搜尋引擎爬蟲做限制

，甚至還貼心的羅列了訪問目錄。

最後，大家肯定關心

為什麼微信不開放搜尋

？

果子認為：微信作為國民級軟體，而公眾號作為微信強有力的

核心競爭力

，限制搜尋肯定有自己的道理。

畢竟，服務於使用者是微信的初衷，在 2020 年的

微信公開課

上，

微信就上線了 “服務搜尋” 功能，

併為各行業開放接入

。

而現在各大網際網路企業也紛紛推出自家的搜尋引擎產品，為了就是建立自己的應用生態。

因此站在商業角度這樣不足為奇

。

並且，在實際使用中，這個 robots

協議僅為

提醒宣告

，因此也

不具備任何防爬蟲能力

。

而 robot

協議

事實上

也僅為

君子協議

，它

在

網際網路中雖作為一個約定俗成的規範，

但不具備法律效力

。

總之，技術永遠服務於人，在技術革新中可能存在約束和限制，

但這正是科技發展所必須的

！

你希望微信開放搜尋嗎？