<var id="1z7vf"></var>
<var id="1z7vf"></var>
<var id="1z7vf"><video id="1z7vf"><menuitem id="1z7vf"></menuitem></video></var>
<cite id="1z7vf"><span id="1z7vf"><var id="1z7vf"></var></span></cite>
<var id="1z7vf"><video id="1z7vf"><thead id="1z7vf"></thead></video></var>
<var id="1z7vf"><video id="1z7vf"><thead id="1z7vf"></thead></video></var>
<var id="1z7vf"></var>

爬信息爬到服務器癱瘓,今日頭條的頭條搜索成了小網站的噩夢! (201911)

2019-11-12 19:42:35

沉醉信息網:www.chengzhui.cn

今年上半年,字節跳動放出了個讓百度虎軀一震的消息 —— 今日頭條開始做搜索引擎了。
頭條搜索從只限于頭條 App 的站內搜,變成可以抓取全網內容的全新搜索引擎,期間還和百度互剛了好幾波,字節跳動的野心可見一般。
依靠著今日頭條過億日活帶來的天然信息流資源,頭條搜索已經有了很大的基礎優勢,這不考慮分百度一羹都說不過去。。。
爬蟲就是自動抓取全網內容的一種程序,它會定時把互聯網上的內容爬下來,匯總存儲到自己的服務器上,這樣你每次搜索的時候,搜索引擎就會在這些內容里進行匹配相似度高的內容反饋給你。
為了讓大家總能查詢到互聯網上的最新內容,爬蟲一般每隔一段時間就再重新爬取一下網站內容。
在這個新聞里,一些服務器體量較小的網站稱,一種名為 Bytespider 的爬蟲爬取他們的網站信息的頻率太高,直接把網站整癱瘓了。
但讓差評君疑惑的是,像是用爬蟲爬信息這種在互聯網界已經算得上最常規不過的操作,小體量的公司都很少出錯,今日頭條這種大廠怎么把人家網站給搞癱了?今日頭條在業內的技術口碑一直不錯啊。。
根據網站主的描述,爬蟲短短一上午時間就對網站發出了 46W 次請求,直接耗掉服務器 7 個多 G 的流量。
最過分的是,無論是國內還是國外的開發者,都表示遇到 Bytespider 無視自家網站 robots 協議的情況。
譬如說哪些內容可以被爬取,哪些內容不能被爬取,而某些涉及用戶隱私的會直接禁止爬取。。。
如果你想查看某個網址的 robots 規則,只需要在主域名后面添加 /robots.txt 便可以看到。。
那些專門寫了 robots 協議的網站,就是告誡那些爬蟲網站,進了我家門,請遵守我的規定。
再舉個栗子,在用谷歌搜索的時候,你有可能會碰到有詞條有鏈接,卻沒有頁面說明的搜索結果。
這就很可能是因為對方的 robots 協議里允許谷歌抓取信息,但不讓谷歌搜索結果對網頁進行描述。
有些小網站會根據自己的服務器體量和維護成本,直接在 robots 協議里規定爬蟲爬取的頻率。
本來網站們是并不排斥爬蟲過來爬取他們的內容的,因為對他們來說被正常抓爬不是壞事,反而給自己的網站多了一個搜索曝光位,何樂而不為?
我給你提供內容,你給我曝光量,這本來是個雙贏的事情,但這回頭條搜索的操作實在是太亂來了,壓根不管你的承受能力,索取無度。。
而且,遇到這種情況的開發者偏偏又很難找到渠道去和今日頭條溝通,只能在自己這邊直接禁掉今日搜索的爬蟲 IP 了。。。
搜索引擎公司爬蟲被禁,可能直接導致它的搜索結果失去了一條有用結果;而對于禁爬蟲的公司來說,他們無疑少了一個渠道的曝光。
而且忽略網站 robots 規則,也就是說,沒準兒今日搜索的爬蟲會爬到一些網站禁止訪問的內容,譬如用戶隱私信息啥的,這可就是在法律邊緣試探了。。
至于頭條搜索為什么要這么做,差評君猜測很可能是因為產品急著上線,需要快速擴充內容庫,下了個狠手。
差評君說句實話,字節跳動已經算得上一個大佬,這樣的行為對那些無力反抗的小網站來說公平嗎?
大家都遵守 robots 規則是有道理的:做信息分發等業務時,不能竭澤而漁擾亂互聯網生態,這樣大家相安無事互助互贏。
現在這么一波暴力抓取,為了節省時間成本逼得網站不得不完全屏蔽掉它,結果整得大家都費力不討好。
不管是物資還是財力都更龐大的巨頭,更應該成為江湖界守規矩的標桿,老大要是亂了風氣,江湖可就徹底糊了。
特別聲明:本文為合作媒體授權DoNews專欄轉載,文章版權歸原作者及原出處所有。文章系作者個人觀點,不代表DoNews專欄的立場,轉載請聯系原作者及原出處獲取授權。(有任何疑問都請聯系)

上一篇:

下一篇:

關于我們

蔚縣信息社是領先的新聞資訊平臺,匯集美食文化、商旅生涯、熱點新聞、教育科研、房產家居、體育健康、等多方面權威信息

版權信息

蔚縣信息社版權所有,未經允許不可復制本站鏡像,本站文章來源于網絡,如有侵權請郵件舉報!

幸运赛车