Latest News

首頁 » 電腦技術問題 » 最常見6大防止採集手法及解決方法

最常見6大防止採集手法及解決方法

防止採集是什麼?

簡單說,就是我們想利用工具採集某個網站的數據(前提當然是公開合法數據),但網站不想給你採集而設置的技術阻擋措施。

網站常見的防採集手法有哪些?

防止採集手法1:輸入驗證碼框驗證

採集難度:★☆☆☆☆

常見網站:搜狗微信

在採集某些網站過程中,大家是不是經常會遇到這樣的情況,要求你輸入驗證碼,否則就進行不下去?

對的,這是網站最常用且最基礎的防采措施之一,它要求你必須你手動輸入驗證碼里的數字和字母,才能繼續看到更多信息或者進行下一步,以此來判斷你是機器人還是真人。

 

防止採集手法2:滑動拼圖進行驗證

採集難度:★★☆☆☆

常見網站:拉勾、B站

驗證碼防采套路升級版,也是網站最常用來驗證當前瀏覽用戶是機器人還是人工的方式之一。

它要求你必須滑動拼圖到它指定的位置,才能通過驗證進行下一步操作。

 

防止採集手法3:登錄驗證

採集難度:★★★☆☆

常見網站:新浪微博、新榜

這類網站通常需要登錄才能看到更豐富的信息,否則只會展現非常有限的內容。

 

防止採集手法 4:數據加密

採集難度:★★★★☆

常見網站:大眾點評

有些網站通過對數據加密進行防採集。如大眾點評(上圖),我們在網頁上看到的內容是這家餐廳的「地址」,但我們打開原始碼看,這段文字被已經被加密分離,這會導致什麼結果?

這將導致即便你將它採集下來,文字也是亂碼或支離破碎的,無法整合成一段完整的文字。

 

防止採集手法 5:反饋虛假數據

採集難度:★★★★★

常見網站:攜程網

最近看到一個攜程開發寫的帖子,關於他們是如何給爬蟲反饋「假數據」的。看完覺得攜程太「可怕了」!

當你發現辛辛苦苦採集下來的數據居然是假的,請問你心累不心累?!所謂道高一尺,魔高一丈,遇到這種給你「投毒」的網站就請繞道吧,除非你想到更好的破解方法!

 

防止採集手法 6:禁止訪問

採集難度:★★★★★

常見網站:個別網站

目前還沒怎麼遇到過這種情況。當然,我們沒事也不會故意「以身試法」,去試探網站的防采底線。

這種情況,主要還是看網站的防止採集機制設計,如果觸發了,通常的結果就是全面封鎖和禁止。比如封你的帳號、封你的IP位址。一旦被封鎖,網站會自動給你錯誤頁面或無法讓你正常瀏覽。

 如何有效防止自己網站的內容被別人採集呢?

防止採集第一種方法:在文章的頭尾加上隨機不固定的內容。網站採集者在采內集時,通常都是指容定一個開始位置和一個結束位置,截取中間的內容。

比如你的文章內容是”網路密訓基地“,則隨機內容的加入方法:

<div id=”xxx”>隨機內容1+網路密訓基地+隨機內容2</div>
注:隨機內容1和隨機內容2每篇文章只要隨機顯示一個就可以了.

 

防止採集第二種方法:在文章正文頁面插入重復特徵頭尾代碼的注釋。
文章列表加隨機不同的鏈接標簽,比如<a href=”” class=”xxx”><a class=”xxx” href=”>,當然,這個可以用正則去掉,但足於對付通用的CMS採集系統了.
<!–<div id=”xxx_文章ID”>–>
其它標題或內容…
<!–<div id=”xxx_文章ID”>–> <div id=”xxx_文章ID”>
隨機內容1歡迎網路密訓基地隨機內容2
<–</div>–></div><–</div>–>
即:正文頭尾或列表頭尾添加<!–重復特徵代碼–>

防採集第三種方法:
加在文章列表的隨便連結樣式。
目的是讓採集的人無法抓到列表連結規律,無法批量進行採集.

防採集第四種方法:
在內容中關鍵字詞加入超連結(讓採集者採集到的其他內容網址,都有你的網站連結網址)

防採集第五種方法:
將文字(數據)以圖片方式處理(圖片再加入浮水印)

 

關於

發佈留言

順.不妄喜 逆.不惶餒 胸有驚雷而面如平湖 凜冽寒冬中悄悄拔劍 然後.驚艷所有的人!
【行走江湖】的四個階段:尋劍、揮劍、佩劍、供劍(江湖無招.手中無劍.心中有劍)談笑用兵,君子不器
E-Mail:ster168ster@gmail.com