網(wǎng)絡(luò)爬蟲,它是一種“自動化瀏覽網(wǎng)絡(luò)”的程序,按照一定規(guī)則,自動抓取互聯(lián)網(wǎng)信息,比如網(wǎng)頁、各類文檔、圖片、音頻、視頻等,也被稱為網(wǎng)頁蜘蛛或網(wǎng)絡(luò)機(jī)器人。一般來說,爬蟲是用來批量獲得網(wǎng)頁上的公開信息的,也就是前端顯示的數(shù)據(jù)信息。
根據(jù)《數(shù)據(jù)安全管理辦法(征求意見稿)》第十六條:網(wǎng)絡(luò)運(yùn)營者采取自動化手段訪問收集網(wǎng)站數(shù)據(jù),不得妨礙網(wǎng)站正常運(yùn)行;此類行為嚴(yán)重影響網(wǎng)站運(yùn)行,如自動化訪問收集流量超過網(wǎng)站日均流量三分之一,網(wǎng)站要求停止自動化訪問收集時,應(yīng)當(dāng)停止。
在使用爬蟲過程中,云立方網(wǎng)提出以下建議:
1. 遵守 Robots 協(xié)議,但有沒有 Robots 都不代表可以隨便爬;
2. 限制你的爬蟲行為,禁止近乎 DDOS 的請求頻率,一旦造成服務(wù)器癱瘓,約等于網(wǎng)絡(luò)攻擊;
3. 對于明顯反爬,或者正常情況不能到達(dá)的頁面不能強(qiáng)行突破,否則是 Hacker 行為;
4. 最后,審視清楚自己爬的內(nèi)容,遵守國家相關(guān)法律法規(guī),以下是絕不能碰的紅線(包括但不限于):
? 爬取用戶個人數(shù)據(jù)非法牟利,包括模擬登錄他人賬號。
? 爬取商業(yè)數(shù)據(jù)造成不正當(dāng)競爭。
? 爬取大量帶有知識產(chǎn)權(quán)的數(shù)據(jù)用于商業(yè)目的, 獲取盈利行為。
5、不得違反相應(yīng)法律法規(guī)。
我公司如發(fā)現(xiàn)上述行為者,直接將用戶信息及行為提交給本地主管部門。
云立方
2019年10月23日
云立方網(wǎng)產(chǎn)品導(dǎo)航: 動態(tài)撥號vps 服務(wù)器租用 撥號服務(wù)器 |