
對于目前高速發(fā)展的互聯(lián)網(wǎng)信息時代,大數(shù)據(jù)用戶信息等等已經(jīng)成為了企業(yè)競爭的核心資源,這種資源的競爭在一方面也是對市場的競爭,畢竟占據(jù)了用戶基數(shù)就等于贏得了市場先機。
還記得去年的一則新聞嗎?兩女子在逛街交流著附近哪里有洗手間,突然手機某款A(yù)PP提示消息已經(jīng)查找到附近地點,這個提示讓該女子認(rèn)為這款A(yù)PP非法錄音,并告上了法院。
這種在對方?jīng)]有授權(quán)的情況下盜取信息就是違法行為,那么有著異曲同工之處的“爬蟲”技術(shù)。到底算不算違法呢?
首先“爬蟲”技術(shù)是無罪的,關(guān)鍵是在于如何去利用,有人利用python獲取權(quán)限內(nèi)的數(shù)據(jù)加以分析提升能力。也有人將代碼上傳網(wǎng)絡(luò)接口抓取數(shù)據(jù)唯利是圖。這就是二者的區(qū)別。
今天就給大家科普一下“網(wǎng)絡(luò)爬蟲”的規(guī)范操作。
一.你可以在對大眾信息公開的網(wǎng)站上面爬取信息,而且是不具備傳播的特性。比如你想爬取某個車站哪個時間段的所有車輛發(fā)車時間,這個是ok的。
二.爬取非商業(yè)網(wǎng)站
如果爬取對象是對外提供公開查詢服務(wù)的網(wǎng)站的公開信息,如公檢法機關(guān)的官網(wǎng)、政府部門的官網(wǎng)、事業(yè)單位的官網(wǎng)等,不構(gòu)成侵權(quán)或犯罪,可以抓取。
三.爬取商業(yè)網(wǎng)站
沒有設(shè)置反爬聲明或采取反爬技術(shù)措施的各類商業(yè)網(wǎng)站,一般不限制爬取數(shù)據(jù),但也并不意味著可以隨意抓取。
以上就是關(guān)于爬蟲可以進行活動的一個范圍區(qū)間,但是關(guān)于這項技術(shù)其實還有很多法律約束,那么它的哪些動作是違法的呢。
1.首先是爬取有反爬聲明的網(wǎng)站數(shù)據(jù)
當(dāng)某網(wǎng)站聲明了robots協(xié)議——即網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)時,數(shù)據(jù)爬取方應(yīng)當(dāng)對robots.txt中所記載的禁止爬取范圍進行規(guī)避,若不遵守該協(xié)議,則可能面臨法律風(fēng)險。
2.爬取網(wǎng)站非公開信息數(shù)據(jù)
如果爬取的是某公司“內(nèi)網(wǎng)”或后臺內(nèi)部數(shù)據(jù),采集的是非公開的信息,則系違法行為。
3.爬取網(wǎng)站受法律保護的信息或數(shù)據(jù)
如對方網(wǎng)站合法收集的個人敏感信息、對方公司受法律保護的特定數(shù)據(jù)或信息等。
爬蟲違規(guī)爬取數(shù)據(jù)容易造成侵犯商業(yè)秘密。另外要注意的是,如果爬蟲在爬取數(shù)據(jù)的過程中對相關(guān)網(wǎng)站造成干擾,可能會構(gòu)成不正當(dāng)競爭。
云立方網(wǎng)提出以下建議:
1. 遵守 Robots 協(xié)議,但有沒有 Robots 都不代表可以隨便爬;
2. 限制你的爬蟲行為,禁止近乎 DDOS 的請求頻率,一旦造成服務(wù)器癱瘓,約等于網(wǎng)絡(luò)攻擊;
3. 對于明顯反爬,或者正常情況不能到達的頁面不能強行突破,否則是 Hacker 行為;
4. 最后,審視清楚自己爬的內(nèi)容,遵守國家相關(guān)法律法規(guī),以下是絕不能碰的紅線(包括但不限于):
4.爬取用戶個人數(shù)據(jù)非法牟利,包括模擬登錄他人賬號。如有其它問題可以登錄“云立方網(wǎng)”查看相關(guān)信息。以及最新代理IP的事宜。
云立方網(wǎng)產(chǎn)品導(dǎo)航: 動態(tài)撥號vps 服務(wù)器租用 撥號服務(wù)器 |