藉助掘別人家的資料數據來賺錢,「網路爬蟲」此類行為合法嗎?
「爬」這個動詞已經逐漸成為了人們的日常用語,說起「爬內容」、「爬數據」,大家或多或少都能明白這個動作的意義。
一個平台運用「爬蟲工具」瀏覽另一個平台的網頁內容,並且從中抓取它所查找的信息,滿足這些特徵的行為被定義為「網路爬蟲」。
雖然這已經是很多人在賴以維生的技術了,但是你實際上「爬」的是別人的內容,你是不是有過這個問題:網路爬蟲這個行為,合法嗎?
最近幾年,「網路爬蟲」引發的法律層面的爭議越來越多。
必須先回答這樣一個問題:被爬取的數據到底屬於誰。只有討論清楚「歸屬權」,才能在此基礎上討論「授權問題」。
數據歸屬權的確認困難重重。
企業的平台數據中常常包含大量的個人數據,因此平台數據可以被認為是個人所有、平台所有、個人與平台共有,也可以被認為是 Internet 空間的公共數據。
在法律界,各國對數據權屬領域都沒有直接、明確的立法,學界也沒有達成廣泛的共識。但在實務層面,當事人常常會選擇直接繞開這一爭議,從實際情境出發,在已有法律明確規定和保護的範疇內解決問題。——這是一種尋求司法救濟的有效方式。
在美國,法院規制數據爬蟲的法律途徑主要有四種:
- 非法入侵私人財產(trespass to chattels);
- 合約違約(breach of contract);
- 違反著作權(copyright violations);
- 違反《電腦欺詐和濫用法》(CFAA violations)。
其中,CFAA 在實務中被廣泛援用是近年來的一大趨勢。
這一法案對「故意未經授權或超越授權存取電腦訊息系統並因此從任何受保護的電腦獲取訊息」的行為創設了民事和刑事責任。
美國最高法院則進一步解釋,CFAA 規定了兩類非法存取受保護的電腦訊息系統進而構成犯罪的行為:
- 未經授權存取;
- 雖獲得授權存取但不當使用。
內容目錄
01、影響合法性的因素之一:數據屬性
問題1:是「公開數據」嗎?
數據是否公開、可存取是影響爬取行為正當性的重要因素。
怎麼定義數據的公開與否?
一般來說,數據控制者採取了技術保護手段的數據屬於不公開數據。舉個例子,在 Facebook v. Power Ventures 案中,以帳號密碼方式保護的使用者數據被明確認定為不屬於公開數據。
對於非公開數據,美國的司法主張:相應的數據爬取行為需要得到數據控制者的授權。
有趣的是,對於那些使用者主動選擇公開,但數據控制者未授權爬取的數據,美國法院的態度經歷了一個「由嚴格至寬鬆」的轉變。2000年,美國 Bidder’s Edge 公司對 Ebay 網站進行了數據爬蟲,Ebay 因此向加州北區法院提起訴訟,理由包括:該爬蟲行為違反了 robot 協議,具有非法侵入(trespass)、電腦欺詐和濫用、不公平競爭等違法行為。
法院基於以下幾點,認同了非法入侵的控告
- Ebay 公司的伺服器是私人財產;
- 其給予的公眾存取權限是授予的,Ebay 一般不允許爬蟲機器人進行存取;
- Ebay 已經明確告知 Bidder’s Edge 公司不許對其網路進行爬蟲,認同了非法入侵這一控告,認為被告未經授權干擾原告在電腦系統中的佔有權益,直接導致原告受到損害。
在這一案件中,法院迴避了數據權屬的問題。法院主要以伺服器私有這一理由認定了 Bidder’s Edge 公司的行為屬於非法入侵動產,這等於間接承認了爬取公開數據需要平台的授權。
但在2017年的 hiQ Labs Inc v. LinkedIn Corporation(以下簡稱領英案)案中,情況發生了重大改變。
讓我們先來看一下這一案件的基本案情。
hiQ Labs(以下簡稱「 hiQ 」)是一家為僱主提供僱員評估服務的數據分析公司。它使用自動化機器人,從擁有超過5億使用者的職業社群網站 LinkedIn 上抓取使用者公開的個人資料,包括姓名,職務,工作經歷和技能等,然後透過演算法處理這些數據,將分析結果出售給客戶。這種行為持續了五年。
- 2017年5月
LinkedIn 向 hiQ 發警告函,要求其停止未經授權的存取和數據爬取行為,並針對 hiQ 設置了相應的技術手段,防止 hiQ 繼續爬取數據。LinkedIn 在警告函裡表明,如果 hiQ 不停止抓取行為,將違反一系列聯邦法和州法,尤其是 CFAA。
- 2017年6月
hiQ 向美國加州北部地區法院提出訴訟,主張 LinkedIn 的行為違反了加州憲法中有關言論自由的規定,違背了「允諾禁反言(promissory estoppel)」原則,違反加州的《反不正當競爭法》,構成《加州商業及專業法》第17200條項下的不公平商業行為等。
隨後,hiQ 對 LinkedIn 的行為發起了初步禁令的動議。
- 2017年8月
美國加州北區地方法院支持了 hiQ 的禁令動議,裁定:LinkedIn 不得阻止 hiQ 進入、複製並使用其網站的公開訊息;在臨時禁令期間,LinkedIn 須撤回並禁止再向 hiQ 發送禁止其使用數據的法律聲明。
LinkedIn 不服,提起了上訴,但上訴法院依然支持了禁令。
領英案的判決具有里程碑意義。
針對 LinkedIn 主張的,hiQ 繼續爬取其數據違反 CFAA 的規定,屬於未經授權侵入了受保護的電腦系統。美國加州北區地方法院的法官認為,關鍵問題是:在LinkedIn 發警告函明確禁止 hiQ 存取數據後,hiQ 繼續抓取 LinkedIn 的公共數據是否構成 CFAA 規定的「未經授權存取電腦」。
首先,法官駁斥了 LinkedIn 提出的用以支持己方觀點的兩個案例:Power Ventures 案和 Nosal II 案。法官認為,這兩個案例並不同於本案,其數據不是公開的,而是受密碼驗證系統保護的,所以不能未經對方企業授權就爬取。
其次,法官在判決中寫到:「CFAA 必須在其歷史背景下進行解釋,並牢記國會的宗旨。」意思是,CFAA 的出台早於 Internet 的出現,它無法直接應對現代科技在一定層面的問題。
判決援引美國第九巡迴上訴法庭在 United States v. Nosal(Nosal I)案中的相關闡述:
「國會在1984年頒布 CFAA 的主要目的是解決日益嚴重的駭客攻擊問題」,主張不要對 CFAA 進行過度的擴張解釋,導致「其適用範圍擴大到電腦駭客行為之外,而將任何未經授權使用電腦訊息系統數據的行為認定為犯罪」。
換言之,如果網站隨時可以用任何理由撤銷對任何人的授權,並援引 CFAA 強制執行,那將會使廣泛的 Internet 使用者承擔刑事和民事責任。
接著,該判決了援引美國聯邦最高法院對 Packingham v. North Carolina案的判決:
在當前社會中,社群媒體網站已經成為大多數人「獲取實時資訊,尋求就業崗位,在網路空間中表達和聆聽意見,以及在其他方面探索人類思想和知識疆域」的主要來源。
法院從整體上將 Internet 和社群媒體網站與「現代公共廣場」的概念進行類比,法院認為,兩者的規範共識中都包含了「對所有來訪者的開放性和可存取性」。
另外,這一案件從言論自由角度出發的辯護意見也具有代表性。
hiQ 公司聘請了哈佛大學法學院的勞倫斯‧卻伯教授作為顧問。這位教授提出,數據與訊息的存取權屬於一種言論自由的權利;數據的本質是一種言論,而言論的本質是流通與共享,具有公共屬性,因此對公開數據進行網路爬蟲不需要網路平台或個人的授權。
當然,這一案件的判決還考慮到了其他因素,並不僅僅限於數據問題。比如,hiQ 完全依賴二次利用 LinkedIn 的公開數據以經營業務,這未給領英造成損害,但一旦停止會給 hiQ 造成毀滅性打擊。
本案的判決說理主要是圍繞臨時禁制令展開,主要考慮四點因素:勝訴的可能性、是否具有難以彌補的損害、對雙方利益的權衡和公共利益。從難以彌補的損害和對雙方利益的權衡角度來看,法院傾向於支持 hiQ 是情理之中的。
再者,一個不容忽視的事實是:五年來,LinkedIn 對 hiQ 的網路爬蟲行為一直是允許的,在阻止這一數據爬取行為時 LinkedIn 卻正好宣佈要提供與 hiQ 類似的服務,這使得LinkedIn 拒絕 hiQ 抓取數據,涉嫌濫用市場支配地位,排除競爭對手。
如今,美國對使用者隱私的研究已經發展到「情境隱私」理論( contextual privacy) 。
海倫‧尼森鮑姆教授提出的數據的情境性公正理論(Theory of Contextual Integrity )主張,保護隱私與個人訊息的關鍵並不在於隔絕訊息,而在於確保訊息流通的「語境性公正(contextual integrity)」。
即在特定的語境中,訊息流動應符合人們預期(不過,領英案的法官判決提醒我們,使用者將自己的資料公開並不意味著其允許第三方以任何目的收集和使用其數據);特定的訊息流動與特定的情境化的訊息模式相匹配,在特定語境中分享的訊息,不應在有違這種語境的環境中分享。
因此,隱私與個人訊息保護法一定要尊重語境(respect for context),應當根據語境制定數據使用方式的規則。
簡言之,線上環境下使用者的隱私預期是依據情境的,就像醫生將病人的個人訊息告訴一些商業機構時病人會驚訝,但如果告訴的對象是保險公司或藥劑師則不會有微詞。
由此轉變可見,美國越來越從宏觀的公共利益角度審視使用者數據的流通和共享行為,態度逐步開放。
問題2:原始數據還是衍生數據?
數據屬於原始數據還是衍生數據,也是影響數據爬蟲行為合法性的重要因素。
熊錢富提出區分原始數據與衍生數據,並根據不同的數據法律關係配置相應的數據權利制度。
原始數據的所有權歸屬於使用者個人,由使用者本人享有佔有、使用、收益、處分的權利;而衍生數據的所有權因是基於數據價值的「第二次」創造,則歸屬於衍生數據的「創造者」,並由該衍生數據的「創造者」享有佔有、使用、收益、處分等權利。
照此邏輯推論,平台上由使用者直接創造或由使用者行為留下的數據屬於使用者,由企業加工、創造而得的數據屬於企業。
在美國,單純地爬取其他企業平台上公開的原始數據並不違法。
領英案的判決,基本承認了第三方企業可以在獲得使用者授權的情況下爬取企業平台上公開的、原始的個人數據。
Facebook v.Power Ventures案同樣表明了這一點。
該案的基本情況是:Power Ventures 專注於社群聚合服務,使用者可在該軟體上同時登陸 Facebook 、LinkedIn 等社群軟體,並提供 Facebook 的登陸密碼供 Power Ventures 抓取其 Facebook 帳號內的使用者數據。隨後,Facebook 知曉並向 Power Ventures 發送了禁止函,Power Ventures 則更換 IP 地址繼續進行存取。
該案是典型的使用他人內網帳號抓取數據的情況,但是,只要使用他人的內網帳號爬取數據就構成違規使用嗎?
2016年第九巡迴法院的判決並沒有支持原告的這一理由,而是認為被告在原告明確撤回授權後繼續爬取原告網頁的行為才違反了 CFAA。
簡言之,未經對方企業授權而爬取使用者數據這一事實並不充分地構成違規。據此,至少可以得出結論,從數據的屬性而言,爬取企業平台上的原始數據在美國並不違法。
02、影響合法性的因素之二:授權模式
一般性禁止
數據被抓取方對第三方網路平台改採取的一般性禁止措施主要包括:Robots 協議和 ToS 禁止。前者沒有法律強制力;後者則具有,即違反 ToS 禁止爬取對方企業的數據,有可能構成違約行為,需承擔一定的法律責任。
Robots 協議(或稱機器人協議或拒絕機器人協議)指由網站所有者產生一個指定的文件robot.txt,用以指明網站中哪些目錄下的網頁是不允許爬蟲抓取的,並將這個文件放在網站伺服器的根目錄下。友好的爬蟲者在抓取一個網站的網頁前,往往會先讀取 robot.txt 文件,對於禁止抓取的網頁和數據不進行下載。
一般情況下,被爬取數據的網站都會所說 Robots 協議,而非直接採取技術手段禁止來自某IP地址的存取。不過 Robots 協議只是一個君子協定,並沒有法律上的強制約束力。
具有法律強制力 ToS 禁止,即 Terms Of Service,服務條款協議。它類似於許可軟體的最終使用者許可協議(EULA)。二者的不同之處在於,適用前者的使用者不是使用開箱即用的軟體產品,而是使用服務。
從文字處理器和圖形設計程式到高級行業軟體或統計軟體服務,使用者可以在各種軟體上遇到服務條款。以 ToS 禁止的方式作出禁止數據爬取警示的網路平台不在少數。
例如,線上大型免費分類廣告網站 Craigslist,就在其 ToS,即《Craigslist使用條款》中寫道:「您同意不透過機器人、蜘蛛、腳本、數據提取、爬蟲或任何自動或手動等工具複製或收集本網站內容」。
若平台採用 ToS 禁止,拒絕第三方網路平台對其數據進行爬取,那麼後者即無權對其數據進行爬取下載,否則就可能構成違約行為,需要承擔一定的法律責任。
制止函及IP壁壘
被抓取數據的網站一旦發現有 IP 違反一般性禁止進行存取,便會發送制止函,同時設置 IP 壁壘禁止相關IP存取。這一行為在美國被認定為撤銷對方繼續存取己方網站的授權。若爬取方繼續數據爬取行為,則會違法。不過,若爬取的是具有公共屬性的數據,被爬取平台的撤銷授權措施則毫無意義。
本案中,原告 Craigslist 在發現被告3Taps對其網站的存取存在異常情況後,便向其發送了制止函,禁止其相關IP存取。但在收到制止函後,被告3Taps 仍使用不同的IP地址和代理伺服器來隱藏其身份繞過 Craigslist 設置的IP壁壘,繼續爬取數據。
對此,法院在判決中認為,原告 Craigslist 發送制止函並禁止相關 IP 存取的行為實質上已經構成了對被告3Taps存取其網站的授權的撤銷,被告無視制止函繼續抓取數據的行為違反法律。
此外,發生在 Craigslist v. 3Taps 案之後的 hiQ Labs v. LinkedIn 案提醒我們還需注意被抓取數據的性質。若被抓取的數據具有公共開放性,屬於網路空間的公共產品,那就無需數據控制者的授權,其撤銷授權自然也不會對爬去行為的合法性產生影響。
在 Craigslist v. 3Taps案件中,法院關注的重點在於數據的抓取是否違反了數據被抓取方的警示措施,判決認為 Craigslist 發送的制止函以及設置的 IP 壁壘可被視為撤銷了對被告繼續存取該網站的授權;而在領英案中,法院則考慮到了被抓取數據的性質。
雖然LinkedIn 同樣向 hiQ 發送了制止函並且採取了相應的禁止 IP 存取的技術措施,但由於 hiQ 所抓取的數據具有公共開放性,導致 LinkedIn 撤銷 hiQ 接入自己公共部分的授權,並不會使 hiQ 的行為變成 CFAA 意義上的「未經授權」。
並且,正是因為擔心如果繞開LinkedIn 的技術措施會導致其承擔法律責任,hiQ 才向法院申請禁令,這強調了在明確數據屬性後,對方企業授權的重要性。
特殊性授權
簽訂《開發者協議》,利用 Open API (開放應用程式介面)授權是允許第三方網路平台對其數據進行抓取下載的最常用方式。
API(Application Programming Interface),又稱為應用程式介面,是軟體系統不同組成部分銜接的約定。例如,在瀏覽器中輸入www. Facebook .com,一則請求會出現在 Facebook 的遠端伺服器上。一旦瀏覽器收到了響應,它就會解析程式碼,呈現出網頁。
對於瀏覽器來說(即所謂的客戶端), Facebook 的伺服器就是一個應用程式編程介面。這也意味著,每當使用者在 Internet 上存取一個頁面的時候,事實上都在與某個遠端伺服器的 API 發生互動。
在數位經濟時代,很多企業都會將 API 包裝成產品出售或透過 Open API 等類似方式開展合作。
Weather Underground 將其天氣數據 API 的存取權限出售給其他第三方網路平台以賺取經濟效益;Facebook v. Power 案中,雙方最初的合作方式也是如此。
近年來,專業人士對 API 的討論也越來越多,free Code Camp 亦有不不少文章對其加以點評論述。Petr Gazarov 在情境示例之下闡釋的 API 似乎更易理解:你是一家小企業,公司網站上有一個表格是用來給客戶註冊預約的。你想要憑藉這些預約細節訊息,讓客戶能夠自動在 Google 日程上創建活動。
這就意味著,你的網站伺服器需要透過 API 直接與 Google 伺服器進行對話,在掌握既定細節訊息的情況下,申請創建活動。之後,你的伺服器會接收到 Google 的響應並進行處理,然後將相關訊息發送回瀏覽器,例如向使用者發送一個確認訊息。
一般而言,若雙方透過 Open API 進行合作,合作結束即相當於撤銷授權,被撤銷授權方應當按照協議清理非授權使用者的訊息數據。
特殊的默示授權
除了上述授權方式外,還可能存在著特殊的默示授權。
例如,LinkedIn 在長達五年,且沒有任何協議的情況下,一直允許 hiQ 的數據抓取行為,是否屬於默示授權?美國法院對該案的判決傾向於將其認定為默示授權。
在領英案中,hiQ 公司對 LinkedIn 的網站實施了網路爬蟲,但加州北區地區法院的法官認為,這種爬蟲行為並不違反法律,因為領英網站上的數據是公開數據,對於公開數據,即使爬蟲方違反了對方設置的robot協議,也應當被法律允許。這就像在白天推開一家未鎖門的商店進去看看,並不能將其認定為非法侵入。
因此,法院最後不僅沒有認定 hiQ 公司的爬蟲行為違法,甚至反過來認定 LinkedIn 的反爬蟲技術違法,要求 LinkedIn 移除針對 hiQ 的接入壁壘。
這意味著,該法官認為第三方網路平台對公開數據的抓取下載可以被視為經過了默示授權,進而不屬於 CAFF 規定的兩類非法存取受保護電腦訊息系統的行為。不過,此判例能否在後續實踐中被廣泛認同尚有待觀察。
03、結論
數據爬蟲行為引起了理論界、實務界的高度關注。其中原因在於:一方面,大數據時代中數據對個人和企業乃至整個社會都有著重要意義;另一方面,實務的立法都在不同程度上與實踐脫節,探索空間廣闊。
截至目前,學界對爬蟲行為的規制尚未提出令人信服的方案,上述所提及的美國CFAA 法案,對當下法律問題的針對性還差強人意。
透過分析已有案例可知,數據屬性和授權模式都會明顯地影響數據爬蟲的合法性。美國基於對公共利益的考慮,認為爬取公開的原始數據無需獲得授權即可進行,而對其他類型的數據會有不同程度的保護。
另外,還有其他因素,如企業對其數據的投入,也可能進入法院衡量數據爬取行為合法性的考慮範疇。至於授權模式,廣泛使用的 Robots 協議並不具有法律強制力,Tos 禁止才具有。
當數據爬取方違反了這些一般性禁止時,對方企業往往會發送制止函,設置 IP 壁壘,如果被爬取的數據屬於需要企業授權的類型,爬取方在接受到此類表示後必須停止爬取行為,否則將承擔法律責任。
再者,如果透過 Open API 等類似方式開展合作,合作終止時便是撤回授權時。最後,在美國,被爬取企業知曉而不阻止爬取的行為可能成立默示許可,給予爬取行為正當性。
整體而言,美國對個人數據訊息的保護經歷了一個相對漫長的發展過程,其態度逐漸向公共利益傾斜。未來,我們還需綜合考量數據屬性、授權模式、爬取方式、被爬取數據的利用方式等眾多因素,建構一個平衡各方利益的法律制度。
-
本文授權轉載自:36kr(36氪)