首頁 > 互聯網 > > 正文

              爬蟲的“緊箍咒“

              2021-11-22 16:36:42    來源:獵云網

              【獵云網(微信:ilieyun)北京】11月22日報道

              網絡爬蟲技術本為互聯網行業的常用技術之一,被廣泛應用到各個領域。人們對于數據的采集和分析能力,獲得了大幅的提升。但客觀現實是,技術的應用,特別是市場化、大規模的應用,往往具有明確的目的性。在很長一段時間內,惡意爬蟲未經授權肆意抓取、突破robots協議爬取、同行業間數據爬取,成為常規操作。

              作為信息時代的重要資源,隨著數字經濟的發展,數據也逐漸成為企業的一項重要資產,能夠產生無窮的商業價值。11月14日,國家互聯網信息辦公室對《網絡數據安全管理條例(征求意見稿)》公開征求意見,數據合規再套“緊箍咒“。當網絡平臺或者個人通過技術手段抓取別的平臺數據時,這種行為是否合法,平臺數據主體是誰,歸誰使用,數據如何流轉才能提升市場運作效率、對消費者福利帶來積極影響,值得深入研討。

              數據的邏輯

              爬蟲技術作為一項常見的抓取技術,在業內廣泛使用,技術的發展也形成了技術的標準和技術的規則。Robots協議的英文全稱為RobotsExclusionProtocol,指網站所有者通過一個置于網站根目錄下的文本文件,即robots.txt,告知搜索引擎的網絡機器人(或稱網絡爬蟲、網絡蜘蛛)哪些網頁不應被抓取,哪些網頁可以抓取,其本質上是受訪網站與搜索引擎之間的一種交互方式。

              Robots協議解決前置性問題,即抓取行為是否得當。一方面,robots協議要求搜索引擎的網絡機器人遵守受訪網站的robots協議,另一方面也要求受訪網站設置的robots協議本身應當是合理的,不應違背“促進信息共享”的初衷。網絡服務商或網站所有者既可以在robots協議中列明準許或禁止網絡機器人抓取的網站內容,也可以列明準許或不準許抓取其網站內容的網絡機器人。但網絡機器人識別該robots協議后,無論是否遵守,robots協議都不會起到強制禁止訪問的結果。

              2012年11月1日,在中國互聯網協會的牽頭組織下,十二家互聯網企業簽署了《互聯網搜索引擎服務自律公約》(簡稱《自律公約》),第七條第一款規定:遵循國際通行的行業慣例與商業規則,遵守機器人協議(robots協議)。第八條規定:互聯網所有者設置機器人協議應遵循公平、開放和促進信息自由流動的原則,限制搜索引擎抓取應有行業公認合理的正當理由,不利用機器人協議進行不正當競爭行為,積極營造鼓勵創新、公平公正的良性競爭環境。

              (一)公開數據的限度

              提到對公開數據的爬取,繞不開的是2016年被列為“影響中國互聯網法治進程十大案例”之一的大眾點評訴百度不正當競爭案。

              在百度涉案行為的不正當競爭性上,上海知識產權法院認為,在判斷經營者使用他人信息的相關行為是否違反商業道德、擾亂公平競爭的市場秩序的時候,主要應綜合考慮公司行為是否具有積極的效果、是否超出了必要的限度、超出必要限度的行為對市場秩序所產生的影響、是否影響競爭行為正當性的判斷等方面。百度地圖大量使用大眾點評網的點評信息,替代大眾點評網向網絡用戶提供信息,會導致大眾點評網的流量減少。百度地圖在大量使用大眾點評網點評信息的同時,又推介自己的團購等業務,攫取了大眾點評網的部分交易機會。

              同樣,作為公開分享平臺,在微博訴“飯友”APP 案中,復娛公司開發的“飯友”App在明星帳號中設置微博專題,并嵌套該明星的新浪微博界面,完整地展示了該明星微博包括界面和內容在內的全部數據,還屏蔽了新浪微博中的部分功能且添加了自有功能。這里有兩個行為,一個是爬蟲爬取數據的行為,一個是屏蔽微博部分功能替代的行為。

              北京市海淀區人民法院認為,新浪可就他人非法抓取并使用該數據的行為主張權益【(2017)京0108民初24510號】。二審北京知識產權法院維持原判,認為微夢公司作為微博運營者,對微博前后端全部數據享有權益,并通過微博這一生態鏈實現商業利益。【(2019)京73民終2799號】

              (二)未公開數據的限度

              現在的爬蟲技術已經從原來的網頁爬蟲進入到底層數據的爬取。平臺的非公開數據通常涉及數據安全、用戶隱私以及平臺經營者商業策略的實現等,系平臺經營者的核心資源。業內通行的觀點認為,這些數據不屬于可自由流動的數據范疇,未經平臺經營者許可,他人不得隨意獲取、使用。

              在微博訴“飯友”APP 案中,北京市海淀區人民法院一審認為,鑒于二者的發布時間,點贊、評論和轉發數量具體化的程度亦不同,且微博的此類信息相較于飯友App精簡等事實,法院認定復娛公司系通過繞開或破壞微夢公司技術保護措施的手段,實施了抓取和展示微博后臺數據之行為。

              在抖音訴“小葫蘆”網站案中,浙江省杭州市余杭區法院審查發現,小葫蘆網站通過“爬蟲”等技術手段,從抖音等多平臺獲取抖音平臺主播直播數據、抖音直播數據及抖音直播主播詳情,短視頻數據、電商數據、輿情分析和用戶畫像等內容。小葫蘆網站的行為具有不正當性,也存在侵犯用戶隱私可能,還破壞了抖音產品的運營邏輯和秩序。法院對小葫蘆網站作出針對非法抓取直播數據行為的全國首例禁令。

              10月中旬,一家名叫“胖球數據”的直播數據平臺,也因涉嫌用爬蟲竊取直播相關數據被一鍋端這里面有一個核心問題:數據從哪來的。

              (三)公開數據處理的限度

              公開的數據,是否必然可以無限制使用?還是在大眾點評訴百度不正當競爭案中,法院認為,在靠自身用戶無法獲取足夠點評信息的情況下,百度公司通過技術手段,從大眾點評網等網站獲取、大量使用了這些點評信息,其行為具有明顯的“搭便車”、“不勞而獲”的特點。

              2021年6月,美國最高法院駁回了下級法院禁止Linkedln阻止hiQ訪問其用戶公開信息的判決,并發回舊金山第九巡回法庭重審。此前,領英(LinkedIn)認為其競爭對手hiQ Labs從公開資料中收集個人數據的行為威脅用戶隱私,因而希望阻止這種行為。事實上,已公開的個人信息是否因已公開狀態,二次處理是否具有正當依據,很大程度得進行個案考量。

              法律的邏輯

              在數字經濟時代,數據的價值在于流通、開發和使用,但無論是《個保法》還是《數據安全法》,都沒能正面回應數據財產權的歸屬這一問題。《網絡數據安全管理條例(征求意見稿)》只能從使用的角度去強化數據處理與流轉利用規則。其中,第七條第二款明確規定,國家建立健全數據交易管理制度,明確數據交易機構設立、運行標準,規范數據流通交易行為,確保數據依法有序流通。司法裁判也在不斷探索數據權益保護。

              互聯網數據中心(DCCI)、未來智庫創始合伙人胡延平認為,“開放有開放的合作,合作有合作的玩法,分享也有分享的路徑。不是因為開放,不是因為是一個互聯網,所有人都可以為所欲為,所有企業都可以想怎么抓取就怎么抓取?!?/p>

              (一)授權的流通

              數據的搜集和整理往往需要通過投入巨大成本才獲得數據。如果沒有限制地讓網絡爬蟲任意獲取他人通過巨大投入獲取的數據資源,不但可能直接違背了用戶的意愿和知情權,也將沒有經營者再愿意投入巨額成本進行類似的創新性、基礎性的工作,從而抑制經營者創新的動力。

              在大眾點評訴百度不正當競爭案中,法院認為,通過法律維護點評信息使用市場的正當競爭秩序,有利于鼓勵經營者創新業務模式,投入成本改善消費者福祉。相反,將沒有經營者再愿意投入巨額成本進行類似的創新性、基礎性的工作,從而抑制經營者創新的動力。

              在抖音訴“刷寶”APP 案中,海淀區人民法院認為,微播公司作為抖音 App 的開發者和運營者,投入相應的人力、財力成本,通過正當合法的經營,吸引用戶發布、觀看、評論、分享短視頻,積累用戶、短視頻內容、流量,并依據與用戶的協議在正常的經營活動中使用相關短視頻內容,抖音 App 所展示的短視頻內容、用戶評論等資源均是微播公司通過正當合法的商業經營所獲得,并由此帶來經營收益、市場利益及競爭優勢,上述合法權益應受反不正當競爭法的保護。

              《網絡數據安全管理條例(征求意見稿)》第八條做出了相應的規定,其中第三項規定,禁止通過竊取或者以其他非法方式獲取數據。此外,數據處理者向第三方提供個人信息,或者共享、交易、委托處理重要數據的還必須遵循告知、明示、約定處理規則等要求。

              這一條的前提是在向用戶明確告知和用戶授權的前提下,數據處理者才能向第三方提供相關數據。反之也可以推導出,如果沒有得到用戶授權,也沒有獲得數據處理者的同意,第三方數據接收方也沒有約定數據的目的、范圍、處理方式和安全保護措施,第三方數據接收方不能獲取更不能使用相關數據。這一點和”三重授權原則“有本質上相似的基本邏輯。

              即使相關行為不“搭便車”,是否就可以全面抓取使用?根據《網絡數據安全管理條例(征求意見稿)》第十二條第二款規定,(二)與數據接收方約定處理數據的目的、范圍、處理方式,數據安全保護措施等,通過合同等形式明確雙方的數據安全責任義務,并對數據接收方的數據處理活動進行監督。由此可見,第三方數據接收方超首先必須合法獲取公開數據,其次,如果超過約定的目的、范圍、處理方式處理個人信息和重要數據,仍然構成違法。

              (二)合理的流通

              在“車來了”不正當競爭案中,自 2015 年 11 月起至 2016 年 5 月,武漢元光科技有限公司為了提高其開發的智能公交應用程序“車來了”的市場份額及信息查詢的準確度,利用網絡爬蟲技術大量獲取競爭對手深圳市谷米科技有限公司經營的同類公交應用程序“酷米客”的實時公交信息數據,無償使用于其“車來了”應用程序,并向公眾提供查詢服務。

              深圳市中級人民法院在本案中認定【(2017)粵03民初822號】,原告谷米公司出于商業模式或其他需要向公眾免費提供數據查詢,被告元光公司未經權利人許可,以網絡爬蟲技術入侵后臺盜用數據, 并將盜取數據用于經營同類業務的,具有破壞他人市場競爭優勢、謀取競爭優勢的主觀故意,屬于嚴重破壞市場秩序的行為,構成不正當競爭。

              有一個例外,搜索引擎之間相互爬取是否需要獲得授權?在北京百度網訊科技有限公司、百度在線網絡技術(北京)有限公司與北京奇虎科技有限公司不正當競爭糾紛案中,北京市高級人民法院二審【(2017)京民終487號】判決認為,應結合robots協議設置方與被限制方所處的經營領域和經營內容、被限制的網絡機器人應用場景、robots協議的設置對其他經營者、消費者以及競爭秩序的影響等多種因素進行綜合判斷。這并不意味著對于互聯網企業所設置的任何robots協議均能夠基于企業自主經營權而當然地認定其具有正當性。

              (三)有序的流通

              任何流通都必須有序進行?;ヂ摼W平臺獲取數據一般通過兩種方式:一種是通過商業合作進行數據交易或交換(如OpenAPI模式),另一種是利用爬蟲技術自動抓取數據的模式。不論是哪一種方式,爬蟲技術是否中立要看爬蟲的功能及爬蟲使用的目的,不能完全脫離其使用目的而去談它的中立性。在正當性判別上,既要考慮平臺的合法權益和相關消費者的利益,也要考慮是否損害正常的競爭秩序,還要考慮是否足以保障數據的安全性。

              有電商平臺的負責人曾表述,惡意爬蟲案例經常發生在內容平臺和電商平臺。在內容上被爬取的更多是視頻、圖片、文字、網紅互動數據、用戶行為等,在電商領域則多為商家信息和商品信息。這些商業化、市場化的技術應用背后,往往具有商業主體明確的目的性。越來越多的司法判決也在厘清一個基本規則:“有序”和“流轉”同等重要、缺一不可。

              2014年,北京淘友天下技術有限公司和北京淘友天下科技發展有限公司運營的脈脈未經用戶允許和微博平臺授權,非法抓取、使用新浪微博用戶信息,非法獲取并使用脈脈注冊用戶手機通訊錄聯系人與微博用戶的對應關系。該案也被稱為首例大數據不正當競爭糾紛案。

              2017年,北京知識產權法院終審認定,脈脈的經營公司未經用戶允許和微博平臺授權,非法抓取、使用新浪微博用戶信息,構成不正當競爭。也就是在該案中,北京知識產權法院以司法判例方式確立的“三重授權”原則。“三重”,指的是第三方開發者通過Open API獲得用戶信息時必須遵循“用戶授權+平臺方/公司授權+用戶授權”。

              (四)競爭的權益

              關于數據和競爭的相關討論,在大眾點評訴百度不正當競爭案中,法院考量漢濤公司是否具備可訴諸法律保護的合法權益上,關注了漢濤公司獲取涉案數據信息的成本,以及涉案數據信息為漢濤公司帶來的效益。法院認為,在百度公司靠自身用戶無法獲取足夠點評信息的情況下,通過技術手段,從大眾點評等網站獲取點評信息,用于充實百度地圖,百度公司的這種類似于“搭便車”、“不勞而獲”的行為違反了公認的商業道德和誠實信用原則,具有不正當性。

              在微博訴“飯友”APP 案中一審和二審法院均認為,飯友App用戶無需注冊或登錄微博帳號即可查看微博全部內容,飯友App已對微博構成實質性替代;既實際分流走了微夢公司的潛在用戶流量,也影響了微夢公司通過微博可以獲得的廣告、票務等商業收益,給微夢公司實際造成了損失。

              在微博訴今日頭條關于robots協議不正當競爭糾紛案二審中,北京市高級人民法院認為,互聯網領域中消費者福利的增加,依賴于數據在更大范圍和更深層次的共享利用,而非通過數據爬取對數據進行明顯替代性或同質化地利用。

              因為數據問題引發的案件還在繼續。近日,新浪微博因限制其訪問用于分析輿論的數據,蟻坊軟件公司聲稱向長沙市中級人民法院起訴其涉嫌壟斷。這也是國內首例因互聯網平臺拒絕數據許可引發的反壟斷民事訴訟。此前(2018 年),新浪微博認為蟻坊公司采集、使用微博數據的行為涉嫌不正當競爭,在北京海淀法院提起訴訟。今年 3 月,北京知產法院二審判決蟻坊公司敗訴。

              (五)正當的運營

              抓取不能侵害其他主體的權益。如果爬蟲7X24小時自動持續對被爬取方進行訪問,每天達幾百萬次,甚至上千萬次,這會給服務器帶來“難以承受”之重,導致受訪網站無法正常運行,則有必要對其進行限制。

              2021年9月14日,杭州互聯網法院審理一起爬取微信公眾號數據中,證據顯示,斯氏(杭州)新媒體科技有限公司(以下簡稱斯氏公司)運營的“極致了”網站使用自動化腳本不間斷爬蟲,繞過原告微信公眾平臺的反爬措施,,還通過多個代理IP操作,繞過封號、封IP等防護措施,日均訪問量達70余萬次。

              2019年公布的《數據安全管理辦法(征求意見稿)》第16條規定,網絡運營者采取自動化手段訪問收集網站數據,不得妨礙網站正常運行;此類行為嚴重影響網站運行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。

              這一管理辦法后被11月14日公布的《網絡數據安全管理條例(征求意見稿)》取代。其中第十七條對企業運營網絡爬蟲的規制做了更明確規定:數據處理者在采用自動化工具訪問、收集數據時,應當評估對網絡服務的性能、功能帶來的影響,不得干擾網絡服務的正常功能。自動化工具訪問、收集數據違反法律、行政法規或者行業自律公約、影響網絡服務正常功能,或者侵犯他人知識產權等合法權益的,數據處理者應當停止訪問、收集數據行為并采取相應補救措施。

              (六)安全的底線

              依據《網絡安全法》第四十一條取得被收集者同意即自動抓取個人信息,技術使用者即涉嫌構成侵犯公民個人信息罪、非法侵入計算機信息系統罪或非法獲取計算機信息系統數據罪等相關罪名。刑事案件中,往往沒有對數據的權屬進行定性,而是更傾向于從行為和結果進行定罪。

              2021年2月,上海徐匯區檢察院通報,某網絡公司在未經被害公司授權許可的情況下,被告人李某決策通過非法手段抓取對方直播數據并出售牟利被提起公訴。2021年6月,河南省商丘市睢陽區人民法院公布的刑事判決書【(2021)豫1403刑初78號】顯示,逯某和黎某兩男子通過自己開發的爬蟲軟件,對淘寶實施了長達八個月的數據爬取,非法獲取近12億條用戶消息。

              在“車來了”APP爬取“酷米客”APP公交車行駛實時數據案不正當競爭判決之前,南山區人民法院在刑事判決【(2017)粵0305刑初153號】中認定,邵xx等五人的行為已構成非法獲取計算機信息系統數據罪,谷米公司因被非法侵入計算機信息系統所造成的直接經濟損失為24.43萬元。

              在張xx等非法獲取計算機系統數據案【(2017)京 0108 刑初 2384 號】中 ,被告人張xx、宋x、侯xx作為被告單位上海晟品網絡科技有限公司主管人員,采用技術手段破解被害單位的防抓取措施,使用偽造device_id繞過服務器的身份校驗,使用偽造UA及IP繞過服務器的訪問頻率限制,造成被害單位損失技術服務費2萬元,北京市海淀區人民法院以該行為侵入計算機系統的技術方式獲取服務器存儲數據,構成“非法獲取計算機系統數據罪”定罪。

              (七)全鏈條的風控

              同樣還需要關注的是,數據資源一旦流通,原數據所有者就很難對其用途進行追蹤、控制。例如,在“劍橋數據門”事件中,臉書對劍橋分析公司開放了數據,而后來劍橋分析公司用這些數據所做的事情引發了立法者和監管機構的審查。這也對Facebook造成了重大影響,隨后Facebook出于多種原因而暫時封禁數萬個應用。

              也正是基于此,《網絡數據安全管理條例(征求意見稿)》對于數據合作中的數據處理活動進行監督,關注全球化時代背景下數據全鏈條的安全。第十二條第一款第二項規定:(二)與數據接收方約定處理數據的目的、范圍、處理方式,數據安全保護措施等,通過合同等形式明確雙方的數據安全責任義務,并對數據接收方的數據處理活動進行監督。第二款規定:數據接收方應當履行約定的義務,不得超出約定的目的、范圍、處理方式處理個人信息和重要數據。

              由此可見,第三方數據接收方首先必須合法獲取公開數據,其次,如果超過約定的目的、范圍、處理方式處理個人信息和重要數據,仍然構成違法。

              數據相關案件不完全列表:2016年,“車來了”APP爬取“酷米客”APP公交車行駛實時數據案2017年,脈脈非法抓取使用新浪微博用戶信息案2017年,今日頭條未經授權移植新浪微博大V賬號內容數據案2019年,刷寶APP爬取抖音APP短視頻及用戶評論數據案2020年,北京朝陽:員工通過“暗網”出售客戶信息案2021年,“極致了”網站爬取微信公眾號文章數據案2021年,魔蝎數據科技有限公司侵犯公民個人信息案2021年,上海浦東:公司非法爬取個人信息開展征信業務出售牟利案2021年,斯氏(杭州)新媒體科技有限公司爬取微信公眾號平臺數據案

              相關熱詞搜索:

              上一篇:
              下一篇:

              熱點話題

              熱點推薦

              頭條

              ? 国产国拍亚洲精品福利| 91在线亚洲综合在线| 亚洲成AV人综合在线观看| 国产午夜亚洲精品午夜鲁丝片| 国产精品亚洲专区一区| 伊人久久亚洲综合影院首页| 亚洲制服在线观看| 亚洲国产成人综合| 亚洲va在线va天堂va手机| 亚洲免费二区三区| 亚洲一级片在线观看| 77777亚洲午夜久久多喷| 亚洲精品中文字幕无乱码麻豆| 国产精品亚洲四区在线观看| 67194在线午夜亚洲| 亚洲午夜无码久久久久软件| 亚洲欧美日韩中文字幕一区二区三区| 亚洲熟妇AV乱码在线观看| 四虎亚洲精品高清在线观看| 亚洲欧美第一成人网站7777| 亚洲人av高清无码| 天堂亚洲免费视频| 国产av无码专区亚洲国产精品| 在线亚洲97se亚洲综合在线| 国产AV无码专区亚洲AV毛网站| 西西人体44rt高清亚洲| 亚洲成人黄色在线观看| 中国亚洲呦女专区| 欧美激情综合亚洲一二区| 亚洲AV伊人久久青青草原| 亚洲片国产一区一级在线观看 | 国产成人精品亚洲| 亚洲精品一级无码鲁丝片| 国产亚洲老熟女视频| 亚洲av无码国产精品夜色午夜 | 亚洲风情亚Aⅴ在线发布| 国产精品亚洲色婷婷99久久精品| 亚洲区不卡顿区在线观看| 亚洲韩国精品无码一区二区三区| 亚洲宅男永久在线| 国产婷婷综合丁香亚洲欧洲|