爬虫对科技 AI爬虫大战让互联网变得更封闭

用户投稿 1 0

AI爬虫大战让互联网变得更封闭

爬虫对科技 AI爬虫大战让互联网变得更封闭

(来源:MIT Technology Review)

日常生活中,我们对互联网的使用早已习以为常,它就像一片近在咫尺的信息海洋。然而,这一系统的正常运行依赖于大量的“爬虫”,这些机器人在网络中穿梭,每天访问数百万个网站,并反馈它们的“所见所闻”。

谷歌就是通过这种方式为其搜索引擎提供数据支持,亚马逊借此设定具有竞争力的价格,而 Kayak 则依靠它汇总旅游信息。

除了商业领域,爬虫对于监控网络安全、启用辅助工具和保存历史档案也至关重要,学者、记者和民间团体在开展重要调研时同样离不开它们。

爬虫对科技 AI爬虫大战让互联网变得更封闭

如今,爬虫已经无处不在。这种看不见的“网络地铁”日夜不停地在各个网络站点之间传递信息。目前它们产生的流量已占据互联网总流量的一半,很快还会超过人类产生的流量。

而现在,爬虫又有了一个新的用途:像 OpenAI 这样的公司使用网络爬取的数据来训练其人工智能系统,比如 ChatGPT。

可以理解的是,网站现在开始进行反击,担心这些“入侵物种”(AI 爬虫)会取代它们。但问题在于,这种抵制行为也在威胁着互联网的透明性和开放性,而这些特性正是非 AI 应用蓬勃发展的基础。

如果不慎重思考解决办法,未来的网络将充斥着登录限制、访问收费等一系列障碍,这不仅会阻碍 AI 的发展,还会限制真实用户的体验以及各类有益爬虫的 “生态多样性”。

爬虫对科技 AI爬虫大战让互联网变得更封闭

动荡中的网络系统

要理解这个问题,就需要先了解网络的运行机制。长期以来,爬虫和网站都以一种“相对共生”的模式协同运作。

在大多数情况下,爬虫的运行不会受到干扰,甚至还对网站有益,它们把人们从谷歌、必应等搜索引擎引导至各个网站作为交换获取数据;反过来,网站对爬虫的限制很少,有的甚至还会帮助它们导航网站。

一直以来,网站都会使用一种机器可读文件(称为 robots.txt 文件)来指定哪些内容希望爬虫不要访问。但是,过去很少有人严格执行这些规则,也不会特意识别无视规则的爬虫。当时风险似乎较低,所以网站也不会投入资源精力去阻止这些爬虫。

然而现在,AI 的广泛应用扰乱了整个爬虫生态系统。

就像入侵物种一样,AI 爬虫对各种数据有着贪婪且不加筛选的“胃口”,吞噬维基百科文章、学术论文、Reddit 帖子、评论网站和博客上的内容,几乎所有形式的数据都在它们的“菜单”上,包括文本、表格、图像、音频和视频等等。

由此训练出的 AI 模型(当然并非总是如此),可能会以与数据源直接竞争的方式被使用。比如,新闻网站担心 AI 聊天机器人会抢走读者;艺术家和设计师担心 AI 图像生成器会抢走客户;编程论坛则担心 AI 代码生成器会取代贡献者。

为此,网站开始将爬虫“拒之门外”。而这背后的动机很明确:AI 及其依赖的爬虫可能会利用网站自身的数据,进而损害网络内容发布者的经济利益。这种担忧引发了一系列暗潮涌动的“爬虫大战”。

爬虫对科技 AI爬虫大战让互联网变得更封闭

网站的反击手段

网络发布者对 AI 的反击采取了三管齐下的策略:诉讼、立法和技术手段。

从《纽约时报》提起的一系列版权侵权诉讼开始,现在已经演变为对网站数据使用的限制浪潮,以及像欧盟《人工智能法案》这样旨在保护版权所有者拒绝 AI 使用其数据进行训练的立法。

然而,法律和立法的裁决可能需要数年时间,而 AI 发展带来的影响却是立竿见影的。因此,数据创作者开始把目光聚焦在源头,即限制网络爬虫。

自 2023 年年中以来,超过 25% 的高质量数据所在网站都设置了爬虫访问限制。然而,许多限制很容易被绕过。

尽管像 OpenAI 和 Anthropic 这样的 AI 开发公司声称会遵守网站的限制,但它们也被指控无视规则,甚至强行突破网站限制。例如,技术支持论坛 iFixit 就曾提出此类指控。

现在,网站开始采用最后一招,即反爬虫技术。

许多新兴初创公司(比如 TollBit、ScalePost 等)以及像 Cloudflare(据估计,Cloudflare 承载了全球 20% 的网络流量)这样的网络基础设施公司已经开始提供用于检测、阻止非人类流量,以及对其收费的工具。

这些工具设置了重重障碍,使得网站更难被爬虫访问,有些还要求爬虫进行注册。

这些措施确实能提供即时保护。毕竟,不管法院对版权和合理使用如何裁决,AI 公司都无法使用它们无法获取的数据。

但问题在于,大型网站、论坛和站点往往会对所有爬虫进行“一刀切”,即使有些爬虫并不会构成威胁。

而且,一旦它们与那些希望独占数据的 AI 公司达成利润丰厚的交易,这种情况就更为明显。最终,互联网被分割成一个个对爬虫“不太友好的数据孤岛”。

爬虫对科技 AI爬虫大战让互联网变得更封闭

共同面对损失

随着这场“猫鼠游戏”的不断升级,大玩家往往比小玩家更具持久力。大型网站和出版商有能力在法庭上捍卫自己的内容,或者通过协商签订合同;大型科技公司也有足够的实力获取大型数据集的使用许可,或者开发强大的爬虫来突破限制。

但对于小型创作者,比如视觉艺术家、YouTube 教育博主或普通博主而言,他们可能只有两个选择:要么把内容放置到付费专区中,要么直接停止在网络上发布内容

这对于普通用户而言,想要访问新闻文章、查看创作者发布的作品或者浏览网页,就变得更加困难,因为需要不断点击登录、满足订阅要求和输入验证码。

更令人担忧的是,AI 公司与网站签订的大型独家合同正在重塑网络格局。每一笔这样的交易,都让网站变得更保持数据的独占性,阻止其他任何人访问数据,无论对方是否是竞争对手。这很可能会导致权力进一步集中在少数 AI 开发者和数据发布者手中。

如果未来只有大公司能够获取关键网络数据的使用许可或进行爬取,竞争将会受到抑制,普通用户和众多版权所有者的利益也将无法得到保障。

简而言之,照此发展下去,网络的 “生态多样性” 将会降低。来自学术研究人员、记者和非 AI 应用的爬虫可能会越来越难以获得开放访问权限。

除非构建一个针对不同数据用途制定不同规则的生态系统,否则网络可能会出现严格的边界,开放性和透明度将成为牺牲品。

虽然要避免这种情况并不容易,但互联网开放的捍卫者可以推动法律、政策和技术基础设施的完善,明确保护网络数据的非竞争性使用,使其免受排他性合同的影响,同时也要保障数据创作者和发布者的权益。

当然,这两者并非相互矛盾。在这场围绕网络数据访问权的斗争中,我们得失攸关。当网站寻求应对之策时,绝不能为了商业 AI 的发展而牺牲开放互联网的未来。

原文链接:

https://www.technologyreview.com/2025/02/11/1111518/ai-crawler-wars-closed-web/

爬虫技术应用合法性引争议 保障数据安全亟待规制非法爬取数据行为

来源:法治日报——法制网

核心阅读

在大数据时代的背景下,愈来愈多的市场主体投入巨资收集、整理和挖掘信息。如果任由网络爬虫任意使用他人通过巨大投入获取的数据资源,将不利于鼓励商业投入、产业创新和诚实经营,甚至可能直接违背了数据来源用户的意愿和知情权,最终势必损害健康的竞争机制。

□ 法治日报全媒体记者 张维

□ 法制网见习记者 邢国涵

随着社会经济的快速发展,数据的价值日益凸显,已然成为企业科技创新的必备要素。但企业通过技术手段获取数据时,数据抓取技术的应用行为是否合理合法,是一个值得深思的问题。

近年来,网络爬虫“爬取数据”成为热词,相关司法案例不断出现。据不完全统计,近些年涉及网络爬虫的司法案件达十余起,其中既包括民事案件,还包括刑事案件。这类案例甚至还有愈演愈烈之势。

在近日于上海举行的长三角数据合规论坛(第三期)暨数据爬虫的法律规制研讨会上,上海市人民检察院研究室副主任陈超然透露,检察机关正在积极推动企业合规改革试点工作,数据合规正是其中重点。“目前爬虫爬取数据案件非常普遍,当网络平台或者个人通过技术手段抓取别的平台数据时,这种行为是否合法,平台数据主体是谁,归谁使用,值得深入研讨。”

杭州长三角大数据研究院副院长郭兵认为,数据爬虫作为中立性的技术,已在互联网产业领域得到广泛应用。需要注意的是,如果爬虫技术不当应用,会对其他竞争者的合法权益造成损害,甚至涉嫌违法或者犯罪,也将对产业的健康发展产生非常大的负面影响。

爬取数据涉嫌侵权

从技术角度看,爬虫是通过程序去模拟人类上网或者浏览网页、App行为,让其高效地在网上抓取爬虫制造者所需要的信息。

欧莱雅中国数字化负责人刘煜晨说,大多数网站拒绝爬虫访问,其中的原因既包括商业利益考量,也包括自身网站运营安全的考量。除了爬虫可能爬到网站不愿被爬取的数据以外,网站经营者往往还会担心爬虫干扰网站正常运营。

而非正规爬虫自动持续且高频地对被爬取方进行访问,服务器负载飙升,也会给服务器带来“难以承受”之重:应对经验不足的网站,尤其是中小网站可能会面临网站打不开、网页加载极其缓慢、有时甚至直接瘫痪的情况。

新浪集团诉讼总监张喆说,无论是爬虫还是实现其他目的的技术,就其本身而言,都是中立的,但爬虫技术的应用不是中立的,技术应用都带有应用者的目的。这时候不应该评价技术原理,而是需要评价技术用来干什么,这一行为手段是否具有正当性。

提及网络爬虫,robots协议是绕不开的话题。robots协议(也称爬虫协议)的全称是“网络爬虫排除标准”,网站通过robots协议明确警示搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议也被行业称为搜索领域的“君子协定”。

刘煜晨说,当网络爬虫访问一个网站,robots协议像立在自己房间门口的一个牌子,告诉外来者谁可以过来,谁不可以过来。但是,这只是一个君子协议,只能起到告示作用,起不到技术防范作用。

实践中,恶意爬虫爬取时不遵守网站的robots协议,并可能爬取到不该爬的数据,这种情形并非孤例。小红书法务负责人曾翔说,恶意爬虫案例经常发生在内容平台和电商平台。在内容上被爬取的更多是视频、图片、文字、网红互动数据、用户行为等,在电商领域则多为商家信息和商品信息。

“内容平台一般约定了相关内容知识产权归发布者或者发布者和平台共同所有,这些爬虫没有签订协议就获得用户授权,涉嫌对知识产权人权利的侵犯。”曾翔说。

或应明确网站权利

这就涉及到数据的权属及是否能开放的问题。

上海市浦东区人民法院知识产权庭法官徐弘韬认为,数据是内容产业的核心竞争资源,内容平台经过汇总分析处理后的数据往往具有极高的经济价值。

“如果要求内容平台经营者将其核心竞争资源向竞争对手无限开放,不仅有违‘互联互通’精神的实质,也不利于优质内容的不断更迭和互联网产业的持续发展。”徐弘韬说。

恶意爬虫爬取数据案件频发的背后,是数据的价值增加,以数据为核心的市场竞争愈发激烈。

华东政法大学教授高富平说,进入大数据时代,数据价值再次凸显,现在的爬虫技术已经从原来的网页爬虫进入到底层数据的爬取。数据爬虫问题会变得越来越严重。

在大数据时代的背景下,愈来愈多的市场主体投入巨资收集、整理和挖掘信息,业内人士对此表示担忧:如果任由网络爬虫任意使用或利用他人通过巨大投入所获取的数据资源,将不利于鼓励商业投入、产业创新和诚实经营,甚至可能直接违背了数据来源用户的意愿和知情权,最终势必损害健康的竞争机制。

高富平认为,如果网站合法积累数据资源,那么这些数据资源就应该属于网站的资产。“允许数据生产者、控制者基于商业目的开放数据是有好处的,通过许可使用、交换交易等方式,可以让更多人享用数据服务。期待在未来确认数据所有合法生产者对数据的控制权、使用权。”

有序流转同等重要

目前,网站虽然可以去指定相应策略或技术手段,防止爬虫抓取数据,但爬虫也有更多技术手段来反制这种反爬策略。

刘煜晨说,反爬和爬取的技术一直在迭代,在技术领域,没有爬不了的网站和App,只有愿不愿意爬和多难爬的问题。

据了解,现实中恶意网络爬虫制造者抗辩时,往往将robots协议限制爬取与数据流转联系起来。徐弘韬认为,在“互联互通”的语境下,“有序”和“流转”同等重要、缺一不可,需排除假借“互联互通”妨碍公平竞争、危害用户数据安全的行为。

“对于非搜索引擎爬虫的正当性判别,要考虑是否足以保障用户数据的安全性。包括身份数据、行为数据等在内的用户数据,从属性来讲不仅仅是经营者的竞争资源,同样具有用户的个人隐私属性,而此类数据的集合更涉及社会公共利益。”徐弘韬说。

据了解,近年来有关数据安全的法律规范正在不断完善中。数据安全法作为数据安全的基本法,承载着解决我国数据安全核心制度框架的重要任务。此外,还有2019年通过的密码法,工信部拟出台《工业和信息领域数据安全管理办法(试行)》等,一些地方如深圳、上海等也在探索制定数据管理相关规范。

相关问答

python做可视化数据分析,究竟怎么样?-ZOL问答

数据采集相关知识(python爬虫相关知识)数据分析学习数据可视化学习在此主要讲解数据分析的部分。数据分析其实主要包括:数据的获取与展示,数据整理,数据描述...

如何看待GitHub可能删除项目的风险?-ZOL问答

5条回答:看到有人说是中国的爬虫和薅羊毛行为导致GitHub禁止中国IP,这种说法真...即便未来GitHub恢复访问,中美科技脱钩的趋势却难以逆转。作为程序员,应该提...

【开源访谈】厉华:写一个开源容器引擎会是什么样的体验?-OS...

2013年,Docker.Inc开源了一款应用容器引擎Docker。开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到相同内核的任何Linux机器上部署运行...

飞利浦浴霸灯泡价格是多少-一起装修网

[回答]烟台奥脉络控制工程有限公司飞利浦浴霸中间灯泡照明反射加热取暖爬虫UVA射灯价格15元。深圳市佰仕能科技有限公司飞利浦浴霸灯泡R115暖阳...

学习哪种编程语言对找工作有利?_其他问答_系统粉

具体看城市吧,不过总的来说,java目前是最吃香的

如果完全没有编程基础,应该最开始学习什么计算机语言比较容...

这个问题如果讨论人群是研究编程语言的人,可以进行非常深入的探究。而且对编程语言的争论也是互联网各大技术社区的月经论战主题。但根据题主问题的...

在座的大神,有什么好的!青岛搜客网络科技服务怎么样?_饮食_...

[回答]集搜客网络爬虫网站专心于网页数据采集,获取了多个层面的软件工具:1,网络爬虫软件:是最基础层面的,用户iTunes软件以后自己定义爬虫规则,自己运营爬...

哪里有连载中的免费小说下载?-ZOL问答

比如使用反爬虫程序来检测用户是否在进行非法活动,还有使用验证码等方法来限制...覆盖言情玄幻科技人文武侠等都可以缓存到本地.一般txt可以在迅雷下载9条...

金融方面有哪些比较值得follow的公众号?申请方

怎么说呢...想在公众号上学东西,其实是一件挺困难的事情,内容还是良莠不齐的,推荐和评价如下:1.MBB、高盛等公司的官方微信号最顶级的公司的官方微...

互联网装潢公司排名榜

互联网家装公司有几百家,真正做得好的未必是广告做得多的,还是要实地考察下,再选择。现在有很多大大小小的装修公司,名列前茅的有土巴兔、盛世乐居...

抱歉,评论功能暂时关闭!