[各人网科技概述报谈]6月29日,据多家外媒音书,亚马逊汇集劳动(AWS)已负责对东谈主工智能搜索初创公司PerplexityAI张开捕快,启事是后者被指控未经网站总共者容或,使用托管在AWS劳动器上的爬虫花样捏取数据,且涉嫌违背robots.txt扼杀契约。 robots.txt契约看成一种汇集门径,由网站惩办员成就,旨在奉告汇集爬虫哪些页面不错被拜谒,哪些则辞谢捏取。尽管遵命该契约是自觉的,但恒久以来,各大搜索引擎和闻名公司的爬虫花样多数遵命这一门径。探讨词,近期有指控称,PerplexityAI的爬虫花样却选拔了暴虐。 字据《Wired》杂志的报谈,其捕快团队发现了一台托管在AWS劳动器上的杜撰机,该机器使用的IP地址为44.221.181.252,在以前三个月内屡次拜谒并捏取了CondéNast旗下财富的实质,包括《Wired》杂志自己。此外,《卫报》、《福布斯》和《纽约时报》等媒体也论述了近似情况,指出该IP地址屡次拜谒其出书物实质。 为考证PerplexityAI是否确乎在捏取实质,《Wired》杂志将著述标题或精辟形色输入Perplexity的聊天机器东谈主进行测试。效劳长远,聊天机器东谈主复返的实质与原文措辞高度不异,且援用少许,进一步加重了对其违纪步履的质疑。 靠近指控,PerplexityAI方面暗示已回复亚马逊的究诘,并否定其爬虫花样出奇绕过robots.txt契约。公司发言东谈主SaraPlatnick强调,PerplexityBot在AWS上运转时尊重robots.txt文献,并阐述公司按捺的劳动不会违背AWS劳动条目进行爬虫行动。探讨词,她也承认,在特定情况下,即用户输入特定URL时,PerplexityBot会忽略robots.txt契约。 PerplexityAI首席履行官AravindSrinivas则指出,公司确乎使用了第三方汇集爬虫花样,而Wired所识别的违纪爬虫可能恰是其中之一。他否定公司“无视机器东谈主扼杀契约并就此撒谎”,但承认公司在数据处理和援用起原方面存在矫正空间。 值得留心的是,路透社最近的一份论述指出,PerplexityAI并非唯独一家绕过robots.txt文献汇集实质以训练大型话语模子的东谈主工智能公司。探讨词,亚马逊的捕快当今似乎仅针对PerplexityAI张开。 亚马逊发言东谈主向《连线》杂志暗示,AWS劳动条目明确辞谢客户使用其劳动进行任何犯警行动,且客户有连累遵命条目和总共适用法律。这次捕快旨在阐述PerplexityAI是否存在违纪步履,并字据捕快效劳接收相应措施。 |