学者们仍希望能够更广泛地开放社交网络的信息。
在本周出现在ArXiv上的一篇论文中,墨西哥InstitutoPoliténicoNacional的ESIME Culhuacan和英国Warwick大学的技术专家描述了一种技术,用于解决Twitter的API访问速率限制,以从社交网络中收集数据更有效率。
它的标题是“绕过Twitter API限制的网页抓取方法”。
为了测试和训练数据科学算法,eggheads必须有一些东西可以配合使用,研究人员包括A. Hernandez-Suarez,G. Sanchez-Perez,K. Toscano-Medina,V. Martinez-Hernandez,V. Sanchez和H.佩雷斯。
“从在线社交网络收集信息是许多数据科学领域的一个初步步骤,使研究人员能够处理不同的更详细的数据集,”他们说。“虽然科学界的一个重要部分使用Twitter流媒体API来收集数据,但是当查询超出评估间隔和时间范围时,会出现限制。”
他们声称,Twitter已经成为数据收集的首选社交网络,因为它的可用性,覆盖范围和各种类型的数据。他们表示,它的实时和历史数据已被证明对研究谣言传播,跟踪地理人员,垃圾邮件和僵尸网络检测以及灾难响应有很大作用。
但是,Twitter通过其免费提供的API提供的数据速率和范围受到限制。虽然其有一个企业级API,但是让大公司花费大笔资金来获得高级访问权限是很昂贵的。
“在本文中,我们提出了一种网页抓取方法,用于利用公共搜索端点来绕过Twitter API限制来抓取和解析推文,例如,如果查询具有可选参数和一组HTTP标头,则可以请求进一步深入的高级搜索收集数据。“他们解释说。
网络诈骗仍然是一个具有法律争议的问题。去年,一家名为hiQ的旧金山创业公司起诉LinkedIn,允许LinkedIn在LinkedIn试图锁定新开发商之后削减公开的LinkedIn个人资料。案件仍在进行,但hiQ的数据收集已被允许,而案件继续进行。
在数据不公开的情况下,法律更加清晰:访问受保护的数据可能会根据黑客法规被起诉,具体取决于您的居住地点。
不过,使用公共API以避免依赖企业API的需求并非完全相同。
研究人员已经开发了他们所描述的通过自定义查询字段来扩展搜索功能来挖掘Twitter API端点的新方法。
该技术依赖于Scrapy,一种用于Python的开源Web抓取框架。
研究人员解释说:“通过使用Scrapy这一开放源代码和协作框架从Python网站中提取数据,我们提高了抓取引擎的能力,以获得无限量的推文,绕过日期范围限制。”
该技术的关键在于,如果第一个Twitter API请求返回20个结果,则可以将第二个结果制作成返回可变数量的结果,因为该系统是为滚动浏览Twitter提要的用户设计的(其中要加载的推文数量不固定)。这种行为可以通过传递一个最大位置参数来使用,该参数可以指示Twitter的后端系统提供比通常更多的数据。
领取专属 10元无门槛券
私享最新 技术干货