我目前正在使用Selenium和PhantomJS与Python一起抓取呈现的网页。很容易检查HTML内容中是否存在某个单词(例如。),但是我有兴趣在页面中搜索包含值大于或等于某个值的if "example" in html属性的元素。
例如,最理想的做法是抓取一个站点列表,并保存具有CSS为元素提供z索引的页面,这个值异常大。所有内容都是构建的</em
为了练习,我从一个网站上抓取书名,并使用书名计算出一些基本的统计数据。到目前为止,我已经成功地抓取了书名,将它们添加到一个表中,并找到了书的平均长度。我现在想要在书名中找到最常用的单词,它可能是' the ',但我想用R来证明这一点。目前我的程序只查看完整的书名,我需要将这些单词拆分成它们各自的身份,这样我就可以计算不同单词的