试图从维基百科页面中提取信息。最初,我想确定哪些页面是关于公司的。我使用下面的正则表达式检查单词company是否在短语"infobox“和第一个"|”字符之间,val infobox_companyi)infobox[^\|]*company[^\|]*\|""".r
val is_company = infobox_company findFirstIn t
我正在尝试将维基百科信息箱中的数据放入一个哈希表中,这样我就可以在我的Ruby on Rails程序中使用它。具体来说,我对和感兴趣。我所举的例子是“福特汽车公司”。我试过在或上找出如何做到这一点,但我没有太多的运气。我知道维基百科可以返回一些我可以用ruby解析的json形式的东西,但是我还不知道如何获取infobox。在DBPedia的案例中,我甚至不知道如何查询它来获得福特汽车公司的信息。