伙计们,我正试图开发一种蟒蛇解决方案,以便从美国农业部(USDA)获得一些有关农产品的信息。
每个月,美国农业部都会发布一份报告,估计玉米、大豆和小麦等大宗商品的价格。
我的目标是准备一个访问网站的程序,得到正确的号码并返回如下消息:
--美国农业部估计美国大豆产量为4,480亿吨,高于上次报告中的4,200亿吨
,但是要开始它,我需要找出哪种类型的文件才能获得这些信息。哪一个更容易处理这些信息?你觉得呢?
美国农业部在PDF、xls、XML和TXT中发布了相同的数据库。(您可以在这里看到文件:http://usda.mannlib.cornell.edu/MannUsda/viewDocumentInfo.do?documentID=1194)
我正在考虑从xls获得它,这是一种我处理得更好的文件。但是,从数据库来看,我看到了不同数据库之间的一些差异。txt和XML文件似乎更准确..。但我从没用过它..。不知道这是不是个好主意。
顺便说一句:如果你对库有一些使用文件和数据的建议,我也会接受。=D
谢谢!
发布于 2017-12-13 19:16:52
我将使用XML格式,这是最机器可读的,并将有最多的支持。在过去,我使用名为lxml
和BeautifulSoup
的XML解析库来提取我需要的数据。这两个都有大量的文档。
https://stackoverflow.com/questions/47800256
复制相似问题