使用CKAN Open Data portal,您可以定义一个采集作业,该作业是一个可以从各种来源收集数据并将其存储在您的门户中的服务。其中一个选项是从另一个CKAN源获取。我已经设法做到了,但如果收割机收集远程实例上的所有数据集,这对我们所需的东西来说是多余的。
有没有办法指定您希望在CKAN中获取哪些数据集,而不是无异常地获取所有数据集?
一些元数据:- Ubuntu服务器14.04 - Python 2.7 -最新版本的CKAN (2.5?) - Rabbit-mq message broker (如果需要可以选择Redis )
发布于 2018-01-12 18:25:33
最接近这一点的是使用organizations_filter_include
选项。请参阅CKAN harvester docs。在源CKAN上,您需要将想要获取的数据集放入特定的组织中。
这可能不太方便,所以你可以用组来代替。这将需要在ckanharvester.py中进行一些复制和粘贴,以适应organizations_filter_include
功能。对此的拉取请求将是受欢迎的(根据AGPL许可证,如果您在公共站点上运行此更改,则实际上是强制性的)。
最灵活的方法是添加一个新的收割器配置选项,通过搜索字符串指定数据集,该字符串将作为fq_terms
传递给_search_for_datasets
。再说一次,这将是一个受欢迎的贡献。
https://stackoverflow.com/questions/48155486
复制相似问题