在我的Azure流分析工作,我试图地理定位IP地址。我使用的引用大约为165 MB。引用数据块每个限制为100 MB,但文档声明如下:
的限制为每个blob 100 MB,但是作业可以使用path模式属性处理多个引用blob。
我该如何利用这一点呢?我已经将我的数据分成两个85 MB的文件,iplookup1.csv和iplookup2.csv,但似乎无法弄清楚如何将引用数据输入作为一个大型数据集来获取这两个文件。
作为一个停止间隙,我可能尝试创建两个引用数据输入,然后对两者执行一个左联接,并提取非空值。
发布于 2017-10-06 12:55:10
根据我的理解,对于引用数据,您可以在Path模式属性中指定静态数据(例如products/products.csv),也可以指定这些变量({date}、{time})的一个或多个实例(如products/{date}/{time}/products.csv )来刷新引用数据。
根据您的场景,我假设您需要创建两个引用数据输入,然后可以利用友联市操作将两个或多个查询的结果组合到一个结果中。对于引用数据连接,可以使用这里。
更新:
SELECT I1.propertyName, ip01.propertyName
FROM Input1 I1
JOIN iplookup1 ip01
ON I1.address= ip01.address
UNION
SELECT I1.propertyName, ip02.propertyName
FROM Input1 I1
JOIN iplookup2 ip02
ON I1.address= ip02.addresshttps://stackoverflow.com/questions/46593338
复制相似问题