我有一个python作业,它使用漂亮的汤从job上抓取数据。我尝试使用U-SQL执行脚本,但我一直收到一般的错误消息:
An unhandled exception from user code has been reported
我没有过多地研究这个错误,因为我不确定是否有可能通过U-SQL来抓取web。
这是否可以使用U-SQL,如果不可以,我可以使用哪个Azure资源来计划此脚本并将结果存储在Azure数据湖存储上?
基本上,我希望能够存储从我在网页上找到的链接的URL。链接本身是由嵌入在网页中的java脚本函数动态生成的。我的问题也可以通过一个抓取当前网页URL的命令来令人满意地回答,但我还没有找到在这个特定工具中做到这一点的任何方法。
在您询问之前,我不能使用其他工具,它必须是此工具或Microsoft Flows / Microsoft Power Apps函数/工具。不幸的是,这排除了基于代码的python和基于代码的selenium作为我的可能解决方案。
如何将多个CSV文件按列合并为一个文件?我记录的是,比方说,从网页上抓取的公司的图表位置。只有第一个文件有两列,分别是位置1到100,第二列包含公司名称。所有其他文件只有一列;仅包含公司名称。现在,我想将它们合并,如下所述。首选Mac/Linux解决方案。我可以写一些JavaScript,但不是我的强项。
1.csv
position,name
1,microsoft
2,apple
3,google
和其他各种文件,以它们的日期命名,看起来像这样:
2.csv
name
microsoft
apple
google
3.csv
name
apple
microsoft
google
合并后的