在下面的方法中,我尝试对输入Iterable进行聚合操作,并输出不同的Iterable对。为此,我创建了一个RDD,定义了模式,然后从RDD创建了DataFrame。//From DataFrame to group by lat and lon and avg on temporg.apache.spark.sql
我有两个格式不稳定的data.frames。一个是大引用,另一个是我想要查找的子集,以便从引用中提取额外的数据,但是格式化是很困难的。coverage2 Transcript_11347:0-1584 NA NA
引用如下(注意:一些序列是手动删除的Transcript_1 len=760 GACCACACCACTCGTCTGAATTCTCGA