请描述您的问题
标题:年底大酬宾-腾讯云
地址:https://cloud.tencent.com/act/bargin?utm_source=portal&utm_medium=banner&utm_campaign=bargin&utm_term=1204
浏览器信息
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36
我们有一个运行HDFS的日志收集代理,即该代理(如Flume)不断从一些应用程序收集日志,然后将其写入HDFS。读写过程不间断地运行,导致HDFS的目标文件不断增加。
这里有一个问题,由于输入数据不断变化,如果我将收集代理的目标路径设置为作业的输入路径,MapReduce作业会发生什么情况?
FileInputFormat.addInputPath(job, new Path("hdfs://namenode:9000/data/collect"));
我正在尝试通过以下方式聚集超过200k个点:
km = KMeans(n_clusters=5)
km.fit_transform(ends)
但我得到以下错误: km.fit_transform(ends)
所以矩阵的维数是200kX2
File "/Users/fleh/anaconda/lib/python2.7/site-packages/sklearn/cluster/k_means_.py", line 814, in fit_transform
X = self._check_fit_data(X)
...
ValueError: Input co