我有一个动态查询,它可以识别成员尚未租用的CD。我使用的是NOT IN子查询,但当我有大的成员表时,它会使它们变得非常慢。如何优化查询有什么建议吗?
SELECT DVDTitle AS "DVD Title"
FROM DVD
WHERE DVDId NOT IN
(SELECT DISTINCT DVDId FROM Rental WHERE MemberId = AL240);
谢谢
我们有一个运行HDFS的日志收集代理,即该代理(如Flume)不断从一些应用程序收集日志,然后将其写入HDFS。读写过程不间断地运行,导致HDFS的目标文件不断增加。
这里有一个问题,由于输入数据不断变化,如果我将收集代理的目标路径设置为作业的输入路径,MapReduce作业会发生什么情况?
FileInputFormat.addInputPath(job, new Path("hdfs://namenode:9000/data/collect"));
我正在尝试通过以下方式聚集超过200k个点:
km = KMeans(n_clusters=5)
km.fit_transform(ends)
但我得到以下错误: km.fit_transform(ends)
所以矩阵的维数是200kX2
File "/Users/fleh/anaconda/lib/python2.7/site-packages/sklearn/cluster/k_means_.py", line 814, in fit_transform
X = self._check_fit_data(X)
...
ValueError: Input co