在spark 2.0.2中用Java构建kyro编码数据集的决策树管道

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

0回答

、、

我正在尝试从Spark2.0.2 org.apache.spark.examples.ml.JavaDecisionTreeClassificationExample.构建决策树分类示例的一个版本我不能直接使用它我需要避免libsvm (未记录的AFAIK)，以便更容易地对普通数据集进行分类。我正在尝试调整该示例以使用kyro编码的数据集。该问题源于下面的map调用，特别是按照的指

浏览 6提问于2016-12-22得票数 1

回答已采纳

2回答

org.apache.spark.ml.classification与org.apache.spark.mllib.classification的区别

、、

我正在编写一个星星之火应用程序，并希望在MLlib中使用算法。在API文档中，我为相同的算法找到了两个不同的类。例如，LogisticRegression在org.apache.spark.ml.classification中有一个，在org.apache.spark.mllib.classification中也有一个我唯一能找到的区别是，org.apache.spark.ml中的那个是从Estim

浏览 8提问于2015-05-14得票数 17

回答已采纳

2回答

string字段中决策树分类器的数据处理

、、、、

我已经设法使我的决策树分类器为基于RDD的API工作，但现在我试图切换到星火中基于数据的API。我有这样的数据集(但是还有更多的字段)：Belgium, France, 10, 0Germany, Spain, 30, 0因此，我所做的就是

浏览 2提问于2017-02-22得票数 2

回答已采纳

2回答

星火结构流和DStreams有什么区别？

、

我一直在网上寻找材料--两者都是基于微批次的--那么有什么区别呢？

浏览 0提问于2018-03-15得票数 13

回答已采纳

2回答

文件系统SDK vs Azure数据工厂

、、

我有开发人员的背景，所以现在我不是“工具”开发方法的粉丝。我真的不喜欢在任何地方都要设置这些设置和创建对象。我更喜欢一种代码方法，它允许我们将逻辑从服务中分离出来(不喜欢保存发布内容)，通过滚动或导航到项目中的不同对象来查看所有内容，更容易地查看源代码控制中的差异等等。所以我找到了微软的Filesystem SDK，它似乎是数据工厂的替代方案：你使用这种方法的经验是什么？这是一个好的选择吗？有没有办法在数据工厂中运行SDK代码？这样我们就可以利用调度

浏览 0提问于2020-12-04得票数 0

1回答

Spark 2.2.0流未能找到数据源: kafka

、、

我使用maven来管理我的项目。<path to jar file> <arguments to run the main class>我知道我可以通过在星星之交之后添加--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.2.0 来解决这个问题。但是我怎样才能修改我的pom来做这

浏览 3提问于2017-08-21得票数 1

回答已采纳

5回答

SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么？

、、、、

它们之间的区别是什么？SparkContext, JavaSparkContext, SQLContext和SparkSession？是否有任何方法可以使用SparkSession？中的所有函数SQLContext，SparkContext，以及JavaSparkContext也在SparkSession？一些函数，比如parallelize在中有不同的行为SparkContext和JavaSparkContext。它们在如何使用SparkSession？

浏览 216提问于2017-05-05得票数 39

回答已采纳

4回答

KStreams +火花流+机器学习

、、、、

我正在做一个在数据流上运行机器学习算法的POC。Spark Streaming -->聚合多个表中的数据-->在数据流上运行MLLib -->产生输出。我的想法是持续训练测试数据，而不是批量训练。

浏览 2提问于2016-12-14得票数 9

2回答

星火簇配置的优化(低配置虚拟机集群)

当我使用Spark的独立模式处理大量数据集时，日志说：日志中的错误消息：Suppressed: java</e

浏览 5提问于2019-12-05得票数 0

3回答

在本地执行java.lang.UnsupportedOperationException:empty.maxBy时获取错误“PySpark : empty.maxBy”

、、

我正在使用RandomForestCLassifier构建一个模型。()方法来代替每次转换()，但是我也需要使用我的定制POS标签，并且在用自定义转换器持久化管道时也存在一些问题。当我在本地运行作业时，当火花在本地模式下运行时，我将执行器内存设置为5g，因为工作人员在驱动程序中运行。最初，我给了4g，但我得到了"OutOfMemory“错误，所以我把它改为5，我的数据集很小。它由900条记录组成，形式为纯文本句子，文件大小为50 is。造成这一错误的

浏览 6提问于2017-04-01得票数 3

回答已采纳

5回答

Apache和Hadoop的用例是什么？

、、、、

随着Hadoop2.0和纱，Hadoop被认为不再是唯一的地图还原解决方案。有了这一进步，考虑到HDFS顶部的两种情况，Apache的用例是什么？我已经阅读了Spark的介绍文档，但我很好奇是否有人遇到了比Hadoop更高效、更容易解决的问题。

浏览 0提问于2014-06-17得票数 34

回答已采纳

4回答

这类无监督聚类问题的最佳方法是使用分类数据？

、、、

我是新学机器的软件工程师。我读过一些基本的非监督技术，比如k均值和分层聚类，现在我正试图用一个基本的问题来实现它们。例如，也许一种常见的模式是，为“进步”、“自由主义”事业找到11到50人的小游说团体，但“总统”或“地方政治”团体倾向于更大的倾斜。或者，在类别和部门之间还可以找到另一种联系，诸如此类。这似乎比我所读到的例子要难一些，因为我的一些数据是一个标签云(“标记”字段)，它是非结构化的，可以包含多个条目，以及

浏览 0提问于2016-07-20得票数 4

10回答

如何使用Apache Kafka在生产环境构建大规模机器学习?

、、、、

智能实时应用是任何行业的游戏规则。机器学习及其子课题，深入学习正在获得势头，因为机器学习允许计算机找到隐藏的见解而不被明确地编程到哪里。这种能力是分析非结构化数据，图像识别，语音识别和智能决策所必需的。与Java，.NET或Python的传统编程是一个重要的区别。虽然机器学习背后的概念并不新鲜，但大数据集和处理能力的可用性使得每个企业都能够建立强大的分析模型。通过在企业应用程序和微服务中应用分析模型

浏览 1155提问于2018-04-18

20回答

hadoop对于方案: FileSystem没有文件

、、

我正在尝试使用hadoop运行一个简单的NaiveBayesClassifer，得到这个错误 at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1375) atorg.apache.hadoop.fs.FileSystem.access$200(FileSystem.

浏览 2提问于2013-06-24得票数 106

27回答

如何在linux命令行中替换多个文件中的字符串

、

我需要替换文件夹中许多文件中的字符串，并且只能通过ssh访问服务器。我该怎么做呢？

浏览 4提问于2012-07-09得票数 622

回答已采纳

6回答

TensorFlow有哪些应用实践？

、、、

TensorFlow是一个强大的面向数据流的机器学习库，由谷歌的Brain Team创建，于2015年开源，被设计成易于使用和广泛应用于数字和神经网络的问题以及其他领域，现如今又哪些应用和实践呢？

浏览 3855提问于2018-09-26

7回答

深度学习的主要框架有哪些可以通过腾讯云服务器学习？

、

深度学习的大部分知识都很深奥，作为一个深度学习领域的小白，想要了解一下深度学习分为哪些大致的框架，分别的内容又有哪些？哪些框架可以通过腾讯云服务器来开始学习呢？

浏览 2829提问于2018-09-07

9回答

如何快速入门Kafka消息队列？

、

最近经常听到这个名词，但是不知道如何入门，我看到腾讯云也有相关的产品Ckafka产品，所以来问问~

浏览 5093提问于2018-09-14

352回答

你为提高编程技能所做的最有效的事情是什么？

、

回顾我作为一名程序员的职业和生活，我有很多不同的方法来提高我的编程技能--阅读代码，编写代码，阅读书籍，听播客，看屏幕等等。我的问题是:你所做的提高编程能力的最有效的事情是什么？我希望这里有不同的答案，没有一个“一刀切”的答案--我想知道什么对不同的人有用。

浏览 0提问于2008-09-16得票数 876

465回答

无输出的最短无限回路

您的任务是创建最短的无限循环！规则这并不是要找到具有最短无限循环程序的语言。这是关于在每种语言中寻找最短的无限循环程序。因此，我不会接受一个答案。如果您选择的语言是另一种(可能更流

浏览 0提问于2015-10-02得票数 143

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云