Soul Joy Hub

136 篇文章
37 人订阅

全部文章

用户1621453

yarn初识

YARN是一个资源管理和作业框架,MR是计算框架 但。MR1中,JobTracker作为核心,管理集群中的每一台机器以及所有的job分配,需要很大的资源消耗...

811
用户1621453

Hbase初识

注意: HBaseAdmin,HTable,ResultScanner 对象最后都要close()

1432
用户1621453

HDFS safemode

处于safemode的集群是无法接收任何写操作的,包括创建目录、删除文件、修改文件、上传文件等等。hdfs集群在启动和关闭的时候一般会有一段时间处于safemo...

1413
用户1621453

【Spark Mllib】决策树,随机森林——预测森林植被类型

决策树有训练分类模型的函数trainClassifier和回归模型的函数trainRegressor,这里我们使用trainClassifier。 我们来看...

901
用户1621453

Spark异常处理与调优(更新中~)

http://blog.csdn.net/u011239443/article/details/52127689

2373
用户1621453

Hadoop异常合集(更新中~)

可以看到job.setOutputKeyClass(Text.class),但是为什么代码要的是IntWritable呢? 原因是

1585
用户1621453

一句SQL,判断char列的值是否组成回文字符串

Table t has 2 columns: id INT; value CHAR(1); Column id starts from 0, inc...

803
用户1621453

站在路口的思考

953
用户1621453

【Spark Mllib】性能评估 ——MSE/RMSE与MAPK/MAP

均方差(MSE),就是对各个实际存在评分的项,pow(预测评分-实际评分,2)的值进行累加,在除以项数。而均方根差(RMSE)就是MSE开根号。

1593
用户1621453

深入理解Spark ML:基于ALS矩阵分解的协同过滤算法与源码分析

随着互联网的迅猛发展,为了满足人们在繁多的信息中获取自己需要内容的需求,个性化推荐应用而生。协同过滤推荐是其中运用最为成功的技术之一。其中,基于用户的最近邻法根...

3573
用户1621453

【Spark Mllib】TF-IDF&Word2Vec——文本相似度

我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据...

1663
用户1621453

文本搜索(C实现)

922
用户1621453

【Spark Mllib】K-均值聚类——电影类型

代码实现中,首先需要引入必要的模块,设置模型参数: K(numClusters)、最大迭代次数(numIteration)和训练次数(numRuns)。然后...

1681
用户1621453

【Spark Mllib】分类模型——各分类模型使用

这个数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂存在,很快就不流行了)还是长久(长时间流行)。

1513
用户1621453

1 producer — n consumers 模型 实现

1024
用户1621453

【Spark Mllib】逻辑回归——垃圾邮件分类器与maven构建独立项目

配置的时候要注意spark 和 scala 的版本,可以打开spark-shell 观察:

1523
用户1621453

域名转化到IP地址的实现

在linux中,有一些函数可以实现主机名和地址的转化,最常见的有gethostbyname()、gethostbyaddr()等,它们都可以实现IPv4和IPv...

1202
用户1621453

深入理解Spark 2.1 Core (二):DAG调度器的原理与源码分析

上一篇《深入理解Spark 2.0 (一):RDD实现及源码分析 》的5.2 Spark任务调度器我们省略过去了,这篇我们就来讲讲Spark的调度器。

944
用户1621453

深入理解Spark 2.1 Core (一):RDD的原理与源码分析

该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstra...

1337
用户1621453

Java NIO 实现 EchoServer EchoClient

EchoServer采用阻塞模式,用线程池中的工作线程处理每个客户连接。 EchoClient也采用阻塞模式,单线程。

883

扫码关注云+社区

领取腾讯云代金券