首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
810
文章
1220884
阅读量
247
订阅数
主流推荐引擎技术及优缺点分析
导读:在本文中,将详细介绍多种类型的推荐系统,具体介绍基于近邻算法的推荐引擎、个性化推荐引擎、基于模型的推荐系统和混合推荐引擎等,并分析介绍每种推荐系统的优缺点。
Spark学习技巧
2021-03-05
9600
十款性能最佳的压缩算法
数据压缩是保留相同或绝大部分数据前提下减小文件大小的过程。它的原理是消除不必要的数据或以更高效的格式重新组织数据。在进行数据压缩时,你可以选择使用有损方法或无损方法。有损方法会永久性地擦除掉一些数据,而无损方法则能保证持有全部的数据。使用哪类方法取决于你要让你的文件保持多大的精准度。
Spark学习技巧
2021-03-05
5.3K0
机器学习在马蜂窝酒店聚合中的应用初探
出门旅行,订酒店是必不可少的一个环节。住得干净、舒心对于每个出门在外的人来说都非常重要。
Spark学习技巧
2021-03-05
8380
一个可供参考的搜索引擎排序架构实践案例
全球性的搜索引擎 Google,看似简单的搜索框背后隐藏的是极其复杂的系统架构和搜索算法,其中排序(以下统称 Ranking)的架构和算法更是关键部分。Google 正是通过 PageRank 算法深刻改变搜索排序而一举击败众多竞争对手。本文将介绍有关搜索引擎排序的相关技术内容。
Spark学习技巧
2019-07-17
2.3K0
终于有人把 Elasticsearch 原理讲透了!
搜索是现代软件必备的一项基础功能,而 Elasticsearch 就是一款功能强大的开源分布式搜索与数据分析引擎。
Spark学习技巧
2019-06-28
1.3K0
基于LSTM的情感识别在鹅漫评论分析中的实践与应用
深度学习(深度神经网络)作为机器学习的一个重要分支,持续推动了很多领域的研究和应用取得新的进展,其中包括文本处理领域的情感分类问题。由于可以对文本进行更有效的编码及表达,基于深度学习的情感分类对比传统的浅层机器学习和统计学方法,可以取得更高的分类准确率。当前,情感分析在互联网业务中已经具有比较广泛的应用场景,成为了一个重要的业务支持能力。本文结合腾讯鹅漫U品业务在中文文本情感分类上的应用和实践经验,与读者一起学习及探讨。
Spark学习技巧
2019-05-09
5440
金融领域7大数据科学案例
源:数据科学与人工智能 作者:Igor Bobriakov 本文约2639字,建议阅读5分钟。 本文为你分享一份对金融行业影响最大的数据科学应用清单。涵盖了从数据管理到交易策略的各种业务方面,共同点
Spark学习技巧
2018-06-22
2.1K0
干货 :基于用户画像的聚类分析
聚类(Clustering),顾名思义就是“物以类聚,人以群分”,其主要思想是按照特定标准把数据集聚合成不同的簇,使同一簇内的数据对象的相似性尽可能大,同时,使不在同一簇内的数据对象的差异性尽可能大。通俗地说,就是把相似的对象分到同一组。 聚类算法通常不使用训练数据,只要计算对象间的相似度即可应用算法。这在机器学习领域中被称为无监督学习。 某大型保险企业拥有海量投保客户数据,由于大数据技术与相关人才的紧缺,企业尚未建立统一的数据仓库与运营平台,积累多年的数据无法发挥应有的价值。企业期望搭建用户画像,对客户进
Spark学习技巧
2018-06-22
4.9K0
机器学习之学习率 Learning Rate
本文从梯度学习算法的角度中看学习率对于学习算法性能的影响,以及介绍如何调整学习率的一般经验和技巧。 在机器学习中,监督式学习(Supervised Learning)通过定义一个模型,并根据训练集上的数据估计最优参数。梯度下降法(Gradient Descent)是一个广泛被用来最小化模型误差的参数优化算法。梯度下降法通过多次迭代,并在每一步中最小化成本函数(cost function)来估计模型的参数(weights)。 梯度下降的伪代码如下: 重复已下过程,直到收敛为止{     ωj = ωj - λ
Spark学习技巧
2018-06-22
2.9K0
27个机器学习的小抄你值得收藏
机器学习(Machine Learning)有很多方面,当我开始研究学习它时,我发现了各种各样的“小抄”,它们简明地列出了给定主题的关键知识点。最终,我汇集了超过 20 篇的机器学习相关的小抄,其中一些我经常会翻阅,而另一些我也获益匪浅。这篇文章里面包含了我在网上找到的 27 个小抄,如果你发现我有所遗漏的话,请告诉我。 机器学习领域的变化是日新月异的,我想这些可能很快就会过时,但是至少在目前,它们还是很潮的。 机器学习 这里有一些有用的流程图和机器学习算法表,我只包括了我所发现的最全面的几个。 神经网络架
Spark学习技巧
2018-06-22
3230
基于机器学习对销量预测研究
Spark学习技巧
2018-06-22
8030
深入浅出推荐系统之简单推荐模型
先来回答一个最关键的问题:到底什么是推荐系统? 下面从3个角度来回答: 它能做什么 它需要什么 它怎么做 先来第一个问题推荐系统能做啥? 推荐系统可以把那些最终会在用户(User)和物品(Item)之间产生的连接提前找出来。 此处关键就在于提前二字,推荐系统要从一个巨大的网络中,去提前发现人和物品之间的连接,并帮助这条连接尽可能早的建立起来。 第二个问题它需要什么? 发现人和物品之间连接的前提是,已经有足够多的连接存在了,推荐系统才可能去预测未来的连接。 第三个问题,怎么做? 有很多方式,本系列主要
Spark学习技巧
2018-06-22
8030
从数学到实现,全面回顾高斯过程中的函数最优化
作者: Jonathan Landy 机器之心编译 参与:白悦、蒋思源 高斯过程可以被认为是一种机器学习算法,它利用点与点之间同质性的度量作为核函数,以从输入的训练数据预测未知点的值。本文从理论推导和实现详细地介绍了高斯过程,并在后面提供了用它来近似求未知函数最优解的方法。 我们回顾了高斯过程(GP)拟合数据所需的数学和代码,最后得出一个常用应用的 demo——通过高斯过程搜索法快速实现函数最小化。下面的动图演示了这种方法的动态过程,其中红色的点是从红色曲线采样的样本。使用这些样本,我们试图利用 GP 尽快
Spark学习技巧
2018-03-20
1.8K0
深度解析京东个性化推荐系统演进史
作者 | fisherman、Davidxiaozhi 本文摘自《决战618:探秘京东技术取胜之道》,两位作者时任京东推荐系统负责人和系统架构师。 在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短
Spark学习技巧
2018-01-31
1.3K0
基于Spark Mllib的文本分类
基于Spark Mllib的文本分类 文本分类是一个典型的机器学习问题,其主要目标是通过对已有语料库文本数据训练得到分类模型,进而对新文本进行类别标签的预测。这在很多领域都有现实的应用场景,如新闻网站的新闻自动分类,垃圾邮件检测,非法信息过滤等。本文将通过训练一个手机短信样本数据集来实现新数据样本的分类,进而检测其是否为垃圾消息,基本步骤是:首先将文本句子转化成单词数组,进而使用 Word2Vec 工具将单词数组转化成一个 K 维向量,最后通过训练 K 维向量样本数据得到一个前馈神经网络模型,以此来实现文本
Spark学习技巧
2018-01-31
1.5K0
Spark的Ml pipeline
ML pipeline提供了一组统一的高级API,它们构建在 DataFrame之上,可帮助用户创建和调整实用的机器学习pipeline。 一 重要概念 1.1 管道中的主要概念 MLlib对机器学习算法的API进行了标准化,使得将多种算法合并成一个pipeline或工作流变得更加容易。Pipeline的概念主要是受scikit-learn启发。 DataFrame:这个ML API使用Spark SQL 的DataFrame作为一个ML数据集,它可以容纳各种数据类型。例如,a DataFrame具有可以存
Spark学习技巧
2018-01-31
2.5K0
请别再问我Spark的MLlib和ML库的区别
机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。其目标是使实际的机器学习可扩展和容易。在高层次上,它提供了如下工具: ML算法:通用学习算法,如分类,回归,聚类和协同过滤 特征提取,特征提取,转换,降维和选择 管道:用于构建,评估和调整ML管道的工具 持久性:保存和加载算法,模型和管道 实用程序:线性代数,统计,数据处理等 公告:基于DataFrame的API是主要的API MLlib基于RDD的API现在处于维护模式。 从Spark 2.0开始,包中的基于RDD的API spar
Spark学习技巧
2018-01-31
1.9K0
基于DataFrame的StopWordsRemover处理
stopwords简单来说是指在一种语言中广泛使用的词。在各种需要处理文本的地方,我们对这些停止词做出一些特殊处理,以方便我们更关注在更重要的一些词上。 对于不同类型的需求而言,对停止词的处理是不同的。 1. 有监督的机器学习 – 将停止词从特征空间剔除 2. 聚类– 降低停止词的权重 3. 信息检索– 不对停止词做索引 4. 自动摘要- 计分时不处理停止词 对于不同语言,停止词的类型都可能有出入,但是一般而言有这简单的三类 1. 限定词 2. 并列连词 3.
Spark学习技巧
2018-01-31
1K0
基于DF的Tokenizer分词
Tokenizer分词 进行文本分析前,对文本中句子进行分词我们处理的第一步。大家都是Spark的机器学习库分为基于RDD和基于DataFrame的库,由于基于RDD的库在Spark2.0以后都处于维护状态,我们这里讲的分词就是基于Spark的Dataframe的。主要是讲解两个类Tokenizer和RegexTokenizer的使用。 1 首先准备数据 导包 import org.apache.spark.ml.feature.{RegexTokenizer, Tokenizer} import or
Spark学习技巧
2018-01-31
1.7K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档