腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏作者

810

文章

1220884

阅读量

247

订阅数

主流推荐引擎技术及优缺点分析

推荐系统编程算法学习方法大数据机器学习

导读：在本文中，将详细介绍多种类型的推荐系统，具体介绍基于近邻算法的推荐引擎、个性化推荐引擎、基于模型的推荐系统和混合推荐引擎等，并分析介绍每种推荐系统的优缺点。

Spark学习技巧

2021-03-05

9600

十款性能最佳的压缩算法

编程算法文件存储神经网络机器学习人工智能

数据压缩是保留相同或绝大部分数据前提下减小文件大小的过程。它的原理是消除不必要的数据或以更高效的格式重新组织数据。在进行数据压缩时，你可以选择使用有损方法或无损方法。有损方法会永久性地擦除掉一些数据，而无损方法则能保证持有全部的数据。使用哪类方法取决于你要让你的文件保持多大的精准度。

Spark学习技巧

2021-03-05

5.3K0

机器学习在马蜂窝酒店聚合中的应用初探

机器学习神经网络深度学习人工智能

出门旅行，订酒店是必不可少的一个环节。住得干净、舒心对于每个出门在外的人来说都非常重要。

Spark学习技巧

2021-03-05

8380

一个可供参考的搜索引擎排序架构实践案例

搜索引擎编程算法机器学习神经网络深度学习

全球性的搜索引擎 Google，看似简单的搜索框背后隐藏的是极其复杂的系统架构和搜索算法，其中排序（以下统称 Ranking）的架构和算法更是关键部分。Google 正是通过 PageRank 算法深刻改变搜索排序而一举击败众多竞争对手。本文将介绍有关搜索引擎排序的相关技术内容。

Spark学习技巧

2019-07-17

2.3K0

终于有人把 Elasticsearch 原理讲透了！

Elasticsearch Service 分布式搜索引擎机器学习 api

搜索是现代软件必备的一项基础功能，而 Elasticsearch 就是一款功能强大的开源分布式搜索与数据分析引擎。

Spark学习技巧

2019-06-28

1.3K0

基于LSTM的情感识别在鹅漫评论分析中的实践与应用

中文分词编程算法学习方法深度学习机器学习

深度学习（深度神经网络）作为机器学习的一个重要分支，持续推动了很多领域的研究和应用取得新的进展，其中包括文本处理领域的情感分类问题。由于可以对文本进行更有效的编码及表达，基于深度学习的情感分类对比传统的浅层机器学习和统计学方法，可以取得更高的分类准确率。当前，情感分析在互联网业务中已经具有比较广泛的应用场景，成为了一个重要的业务支持能力。本文结合腾讯鹅漫U品业务在中文文本情感分类上的应用和实践经验，与读者一起学习及探讨。

Spark学习技巧

2019-05-09

5440

金融领域7大数据科学案例

大数据人工智能机器学习自动化

源：数据科学与人工智能作者：Igor Bobriakov 本文约2639字，建议阅读5分钟。本文为你分享一份对金融行业影响最大的数据科学应用清单。涵盖了从数据管理到交易策略的各种业务方面，共同点

Spark学习技巧

2018-06-22

2.1K0

干货：基于用户画像的聚类分析

编程算法机器学习无监督学习

聚类（Clustering），顾名思义就是“物以类聚，人以群分”，其主要思想是按照特定标准把数据集聚合成不同的簇，使同一簇内的数据对象的相似性尽可能大，同时，使不在同一簇内的数据对象的差异性尽可能大。通俗地说，就是把相似的对象分到同一组。聚类算法通常不使用训练数据，只要计算对象间的相似度即可应用算法。这在机器学习领域中被称为无监督学习。某大型保险企业拥有海量投保客户数据，由于大数据技术与相关人才的紧缺，企业尚未建立统一的数据仓库与运营平台，积累多年的数据无法发挥应有的价值。企业期望搭建用户画像，对客户进

Spark学习技巧

2018-06-22

4.9K0

机器学习之学习率 Learning Rate

机器学习编程算法

本文从梯度学习算法的角度中看学习率对于学习算法性能的影响，以及介绍如何调整学习率的一般经验和技巧。在机器学习中，监督式学习（Supervised Learning）通过定义一个模型，并根据训练集上的数据估计最优参数。梯度下降法（Gradient Descent）是一个广泛被用来最小化模型误差的参数优化算法。梯度下降法通过多次迭代，并在每一步中最小化成本函数（cost function）来估计模型的参数（weights）。梯度下降的伪代码如下：重复已下过程，直到收敛为止{ 　　　　ωj = ωj - λ

Spark学习技巧

2018-06-22

2.9K0

27个机器学习的小抄你值得收藏

机器学习编程算法神经网络

机器学习(Machine Learning)有很多方面，当我开始研究学习它时，我发现了各种各样的“小抄”，它们简明地列出了给定主题的关键知识点。最终，我汇集了超过 20 篇的机器学习相关的小抄，其中一些我经常会翻阅，而另一些我也获益匪浅。这篇文章里面包含了我在网上找到的 27 个小抄，如果你发现我有所遗漏的话，请告诉我。机器学习领域的变化是日新月异的，我想这些可能很快就会过时，但是至少在目前，它们还是很潮的。机器学习这里有一些有用的流程图和机器学习算法表，我只包括了我所发现的最全面的几个。神经网络架

Spark学习技巧

2018-06-22

3230

基于机器学习对销量预测研究

Spark学习技巧

2018-06-22

8030

深入浅出推荐系统之简单推荐模型

推荐系统机器学习搜索引擎

先来回答一个最关键的问题：到底什么是推荐系统？下面从3个角度来回答：它能做什么它需要什么它怎么做先来第一个问题推荐系统能做啥？推荐系统可以把那些最终会在用户（User）和物品（Item）之间产生的连接提前找出来。此处关键就在于提前二字，推荐系统要从一个巨大的网络中，去提前发现人和物品之间的连接，并帮助这条连接尽可能早的建立起来。第二个问题它需要什么？发现人和物品之间连接的前提是，已经有足够多的连接存在了，推荐系统才可能去预测未来的连接。第三个问题，怎么做？有很多方式，本系列主要

Spark学习技巧

2018-06-22

8030

从数学到实现，全面回顾高斯过程中的函数最优化

nat 机器学习编程算法

作者： Jonathan Landy 机器之心编译参与：白悦、蒋思源高斯过程可以被认为是一种机器学习算法，它利用点与点之间同质性的度量作为核函数，以从输入的训练数据预测未知点的值。本文从理论推导和实现详细地介绍了高斯过程，并在后面提供了用它来近似求未知函数最优解的方法。我们回顾了高斯过程（GP）拟合数据所需的数学和代码，最后得出一个常用应用的 demo——通过高斯过程搜索法快速实现函数最小化。下面的动图演示了这种方法的动态过程，其中红色的点是从红色曲线采样的样本。使用这些样本，我们试图利用 GP 尽快

Spark学习技巧

2018-03-20

1.8K0

深度解析京东个性化推荐系统演进史

智能推荐平台推荐系统编程算法机器学习神经网络

作者 | fisherman、Davidxiaozhi 本文摘自《决战618：探秘京东技术取胜之道》，两位作者时任京东推荐系统负责人和系统架构师。在电商领域，推荐的价值在于挖掘用户潜在购买需求，缩短

Spark学习技巧

2018-01-31

1.3K0

基于Spark Mllib的文本分类

spark 机器学习

基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题，其主要目标是通过对已有语料库文本数据训练得到分类模型，进而对新文本进行类别标签的预测。这在很多领域都有现实的应用场景，如新闻网站的新闻自动分类，垃圾邮件检测，非法信息过滤等。本文将通过训练一个手机短信样本数据集来实现新数据样本的分类，进而检测其是否为垃圾消息，基本步骤是：首先将文本句子转化成单词数组，进而使用 Word2Vec 工具将单词数组转化成一个 K 维向量，最后通过训练 K 维向量样本数据得到一个前馈神经网络模型，以此来实现文本

Spark学习技巧

2018-01-31

1.5K0

Spark的Ml pipeline

spark 人工智能机器学习大数据数据库

ML pipeline提供了一组统一的高级API，它们构建在 DataFrame之上，可帮助用户创建和调整实用的机器学习pipeline。一重要概念 1.1 管道中的主要概念 MLlib对机器学习算法的API进行了标准化，使得将多种算法合并成一个pipeline或工作流变得更加容易。Pipeline的概念主要是受scikit-learn启发。 DataFrame：这个ML API使用Spark SQL 的DataFrame作为一个ML数据集，它可以容纳各种数据类型。例如，a DataFrame具有可以存

Spark学习技巧

2018-01-31

2.5K0

请别再问我Spark的MLlib和ML库的区别

spark 机器学习

机器学习库（MLlib）指南 MLlib是Spark的机器学习（ML）库。其目标是使实际的机器学习可扩展和容易。在高层次上，它提供了如下工具： ML算法：通用学习算法，如分类，回归，聚类和协同过滤特征提取，特征提取，转换，降维和选择管道：用于构建，评估和调整ML管道的工具持久性：保存和加载算法，模型和管道实用程序：线性代数，统计，数据处理等公告：基于DataFrame的API是主要的API MLlib基于RDD的API现在处于维护模式。从Spark 2.0开始，包中的基于RDD的API spar

Spark学习技巧

2018-01-31

1.9K0

基于DataFrame的StopWordsRemover处理

spark 机器学习 api

stopwords简单来说是指在一种语言中广泛使用的词。在各种需要处理文本的地方，我们对这些停止词做出一些特殊处理，以方便我们更关注在更重要的一些词上。对于不同类型的需求而言，对停止词的处理是不同的。 1. 有监督的机器学习 – 将停止词从特征空间剔除 2. 聚类– 降低停止词的权重 3. 信息检索– 不对停止词做索引 4. 自动摘要- 计分时不处理停止词对于不同语言，停止词的类型都可能有出入，但是一般而言有这简单的三类 1. 限定词 2. 并列连词 3.

Spark学习技巧

2018-01-31

1K0

基于DF的Tokenizer分词

spark 机器学习

Tokenizer分词进行文本分析前，对文本中句子进行分词我们处理的第一步。大家都是Spark的机器学习库分为基于RDD和基于DataFrame的库，由于基于RDD的库在Spark2.0以后都处于维护状态，我们这里讲的分词就是基于Spark的Dataframe的。主要是讲解两个类Tokenizer和RegexTokenizer的使用。 1 首先准备数据导包 import org.apache.spark.ml.feature.{RegexTokenizer, Tokenizer} import or

Spark学习技巧

2018-01-31

1.7K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态