腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

最新最全的大数据技术体系

专栏作者

717

文章

538379

阅读量

33

订阅数

机器学习(七)模型选择

机器学习线性回归模型数据算法

利用已知的样本点在图示的坐标轴上画出了绿色的曲线，表示源数据的大致分布状况。假设我们使用后面要学习的线性回归去解决样本点拟合问题，比如用多项式表示线性回归模型：

2023-11-08

1540

机器学习(八)经验风险与结构风险

机器学习博客函数模型数据

模型f(x)关于训练数据集的平均损失称之为经验风险（emprical risk）或经验损失（empirical loss），记作R(emp)

2023-11-08

2390

机器学习(六)构建机器学习模型

机器学习测试模型数据算法

整个过程包括了数据预处理、模型学习、模型验证及模型预测。其中数据预处理包含了对数据的基本处理，包括特征抽取及缩放、特征选择、特征降维和特征抽样；我们将带有类标的原始数据划按照82原则分为训练数据集和测试集。使用训练数据集用于模型学习算法中学习出适合数据集的模型，再用测试数据集用于验证最终得到的模型，将模型得到的类标签和原始数据的类标签进行对比，得到分类的错误率或正确率。

2023-11-01

3440

机器学习(五)如何理解机器学习三要素

机器学习监督学习函数模型算法

机器学习中，首先要考虑学习什么样的模型，在监督学习中，如模型y=kx+b就是所要学习的内容。

2023-10-29

1400

机器学习(四)机器学习分类及场景应用

机器学习强化学习监督学习模型数据

监督学习(supervised learning)从训练数据（training data）集合中学习模型，对测试数据（test data）进行预测。

2023-10-28

2890

机器学习(三)基本概念强化

机器学习测试基础模型数据

【基础概念1】将这组记录的集合称为一个“数据集”（data set），其中每条记录是关于一个事件或对象（这里说的是西瓜）的描述，也称为一个“样本”（sample）。

2023-10-17

1310

机器学习(二)什么是机器学习

机器学习模型数据算法性能

（基本认识）机器学习专门研究计算机怎样模拟或实现人类的学习行为，使之不断改善自身性能。是一门能够发掘数据价值的算法和应用，它是计算机科学中最激动人心的领域。我们生活在一个数据资源非常丰富的年代，通过机器学习中的自学习算法，可以将这些数据转换为知识。

2023-10-17

2330

机器学习(一)Spark机器学习基础

机器学习人工智能 spark 基础数据

大数据框架实现基础的数据存储和数据计算，如果从大量的数据中发现和挖掘出有价值的信息，需要借助机器学习算法，结合数据，构建机器学习模型实现对现实事件的预测。不同于以往的硬编码规则的方式，机器学习是通过机器学习算法发现或挖掘出数据中存在的规律或模式。

2023-10-13

1650

阿里巴巴大数据之路读书笔记——用户画像的定义

大数据机器学习神经网络深度学习人工智能

用户画像在阿里巴巴旗下的淘宝网、虾米音乐上都不乏个性化推荐场景，淘宝、天猫平台上的众多商家则需要通过用户调研和产品研发来把握产品的目标人群和人群偏好，从而对用户投其所好。对用户有深刻的理解是网站推荐、企业经营制胜的重要环。在传统企业中，获取用户的反馈信息耗时长、结果缺失，是个难关。然而随着大数据热潮的兴起，快速捕捉海量用户行为并精确分析人群偏好等商业信息已经成为可能。作为个性化技术的重要基础，相比于传统企业的购物篮分析、问卷调查，在用户画像的塑造上具备技术的天然优势。阿里全域数据提供了足够的数据基础，正是基于用户网购、搜索娱乐影音等行为的数据洞察，可以利用数据分析辅以算法的视角对用户进行 360 全方位的特征刻画。那么，究竟什么是用户画像？通俗地讲，用户画像即是为用户打上各种各样的标签，如年龄、性别、职业、商品牌偏好、商品类别偏好等。这些标签的数目越丰，标签越细化，对用户的刻画就越精准。例如，分析某用户为女性，可能仅仅是将与女相关的服装、个人护理等商品作为推荐结果反馈给该用户：但若根据用户以往的浏览、交易等行为挖掘出进一步的信息，如用户的地理信息海南，买过某几类品牌的服装，则可以将薄款的、品牌风格相似的服装作为推荐结果。一般而言，用户画像可以分为基础属性、购物偏好、社交关系、财富属性等几大类。对于刻画淘宝网购用户，则应侧重于他们在网购上的行为偏好。下面以用户女装风格偏好为例，讲解该用户标签是如何基于全域数据产出的。购买过淘宝商品的读者对商品详情页都不会陌生，一件商品的关键特征除了反映在商品图片和详情页中以外，主要可以采集的信息是商品的标题以及参数描述。女装有哪些风格？首先需要将女装行业下的商品标题文本提取出来，对其进行分词，得到庞大的女装描绘词库。然而，淘宝商品的标题由卖家个人撰写，并不能保证其中的词语都与商品风格描述相关。因此，对于所得到的女装描绘词库，首先，需要根据词语权重去除无效的停用词，方法如计算 TF-IDF 值。其次，在女装商品的参数描述中，如果已经包含了一种商品风格，例如“通勤”“韩版”等常见风格，那么通过计算词库中词语与参数描述中风格词的相似度，可以过滤得到女装风格词库，利用无监督机器学习如 LDA 等方法可以计算种风格所包含的词汇及这些词汇的重要性。那么买家偏好什么风格昵？在淘宝网上，买家拥有浏览、搜索、点击、收藏、加购物车以交易等多种行为，针对每种行为赋予不同的行为强度（比如浏览行为强度弱于交易行为），再考虑该商品的风格元素组成，就能够通过合理的方式获知买家对该风格的偏好程度了。对于这样的商品偏好计算，数据挖掘人员需要仔细分析用户偏好的商品的类型、品牌、风格元素、下单时间，这系列行为可以构成复杂的行为模块。同理，利用机器学习算法，可以从用户行为中推测其身份，例如男生和女生、老年与青年偏好的商品和行为方式存在别，根据定的用户标记，最后能够预测出用户的基础身份信息。

2021-12-07

3880

[机器学习]机器学习数学基础(三)

大数据机器学习神经网络深度学习人工智能

开头大家好,我是程序员manor,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。暑假打算做一个大数据项目巩固所学知识, 学习的课程是某硅谷的实时推荐和机器

2021-12-07

2070

SparkMllib介绍

spark python 编程算法 api 机器学习

1-ML算法，包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法 2-特征化：特征抽取、特征转换、特征选择、特征降维 3-管道Pipeline：将数据处理或特征工程的流程按照管道的方式去串联 4-持久化Persistence：保存模型，保存管道如何理解保存模型？原因就是不可能每次都去训练模型，而将已经训练好的模型进行保存，保存在本地或hdfs中，在本地或hdfs中加载已经训练好点模型，直接可以做预测分析 5-工具：包括线性代数、统计学、数据处理科学

2021-12-07

3460

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day18】——Spark5

spark sql 机器学习神经网络深度学习

1）粗粒度：启动时就分配好资源，程序启动，后续具体使用就使用分配好的资源，不需要再分配资源；优点：作业特别多时，资源复用率高，适合粗粒度；缺点：容易资源浪费，假如一个job有1000个task，完成了999个，还有一个没完成，那么使用粗粒度，999个资源就会闲置在那里，资源浪费。 2）细粒度分配：用资源的时候分配，用完了就立即回收资源，启动会麻烦一点，启动一次分配一次，会比较麻烦。

2021-12-07

2110

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态