首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏作者
717
文章
538379
阅读量
33
订阅数
机器学习(七)模型选择
利用已知的样本点在图示的坐标轴上画出了绿色的曲线,表示源数据的大致分布状况。假设我们使用后面要学习的线性回归去解决样本点拟合问题, 比如用多项式表示线性回归模型:
Maynor
2023-11-08
1540
机器学习(八)经验风险与结构风险
模型f(x)关于训练数据集的平均损失称之为经验风险(emprical risk)或经验损失(empirical loss),记作R(emp)
Maynor
2023-11-08
2390
机器学习(六)构建机器学习模型
整个过程包括了数据预处理、模型学习、模型验证及模型预测。其中数据预处理包含了对数据的基本处理,包括特征抽取及缩放、特征选择、特征降维和特征抽样;我们将带有类标的原始数据划按照82原则分为训练数据集和测试集。使用训练数据集用于模型学习算法中学习出适合数据集的模型,再用测试数据集用于验证最终得到的模型,将模型得到的类标签和原始数据的类标签进行对比,得到分类的错误率或正确率。
Maynor
2023-11-01
3440
机器学习(五)如何理解机器学习三要素
机器学习中,首先要考虑学习什么样的模型,在监督学习中,如模型y=kx+b就是所要学习的内容。
Maynor
2023-10-29
1400
机器学习(四)机器学习分类及场景应用
监督学习(supervised learning)从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。
Maynor
2023-10-28
2890
机器学习(三)基本概念强化
【基础概念1】将这组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象(这里说的是西瓜)的描述,也称为一个“样本”(sample)。
Maynor
2023-10-17
1310
机器学习(二)什么是机器学习
(基本认识)机器学习专门研究计算机怎样模拟或实现人类的学习行为,使之不断改善自身性能。是一门能够发掘数据价值的算法和应用,它是计算机科学中最激动人心的领域。我们生活在一个数据资源非常丰富的年代,通过机器学习中的自学习算法,可以将这些数据转换为知识。
Maynor
2023-10-17
2330
机器学习(一)Spark机器学习基础
大数据框架实现基础的数据存储和数据计算,如果从大量的数据中发现和挖掘出有价值的信息,需要借助机器学习算法,结合数据,构建机器学习模型实现对现实事件的预测。不同于以往的硬编码规则的方式,机器学习是通过机器学习算法发现或挖掘出数据中存在的规律或模式。
Maynor
2023-10-13
1650
阿里巴巴大数据之路读书笔记——用户画像的定义
用户画像在阿里巴巴旗下的淘宝网、虾米音乐上都不乏个性化推荐场景,淘宝、天猫平台上的众多商家则需要通过用户调研和产品研发来把握产品的目标人群和人群偏好,从而对用户投其所好。对用户有深刻的理解是网站推荐、企业经营制胜的重要 环。在传统企业中,获取用户的反馈信息耗时长、结果缺失,是个难关。然而 随着大数据热潮的兴起,快速捕捉海量用户行为并精确分析人群偏好等商业信息已经成为可能。作为个性化技术的重要基础,相比于传统企业的购物篮分析、问卷调查,在用户 画像的塑造上具备技术的天然优势。 阿里全域数据提供了足够的数据基础,正是基于用户网购、搜索 娱乐影音等行为的数据洞察,可以利用数据分析辅以算法的视角对用户进行 360 全方位的特征刻画。那么,究竟什么是用户画像?通俗地讲,用户画像即是为用户打上各种各样的标签,如年龄、性别、职业、商品牌偏好、商品类别偏好等。这些标签的数目越丰 ,标签越细化,对用户的刻画就越精准。例如,分析某用户为女性,可能仅仅是将与女相关的服装、个人护理等商品作为推荐结果反馈给该用 户:但若根据用户以往的浏览、交易等行为挖掘出进一步的信息,如用户的地理信息 海南,买过某几类品牌的服装,则可以将薄款的、品牌风格相似的服装 作为推荐结果。一般而言,用户画像可以分为基础属性、购物偏好、 社交关系、财富属性等几大类。对于刻画淘宝网购用户,则应侧重于他们在网购上的行为偏好。下面以用户女装风格偏好为例,讲解该用户标签是如何基于全域数据产出的。购买过淘宝商品的读者对商品详情页都不会陌生,一件商品的关键 特征除了反映在商品图片和详情页中以外,主要可以采集的信息是商品的标题以及参数描述。女装有哪些风格?首先需要将女装行业下的商品标题文本提取出来,对其进行分词,得到庞大的女装描绘词库。然而,淘宝商品的标题由卖家个人撰写,并不能保证其中的词语都与商品风格描述相关。因此,对于所得到的女装描绘词库,首先,需要根据词语权重去除无效的停用词,方法如计算 TF-IDF 值。其次,在女装商品的参数描述中,如果已经包含了一种商品风格,例如“通勤”“韩版”等常见风格,那么通过计算词库中词语与参数描述中风格词的相似度,可以过滤得到女装风格词库,利用无监督机器学习如 LDA 等方法可以计算种风格所包含的词汇及这些词汇的重要性。那么 买家偏好什么风格昵?在淘宝网上,买家拥有浏览、搜索、点击、收藏、加购物车以交易等多种行为,针对每种行为赋予不同的行为强度(比如浏览行为强度弱于交易行为),再考虑该商品的风格元素组成,就能够通过合理的方式获知买家对该风格的偏好程度了。对于这样的商品偏好计算,数据挖掘人员需要仔细分析用户偏好的商品的类型、品牌、风格元素、下单时间,这 系列行为可以构成复杂的行为模块。同理,利用机器学习算法,可以从用 户行为中推测其身份,例如男生和女生、老年与青年偏好的商品和行为方式存在 别,根据定的用户标记,最后能够预测出用户的基础身份信息。
Maynor
2021-12-07
3880
[机器学习]机器学习数学基础(三)
开头 大家好,我是程序员manor,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。 暑假打算做一个大数据项目巩固所学知识, 学习的课程是某硅谷的实时推荐和机器
Maynor
2021-12-07
2070
SparkMllib介绍
1-ML算法,包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法 2-特征化:特征抽取、特征转换、特征选择、特征降维 3-管道Pipeline:将数据处理或特征工程的流程按照管道的方式去串联 4-持久化Persistence:保存模型,保存管道 如何理解保存模型? 原因就是不可能每次都去训练模型,而将已经训练好的模型进行保存,保存在本地或hdfs中,在本地或hdfs中加载已经训练好点模型,直接可以做预测分析 5-工具:包括线性代数、统计学、数据处理科学
Maynor
2021-12-07
3460
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day18】——Spark5
1)粗粒度:启动时就分配好资源, 程序启动,后续具体使用就使用分配好的资源,不需要再分配资源;优点:作业特别多时,资源复用率高,适合粗粒度;缺点:容易资源浪费,假如一个job有1000个task,完成了999个,还有一个没完成,那么使用粗粒度,999个资源就会闲置在那里,资源浪费。 2)细粒度分配:用资源的时候分配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。
Maynor
2021-12-07
2110
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档