腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
最新最全的大数据技术体系
专栏作者
举报
717
文章
538379
阅读量
33
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
sql
编程算法
数据库
数据
java
spark
hive
node.js
kafka
hadoop
python
存储
hbase
云数据库 SQL Server
TDSQL MySQL 版
物联网
flink
api
mapreduce
网络安全
linux
网站
数据分析
https
模型
文件存储
apache
yarn
服务
分布式
ide
数据结构
javascript
scala
xml
spring
windows
函数
html
腾讯云测试服务
jar
maven
http
容器
缓存
tcp/ip
数据处理
设计
机器学习
vue.js
基础
配置
语法
bash
容器镜像服务
数据湖
进程
可视化
统计
json
nosql
打包
微服务
pyspark
oracle
shell
面向对象编程
腾讯云开发者社区
tomcat
nginx
消息队列 CMQ 版
yum
jdbc
zookeeper
gpt
编码
博客
公众号
php
bash 指令
推荐系统
微信
云计算
bi
flume
table
测试
工程师
内存
算法
数据接口
对象存储
c++
jsp
unix
人工智能
电商
jdk
mybatis
数据可视化
虚拟化
es
error
openai
工具
全栈
视频
索引
腾讯
系统
原理
字符串
ajax
云数据库 Redis
mvc
git
github
全文检索
深度学习
专用宿主机
访问管理
日志数据
企业
数据安全
hashmap
aop
mysql
部署
服务器
集群
教程
解决方案
入门
事务
线程
AI绘画
其他
servlet
jquery
access
搜索引擎
lucene/solr
神经网络
日志服务
jvm
正则表达式
rpc
sdn
airflow
exception
join
mq
nested
redis
set
shuffle
编程
插件
产品
程序
工作
接口
开发
开发者
连接
排序
同步
需求分析
优化
负载均衡
NLP 服务
自动驾驶
c#
regex
react
css
负载均衡缓存
批量计算
mongodb
serverless
parcel
游戏
开源
自动化
运维
ssh
监督学习
rabbitmq
kernel
spring cloud
安全
机器人
系统架构
mvcc
ascii
sdk
迁移
实时etl
数据库管理
app
break
bug
char
connect
connection
csv
for循环
gateway
host
list
map
null
pandas
pip
process
prompt
pycharm
rdd
select
server
service
truncate
version
video
view
word
百度
变量
编译
对象
多线程
集合
架构
镜像
框架
日志
软件
实践
数据存储
数据类型
图表
微信公众号
性能
异步
源码
费用中心
云服务器
内容分发网络 CDN
ruby
bootstrap
ecmascript
android
eclipse
centos
容器服务
云直播
命令行工具
云推荐引擎
DevOps 解决方案
数据备份
o2o
渲染
vr 视频解决方案
express
kubernetes
压力测试
数据迁移
无人驾驶
wordpress
强化学习
spring boot
线性回归
seo
二叉树
dubbo
jenkins
gradle
scikit-learn
socket编程
lamp
ntp
小程序
网站建设
nat
processing
信息流
任务调度
聚类算法
实时监控
Elasticsearch Service
数据集成
大数据存储
汽车
教育
腾讯云
alias
alpha
amqp
async
backend
between
chatgpt
classnotfoundexception
clickhouse
cloud
cloudera
code
conda
config
core
count
cpu
data
date
default
dll
drawing
ear
echarts
edge
equals
excel
exec
execution
export
field
fifo
function
geo
having
hdfs
hibernate
ibatis
import
insert
int
io
it
jetbrains
jetty
key
matplotlib
model
monitor
partition
path
port
prometheus
ps
regexp
reset
rows
runtimeexception
socket
sqoop
ssl
substr
sys
tampermonkey
target
this
thread
time
timeout
token
txt
types
unique
vim
window
worker
zero
报表
备份
并发
产品经理
程序员
磁盘
代理
登录
递归
地图
队列
多进程
二维码
翻译
分页
高可用
工具类
行业
华为
技巧
监控
脚本
客户端
流量
论文
内核
配色
权限
事件
实时计算
手机
数据仓库
数据同步
数学
数组
搜索
推送
网关
效率
性能监控
虚拟机
异常
域名
在线教育
主机
LLM
搜索文章
搜索
搜索
关闭
机器学习(七)模型选择
机器学习
线性回归
模型
数据
算法
利用已知的样本点在图示的坐标轴上画出了绿色的曲线,表示源数据的大致分布状况。假设我们使用后面要学习的线性回归去解决样本点拟合问题, 比如用多项式表示线性回归模型:
Maynor
2023-11-08
154
0
机器学习(八)经验风险与结构风险
机器学习
博客
函数
模型
数据
模型f(x)关于训练数据集的平均损失称之为经验风险(emprical risk)或经验损失(empirical loss),记作R(emp)
Maynor
2023-11-08
239
0
机器学习(六)构建机器学习模型
机器学习
测试
模型
数据
算法
整个过程包括了数据预处理、模型学习、模型验证及模型预测。其中数据预处理包含了对数据的基本处理,包括特征抽取及缩放、特征选择、特征降维和特征抽样;我们将带有类标的原始数据划按照82原则分为训练数据集和测试集。使用训练数据集用于模型学习算法中学习出适合数据集的模型,再用测试数据集用于验证最终得到的模型,将模型得到的类标签和原始数据的类标签进行对比,得到分类的错误率或正确率。
Maynor
2023-11-01
344
0
机器学习(五)如何理解机器学习三要素
机器学习
监督学习
函数
模型
算法
机器学习中,首先要考虑学习什么样的模型,在监督学习中,如模型y=kx+b就是所要学习的内容。
Maynor
2023-10-29
140
0
机器学习(四)机器学习分类及场景应用
机器学习
强化学习
监督学习
模型
数据
监督学习(supervised learning)从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。
Maynor
2023-10-28
289
0
机器学习(三)基本概念强化
机器学习
测试
基础
模型
数据
【基础概念1】将这组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象(这里说的是西瓜)的描述,也称为一个“样本”(sample)。
Maynor
2023-10-17
131
0
机器学习(二)什么是机器学习
机器学习
模型
数据
算法
性能
(基本认识)机器学习专门研究计算机怎样模拟或实现人类的学习行为,使之不断改善自身性能。是一门能够发掘数据价值的算法和应用,它是计算机科学中最激动人心的领域。我们生活在一个数据资源非常丰富的年代,通过机器学习中的自学习算法,可以将这些数据转换为知识。
Maynor
2023-10-17
233
0
机器学习(一)Spark机器学习基础
机器学习
人工智能
spark
基础
数据
大数据框架实现基础的数据存储和数据计算,如果从大量的数据中发现和挖掘出有价值的信息,需要借助机器学习算法,结合数据,构建机器学习模型实现对现实事件的预测。不同于以往的硬编码规则的方式,机器学习是通过机器学习算法发现或挖掘出数据中存在的规律或模式。
Maynor
2023-10-13
165
0
阿里巴巴大数据之路读书笔记——用户画像的定义
大数据
机器学习
神经网络
深度学习
人工智能
用户画像在阿里巴巴旗下的淘宝网、虾米音乐上都不乏个性化推荐场景,淘宝、天猫平台上的众多商家则需要通过用户调研和产品研发来把握产品的目标人群和人群偏好,从而对用户投其所好。对用户有深刻的理解是网站推荐、企业经营制胜的重要 环。在传统企业中,获取用户的反馈信息耗时长、结果缺失,是个难关。然而 随着大数据热潮的兴起,快速捕捉海量用户行为并精确分析人群偏好等商业信息已经成为可能。作为个性化技术的重要基础,相比于传统企业的购物篮分析、问卷调查,在用户 画像的塑造上具备技术的天然优势。 阿里全域数据提供了足够的数据基础,正是基于用户网购、搜索 娱乐影音等行为的数据洞察,可以利用数据分析辅以算法的视角对用户进行 360 全方位的特征刻画。那么,究竟什么是用户画像?通俗地讲,用户画像即是为用户打上各种各样的标签,如年龄、性别、职业、商品牌偏好、商品类别偏好等。这些标签的数目越丰 ,标签越细化,对用户的刻画就越精准。例如,分析某用户为女性,可能仅仅是将与女相关的服装、个人护理等商品作为推荐结果反馈给该用 户:但若根据用户以往的浏览、交易等行为挖掘出进一步的信息,如用户的地理信息 海南,买过某几类品牌的服装,则可以将薄款的、品牌风格相似的服装 作为推荐结果。一般而言,用户画像可以分为基础属性、购物偏好、 社交关系、财富属性等几大类。对于刻画淘宝网购用户,则应侧重于他们在网购上的行为偏好。下面以用户女装风格偏好为例,讲解该用户标签是如何基于全域数据产出的。购买过淘宝商品的读者对商品详情页都不会陌生,一件商品的关键 特征除了反映在商品图片和详情页中以外,主要可以采集的信息是商品的标题以及参数描述。女装有哪些风格?首先需要将女装行业下的商品标题文本提取出来,对其进行分词,得到庞大的女装描绘词库。然而,淘宝商品的标题由卖家个人撰写,并不能保证其中的词语都与商品风格描述相关。因此,对于所得到的女装描绘词库,首先,需要根据词语权重去除无效的停用词,方法如计算 TF-IDF 值。其次,在女装商品的参数描述中,如果已经包含了一种商品风格,例如“通勤”“韩版”等常见风格,那么通过计算词库中词语与参数描述中风格词的相似度,可以过滤得到女装风格词库,利用无监督机器学习如 LDA 等方法可以计算种风格所包含的词汇及这些词汇的重要性。那么 买家偏好什么风格昵?在淘宝网上,买家拥有浏览、搜索、点击、收藏、加购物车以交易等多种行为,针对每种行为赋予不同的行为强度(比如浏览行为强度弱于交易行为),再考虑该商品的风格元素组成,就能够通过合理的方式获知买家对该风格的偏好程度了。对于这样的商品偏好计算,数据挖掘人员需要仔细分析用户偏好的商品的类型、品牌、风格元素、下单时间,这 系列行为可以构成复杂的行为模块。同理,利用机器学习算法,可以从用 户行为中推测其身份,例如男生和女生、老年与青年偏好的商品和行为方式存在 别,根据定的用户标记,最后能够预测出用户的基础身份信息。
Maynor
2021-12-07
388
0
[机器学习]机器学习数学基础(三)
大数据
机器学习
神经网络
深度学习
人工智能
开头 大家好,我是程序员manor,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。 暑假打算做一个大数据项目巩固所学知识, 学习的课程是某硅谷的实时推荐和机器
Maynor
2021-12-07
207
0
SparkMllib介绍
spark
python
编程算法
api
机器学习
1-ML算法,包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法 2-特征化:特征抽取、特征转换、特征选择、特征降维 3-管道Pipeline:将数据处理或特征工程的流程按照管道的方式去串联 4-持久化Persistence:保存模型,保存管道 如何理解保存模型? 原因就是不可能每次都去训练模型,而将已经训练好的模型进行保存,保存在本地或hdfs中,在本地或hdfs中加载已经训练好点模型,直接可以做预测分析 5-工具:包括线性代数、统计学、数据处理科学
Maynor
2021-12-07
346
0
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day18】——Spark5
spark
sql
机器学习
神经网络
深度学习
1)粗粒度:启动时就分配好资源, 程序启动,后续具体使用就使用分配好的资源,不需要再分配资源;优点:作业特别多时,资源复用率高,适合粗粒度;缺点:容易资源浪费,假如一个job有1000个task,完成了999个,还有一个没完成,那么使用粗粒度,999个资源就会闲置在那里,资源浪费。 2)细粒度分配:用资源的时候分配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。
Maynor
2021-12-07
211
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档