腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
最新最全的大数据技术体系
专栏成员
举报
751
文章
644455
阅读量
35
订阅数
订阅专栏
申请加入专栏
全部文章(751)
大数据(216)
sql(121)
数据库(111)
编程算法(110)
数据(87)
java(70)
spark(68)
hive(66)
node.js(65)
kafka(51)
hadoop(49)
python(47)
存储(45)
hbase(39)
云数据库 SQL Server(32)
TDSQL MySQL 版(30)
模型(30)
服务(28)
api(27)
物联网(27)
flink(27)
mapreduce(25)
网络安全(25)
数据分析(25)
https(25)
linux(24)
网站(24)
文件存储(22)
yarn(22)
apache(21)
分布式(21)
数据结构(21)
配置(21)
ide(19)
javascript(18)
scala(17)
xml(17)
spring(17)
基础(17)
函数(16)
windows(15)
html(14)
腾讯云测试服务(14)
容器(14)
缓存(14)
设计(14)
jar(13)
maven(13)
http(13)
tcp/ip(13)
数据处理(13)
工程师(13)
机器学习(12)
vue.js(12)
进程(11)
语法(11)
bash(10)
打包(10)
容器镜像服务(10)
数据湖(10)
部署(10)
可视化(10)
统计(10)
json(9)
nosql(9)
微服务(9)
pyspark(9)
oracle(8)
shell(8)
面向对象编程(8)
jdbc(8)
腾讯云开发者社区(8)
gpt(8)
编码(8)
工具(8)
集群(8)
tomcat(7)
nginx(7)
消息队列 CMQ 版(7)
yum(7)
zookeeper(7)
openai(7)
笔记(7)
博客(7)
测试(7)
公众号(7)
系统(7)
php(6)
bash 指令(6)
推荐系统(6)
微信(6)
云计算(6)
bi(6)
flume(6)
table(6)
教程(6)
解决方案(6)
内存(6)
算法(6)
索引(6)
数据接口(6)
对象存储(5)
c++(5)
jsp(5)
unix(5)
人工智能(5)
电商(5)
企业(5)
jdk(5)
mybatis(5)
数据可视化(5)
虚拟化(5)
es(5)
error(5)
mysql(5)
全栈(5)
视频(5)
腾讯(5)
原理(5)
字符串(5)
ajax(4)
云数据库 Redis(4)
mvc(4)
git(4)
github(4)
全文检索(4)
深度学习(4)
专用宿主机(4)
访问管理(4)
日志数据(4)
数据安全(4)
hashmap(4)
二叉树(4)
aop(4)
插件(4)
程序(4)
服务器(4)
镜像(4)
连接(4)
入门(4)
事务(4)
搜索(4)
线程(4)
优化(4)
AI绘画(4)
其他(3)
自动驾驶(3)
servlet(3)
react(3)
jquery(3)
access(3)
搜索引擎(3)
lucene/solr(3)
神经网络(3)
日志服务(3)
游戏(3)
运维(3)
jvm(3)
正则表达式(3)
rpc(3)
sdn(3)
airflow(3)
exception(3)
gateway(3)
join(3)
mq(3)
nested(3)
prompt(3)
redis(3)
set(3)
shuffle(3)
编程(3)
产品(3)
队列(3)
对象(3)
工作(3)
集合(3)
脚本(3)
接口(3)
开发(3)
开发者(3)
论文(3)
排序(3)
日志(3)
软件(3)
同步(3)
需求分析(3)
负载均衡(2)
NLP 服务(2)
c#(2)
regex(2)
css(2)
负载均衡缓存(2)
批量计算(2)
mongodb(2)
serverless(2)
parcel(2)
开源(2)
自动化(2)
ssh(2)
监督学习(2)
rabbitmq(2)
kernel(2)
spring cloud(2)
安全(2)
机器人(2)
系统架构(2)
mvcc(2)
ascii(2)
sdk(2)
迁移(2)
实时etl(2)
数据库管理(2)
app(2)
break(2)
bug(2)
char(2)
com(2)
config(2)
connect(2)
connection(2)
csv(2)
for循环(2)
hdfs(2)
host(2)
list(2)
map(2)
null(2)
pandas(2)
pip(2)
process(2)
pycharm(2)
rdd(2)
select(2)
server(2)
service(2)
time(2)
truncate(2)
version(2)
video(2)
view(2)
word(2)
百度(2)
变量(2)
编译(2)
代理(2)
多线程(2)
工作流(2)
管理(2)
架构(2)
框架(2)
实践(2)
数据存储(2)
数据类型(2)
数学(2)
数组(2)
图表(2)
网关(2)
微信公众号(2)
效率(2)
性能(2)
异步(2)
源码(2)
费用中心(1)
云服务器(1)
内容分发网络 CDN(1)
ruby(1)
bootstrap(1)
ecmascript(1)
android(1)
eclipse(1)
ubuntu(1)
centos(1)
容器服务(1)
云直播(1)
命令行工具(1)
云推荐引擎(1)
DevOps 解决方案(1)
数据备份(1)
o2o(1)
渲染(1)
vr 视频解决方案(1)
express(1)
kubernetes(1)
压力测试(1)
数据迁移(1)
无人驾驶(1)
wordpress(1)
强化学习(1)
spring boot(1)
线性回归(1)
npm(1)
seo(1)
dubbo(1)
jenkins(1)
gradle(1)
scikit-learn(1)
socket编程(1)
lamp(1)
ntp(1)
小程序(1)
网站建设(1)
nat(1)
processing(1)
信息流(1)
任务调度(1)
防火墙(1)
聚类算法(1)
实时监控(1)
Elasticsearch Service(1)
数据集成(1)
大数据存储(1)
汽车(1)
教育(1)
腾讯云(1)
alias(1)
alpha(1)
amqp(1)
apollo(1)
async(1)
backend(1)
between(1)
chat(1)
chatgpt(1)
classnotfoundexception(1)
clickhouse(1)
cloud(1)
cloudera(1)
code(1)
conda(1)
core(1)
count(1)
cpu(1)
data(1)
date(1)
default(1)
dll(1)
docx(1)
drawing(1)
ear(1)
echarts(1)
edge(1)
equals(1)
excel(1)
exec(1)
execution(1)
export(1)
field(1)
fifo(1)
function(1)
geo(1)
having(1)
hibernate(1)
ibatis(1)
import(1)
insert(1)
int(1)
io(1)
it(1)
jetbrains(1)
jetty(1)
key(1)
live(1)
location(1)
matplotlib(1)
meta(1)
model(1)
monitor(1)
packet(1)
partition(1)
path(1)
port(1)
prometheus(1)
ps(1)
queue(1)
regexp(1)
registry(1)
reset(1)
root(1)
rows(1)
runtimeexception(1)
socket(1)
sqoop(1)
ssl(1)
substr(1)
sys(1)
tampermonkey(1)
target(1)
this(1)
thread(1)
timeout(1)
token(1)
txt(1)
types(1)
unique(1)
vim(1)
window(1)
worker(1)
zero(1)
报表(1)
备份(1)
编辑器(1)
遍历(1)
并发(1)
操作系统(1)
产品经理(1)
程序设计(1)
程序员(1)
磁盘(1)
登录(1)
递归(1)
地图(1)
多进程(1)
二进制(1)
二维码(1)
翻译(1)
分页(1)
高可用(1)
工具类(1)
行业(1)
华为(1)
技巧(1)
计算机(1)
加密(1)
监控(1)
客户端(1)
科技(1)
流量(1)
内核(1)
配色(1)
权限(1)
生命周期(1)
事件(1)
实时计算(1)
手机(1)
数据仓库(1)
数据管理(1)
数据结构与算法(1)
数据同步(1)
推送(1)
网络(1)
协议(1)
性能监控(1)
虚拟机(1)
压缩(1)
异常(1)
域名(1)
在线教育(1)
主机(1)
LLM(1)
搜索文章
搜索
搜索
关闭
阿里巴巴大数据之路读书笔记——用户画像的定义
大数据
机器学习
神经网络
深度学习
人工智能
用户画像在阿里巴巴旗下的淘宝网、虾米音乐上都不乏个性化推荐场景,淘宝、天猫平台上的众多商家则需要通过用户调研和产品研发来把握产品的目标人群和人群偏好,从而对用户投其所好。对用户有深刻的理解是网站推荐、企业经营制胜的重要 环。在传统企业中,获取用户的反馈信息耗时长、结果缺失,是个难关。然而 随着大数据热潮的兴起,快速捕捉海量用户行为并精确分析人群偏好等商业信息已经成为可能。作为个性化技术的重要基础,相比于传统企业的购物篮分析、问卷调查,在用户 画像的塑造上具备技术的天然优势。 阿里全域数据提供了足够的数据基础,正是基于用户网购、搜索 娱乐影音等行为的数据洞察,可以利用数据分析辅以算法的视角对用户进行 360 全方位的特征刻画。那么,究竟什么是用户画像?通俗地讲,用户画像即是为用户打上各种各样的标签,如年龄、性别、职业、商品牌偏好、商品类别偏好等。这些标签的数目越丰 ,标签越细化,对用户的刻画就越精准。例如,分析某用户为女性,可能仅仅是将与女相关的服装、个人护理等商品作为推荐结果反馈给该用 户:但若根据用户以往的浏览、交易等行为挖掘出进一步的信息,如用户的地理信息 海南,买过某几类品牌的服装,则可以将薄款的、品牌风格相似的服装 作为推荐结果。一般而言,用户画像可以分为基础属性、购物偏好、 社交关系、财富属性等几大类。对于刻画淘宝网购用户,则应侧重于他们在网购上的行为偏好。下面以用户女装风格偏好为例,讲解该用户标签是如何基于全域数据产出的。购买过淘宝商品的读者对商品详情页都不会陌生,一件商品的关键 特征除了反映在商品图片和详情页中以外,主要可以采集的信息是商品的标题以及参数描述。女装有哪些风格?首先需要将女装行业下的商品标题文本提取出来,对其进行分词,得到庞大的女装描绘词库。然而,淘宝商品的标题由卖家个人撰写,并不能保证其中的词语都与商品风格描述相关。因此,对于所得到的女装描绘词库,首先,需要根据词语权重去除无效的停用词,方法如计算 TF-IDF 值。其次,在女装商品的参数描述中,如果已经包含了一种商品风格,例如“通勤”“韩版”等常见风格,那么通过计算词库中词语与参数描述中风格词的相似度,可以过滤得到女装风格词库,利用无监督机器学习如 LDA 等方法可以计算种风格所包含的词汇及这些词汇的重要性。那么 买家偏好什么风格昵?在淘宝网上,买家拥有浏览、搜索、点击、收藏、加购物车以交易等多种行为,针对每种行为赋予不同的行为强度(比如浏览行为强度弱于交易行为),再考虑该商品的风格元素组成,就能够通过合理的方式获知买家对该风格的偏好程度了。对于这样的商品偏好计算,数据挖掘人员需要仔细分析用户偏好的商品的类型、品牌、风格元素、下单时间,这 系列行为可以构成复杂的行为模块。同理,利用机器学习算法,可以从用 户行为中推测其身份,例如男生和女生、老年与青年偏好的商品和行为方式存在 别,根据定的用户标记,最后能够预测出用户的基础身份信息。
Maynor
2021-12-07
462
0
[机器学习]机器学习数学基础(三)
大数据
机器学习
神经网络
深度学习
人工智能
开头 大家好,我是程序员manor,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。 暑假打算做一个大数据项目巩固所学知识, 学习的课程是某硅谷的实时推荐和机器
Maynor
2021-12-07
223
0
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day18】——Spark5
spark
sql
机器学习
神经网络
深度学习
1)粗粒度:启动时就分配好资源, 程序启动,后续具体使用就使用分配好的资源,不需要再分配资源;优点:作业特别多时,资源复用率高,适合粗粒度;缺点:容易资源浪费,假如一个job有1000个task,完成了999个,还有一个没完成,那么使用粗粒度,999个资源就会闲置在那里,资源浪费。 2)细粒度分配:用资源的时候分配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。
Maynor
2021-12-07
240
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档