腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
小小挖掘机
专栏成员
举报
516
文章
920815
阅读量
237
订阅数
订阅专栏
申请加入专栏
全部文章(516)
编程算法(162)
神经网络(141)
深度学习(138)
机器学习(131)
人工智能(93)
推荐系统(68)
https(59)
python(52)
其他(41)
网络安全(40)
数据分析(31)
强化学习(27)
github(20)
tensorflow(17)
NLP 服务(15)
numpy(15)
决策树(14)
大数据(14)
特征工程(12)
数据挖掘(11)
spark(11)
hive(11)
embedding(11)
ide(10)
开源(10)
sql(9)
git(9)
卷积神经网络(9)
批量计算(8)
监督学习(8)
pytorch(8)
搜索引擎(7)
linux(7)
腾讯云测试服务(7)
http(7)
正则表达式(7)
数据结构(7)
java(6)
matlab(6)
黑石物理服务器(6)
存储(6)
windows(6)
css(5)
数据库(5)
api(5)
线性回归(5)
keras(5)
费用中心(4)
scala(4)
html(4)
jquery(4)
文件存储(4)
知识图谱(4)
游戏(4)
分布式(4)
layer(4)
self(4)
javascript(3)
xml(3)
打包(3)
mapreduce(3)
图像处理(3)
电商(3)
tcp/ip(3)
机器人(3)
系统架构(3)
excel(3)
field(3)
model(3)
prediction(3)
c 语言(2)
c++(2)
json(2)
unix(2)
apache(2)
容器镜像服务(2)
serverless(2)
爬虫(2)
hadoop(2)
markdown(2)
scikit-learn(2)
迁移学习(2)
微服务(2)
腾讯云开发者社区(2)
信息流(2)
label(2)
map(2)
matching(2)
search(2)
task(2)
vi(2)
vr(2)
笔记(2)
编码(2)
公众号(2)
流量(2)
论文(2)
iphone(1)
bash(1)
.net(1)
r 语言(1)
bootstrap(1)
android(1)
云数据库 SQL Server(1)
nosql(1)
jar(1)
ubuntu(1)
bash 指令(1)
日志服务(1)
短视频(1)
机器翻译(1)
mongodb(1)
网站(1)
vr 视频解决方案(1)
yarn(1)
容器(1)
缓存(1)
运维(1)
shell(1)
图像识别(1)
面向对象编程(1)
opencv(1)
openstack(1)
unity(1)
二叉树(1)
scrapy(1)
kernel(1)
uml(1)
数据可视化(1)
架构设计(1)
sas(1)
hbase(1)
云计算(1)
聚类算法(1)
分类算法(1)
flink(1)
学习方法(1)
Elasticsearch Service(1)
智能推荐平台(1)
alignment(1)
amazon(1)
backbone(1)
command(1)
cookie(1)
correlation(1)
decoding(1)
document(1)
dynamic(1)
effects(1)
element(1)
encoding(1)
error(1)
gif(1)
glob(1)
graph(1)
im(1)
image(1)
key(1)
mac(1)
mask(1)
matplotlib(1)
matrix(1)
mean(1)
module(1)
network(1)
next(1)
pdf(1)
png(1)
point(1)
ranking(1)
select(1)
selection(1)
selector(1)
session(1)
sharing(1)
size(1)
spaces(1)
target(1)
theory(1)
time(1)
youtube(1)
编辑器(1)
产品(1)
架构(1)
排序(1)
思维导图(1)
系统(1)
搜索文章
搜索
搜索
关闭
基于Spark的大规模推荐系统特征工程
云数据库 SQL Server
nosql
sql
spark
数据库
导读:特征工程在推荐系统中有着举足轻重的作用,大规模特征工程处理的效率极大的影响了推荐系统线上的性能。第四范式作为国际领先的机器学习和人工智能技术与平台服务提供商,面向大规模特征工程问题开发了下一代离线在线一致性特征抽取引擎FESQL,针对AI场景支持SQL接口,兼容Spark 3.0同时提供高性能的Native执行引擎。本次分享题目为基于Spark的大规模推荐系统特征工程及优化,主要内容包括:
石晓文
2020-09-07
1.2K
0
Spark读取和存储HDFS上的数据
大数据
hadoop
spark
本篇来介绍一下通过Spark来读取和HDFS上的数据,主要包含四方面的内容:将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。
石晓文
2019-12-02
18.4K
1
XGBoost缺失值引发的问题及其深度分析
机器学习
spark
编程算法
存储
java
XGBoost模型作为机器学习中的一大“杀器”,被广泛应用于数据科学竞赛和工业领域,XGBoost官方也提供了可运行于各种平台和环境的对应代码,如适用于Spark分布式训练的XGBoost on Spark。然而,在XGBoost on Spark的官方实现中,却存在一个因XGBoost缺失值和Spark稀疏表示机制而带来的不稳定问题。
石晓文
2019-08-28
1.3K
0
数据分析EPHS(6)-使用Spark计算数列统计值
sql
spark
数据分析
前两篇中咱们分别介绍了使用Excel、Python和Hive SQL计算统计值,这次咱们使用Spark SQL来计算统计值。
石晓文
2019-07-30
1.4K
0
数据分析EPHS(2)-SparkSQL中的DataFrame创建
python
spark
hive
scala
https
本文的开头,咱们正式给该系列取个名字了,就叫数据分析EPHS系列,EPHS分别是Excel、Python、Hive和SparkSQL的简称。本篇是该系列的第二篇,我们来讲一讲SparkSQL中DataFrame创建的相关知识。
石晓文
2019-07-09
1.5K
0
从小白到入门算法,我的经验分享给你~
python
spark
https
网络安全
研究生三年,作为一名非计算机专业的学生,能够从一名纯小白(Python不会,机器学习没听说过)到最后校招拿到几个不错的offer,个人感觉可以给自己打个及格分吧。写本文的目的,一是对自己研究生阶段所学习的知识做一个总结,二是希望对那些刚接触机器学习,准备往这个方向发展的同学们提供一些可借鉴的经验。
石晓文
2019-05-14
789
0
我在美团的这两年,想和你分享
网络安全
https
编程算法
spark
hive
2017.08.14,结束了两周的等待,如愿以偿开始了自己的美团实习生活,本来抱着三五个月走人,争取下一份实习的心态,没想到一直到转为暑期实习生、到通过留用面试、再到年后继续实习,直到今天,我已经在美团度过了615个日夜。这里的人,这里的事,一切都十分美好。
石晓文
2019-05-10
530
0
Spark作业基本运行原理解析!
spark
人工智能
yarn
我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。提交作业的节点称为Master节点,Driver进程就是开始执行你Spark程序的那个Main函数(Driver进程不一定在Master节点上)。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。
石晓文
2018-07-25
1K
0
windows下虚拟机配置spark集群最强攻略!
windows
spark
ubuntu
1、虚拟机安装 首先需要在windows上安装vmware和ubuntu虚拟机,这里就不多说了 vmware下载地址:直接百度搜索,使用百度提供的链接下载,这里附上一个破解码 5A02H-AU243-
石晓文
2018-04-11
1.8K
0
来学习几个简单的Hive函数啦
hive
spark
sql
json
咳咳,今天来介绍一下几个Hive函数吧,先放一张我登哥划水的照片,希望大家也做一只自由的鱼儿,在知识的海洋里游呀游,嘻嘻! 今天我们来介绍几个Hive常用的函数吧! 1、数据介绍 首先我们产生我们的数
石晓文
2018-04-11
1.4K
0
PySpark之RDD入门最全攻略!
spark
分布式
众所周知,Spark的核心是RDD(Resilient Distributed Dataset)即弹性分布式数据集,属于一种分布式的内存系统的数据集应用。Spark主要优势就是来自RDD本身的特性,RDD能与其他系统兼容,可以导入外部存储系统的数据集,例如,HDFS、HBase或者其他Hadoop数据源。 1、RDD的基本运算 RDD运算类型说明转换(Transformation)转换运算将一个RDD转换为另一个RDD,但是由于RDD的lazy特性,转换运算不会立刻实际执行,它会等到执行到“动作”运算,才会
石晓文
2018-04-11
11.1K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档