首页
学习
活动
专区
工具
TVP
发布

Duncan's Blog

专栏作者
50
文章
48049
阅读量
15
订阅数
数据挖掘整理
2.1数据清洗:填写缺失值、光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据
DuncanZhou
2018-09-04
5560
IV值和WOE值记录
1)用途:评价特征或变量的预测能力。类似的指标还有信息增益 、增益率和基尼系数等
DuncanZhou
2018-09-04
2.4K0
Hive SQL 学习
example: 一个班有学生id,成绩,班级,现在将学生根据班级按照成绩排名。(partition by)
DuncanZhou
2018-09-04
1.2K0
模型记录
用bootstrap自助法生成m个训练集,对每个训练集构造一颗决策树,在节点找特征进行分裂的时候,并不是对所有特征找到使得指标(如信息增益)最大的,而是在特征中随机抽取一部分特征,在抽取到的特征中找到最优解,进行分裂。模型预测阶段就是bagging策略,分类投票,回归取均值。
DuncanZhou
2018-09-04
4680
pyspark记录
1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)
DuncanZhou
2018-09-04
1.3K0
超参的搜索方法整理
网格搜索通过查找搜索范围内的所有的点,来确定最优值。它返回目标函数的最大值或损失函数的最小值。给出较大的搜索范围,以及较小的步长,网格搜索是一定可以找到全局最大值或最小值的。
DuncanZhou
2018-09-04
1.8K0
推荐算法
算法分类 1.基于内容 / 用户的推荐 更多依赖相似性计算然后推荐 基于用户信息进行推荐 基于内容 、物品的信息进行推荐 2.协同过滤 需要通过用户行为来计算用户或物品见的相关性 基于用户的协同推荐: 以人为本 | 小张 | 产品经理、Google、增长 | | —— | ———————————— | | 小明 | 产品经理、Google、比特币 | | 小吴 | 比特币、区块链、以太币 | 这是一个用户关注内容的列表,显然在这个列表中,小张和小明关注的内容更为相似,那么可以给小张推荐比特币。
DuncanZhou
2018-09-04
1.6K0
四则运算表达式求值
表达式求值 对于表达式的求值,一般使用中缀表达式转后缀表达式后,对后缀表达式求值,因为对于后缀或者前缀表达式计算,计算的顺序都是唯一的. 中缀表达式转后缀表达式的方法: 1.遇到操作数:直接输出(添加到后缀表达式中) 2.栈为空时,遇到运算符,直接入栈 3.遇到左括号:将其入栈 4.遇到右括号:执行出栈操作,并将出栈的元素输出,直到弹出栈的是左括号,左括号不输出。 5.遇到其他运算符:加减乘除:弹出所有优先级大于或者等于该运算符的栈顶元素,然后将该运算符入栈 6.最终将栈中的元素依次出栈,输出。123
DuncanZhou
2018-09-04
5350
Personalized Search泛读记录
搜索在20年前就已出现在互联网,而如今搜索已经无处不在。传统的搜索像这样,用户给出Query,Query中包含1个或多个关键词,搜索引擎通过关键词去检索返回查询结果。然而,在互联网上存在的资源早已是亿万级,所以仅仅用传统的搜索方法去返回给用户查询结果势必会存在大量用户不需要的结果,根据2007年”Tag recommendations in folksonomies”一文中提出不考虑用户偏好返回的搜索结果中仅有20%-45%是用户想要的,另外,用户所想查找的内容也可能远远不在结果的前列,所以,这类问题的解决需要在传统的搜索方法上考虑context-上下文,即, 简要概括:1.用户搜索返回的结果大量是其所不需要的;2.不同的用户提出同一个关键词,搜索引擎返回的结果都是同样的,而不同的用户使用同一个关键词所想搜索的意图其实可能是不同的. 将(1)用户的行为、习惯、兴趣/历史搜索结果等等;(2)资源上下文(3)任务上下文等因素考虑进去。
DuncanZhou
2018-09-04
7690
天池-半导体质量预测
1) 提取特征后,xgboost的mse为0.0325341683406 2) 单个随机森林的5折交叉验证的平均mse为0.0288353227614 (max_depth=None,n_estimators=160,min_samples_leaf=2,max_features=n_features)
DuncanZhou
2018-09-04
2580
Twitter用户数据Profiling
传统的数据摘要包括data exploration/data cleansing/data integration.而之后,data management和big data analytics也开始出现.
DuncanZhou
2018-09-04
8840
NP-Hard问题(重点关注k-median问题)
启发式搜索在状态空间中对每一个要搜索的位置按照某种方式进行评估,得到最优的位置,再从这个位置进行搜索直到达到目标.常用的启发式算法包括:禁忌搜索/遗传算法/进化算法/模拟退火算法/蚁群算法/人工神经网络等等.
DuncanZhou
2018-09-04
1.6K0
在非root用户下安装mpi4py
安装mpi4py所需要的依赖包(python2.7版本/Cpython/Openmpi) 1.源码包安装Python2.7版本
DuncanZhou
2018-09-04
1.7K0
Personalized Search论文阅读笔记
论文中首先总结了之前的工作中对用户和资源的profile构建的方法,用户和资源的profile的tag的权重计算方法有TF、TF-IDF、BM25,以及用户兴趣和资源相似性的计算方法,但这些方法都存在一定的局限性。 TF方法:对于标注比较频繁或者比较活跃的用户,经常使用某些tag标注。如果使用TF计算tag的权重,那么,对于不经常标注资源的用户,其偏好的标签权重必定比活跃的用户tag小很多。
DuncanZhou
2018-09-04
3410
Recommendation方向学习
目前推荐上研究的方向有这样几个方向: 1.Temporal Context-Aware Recommendation 2.Spatial Recommendation for Out-of-Town Users 3.Location-based and Real-time Recommendation 4.Efficiency of Online Recommendation
DuncanZhou
2018-09-04
5660
准确率和召回率及如何提高准确率
精确率 = 提取出的正确信息条数 / 提取出的信息条数 召回率 = 提取出的正确信息条数 / 样本中的信息条数
DuncanZhou
2018-09-04
7K0
ubuntu下sublime中文输入问题
#include”gtk/gtkimcontext.h” void gtk_im_context_set_client_window (GtkIMContext context, GdkWindow window) { GtkIMContextClass *klass; g_return_if_fail (GTK_IS_IM_CONTEXT (context)); klass = GTK_IM_CONTEXT_GET_CLASS (context); if (klass->set_client_window) klass->set_client_window (context, window); g_object_set_data(G_OBJECT(context),”window”,window); if(!GDK_IS_WINDOW (window)) return; int width = gdk_window_get_width(window); int height = gdk_window_get_height(window); if(width != 0 && height !=0) gtk_im_context_focus_in(context); }
DuncanZhou
2018-09-04
7400
StatisticLearning
1.泛化误差/期望损失(风险函数):是理论模型f(X)关于联合分布P(X,Y)的平均意义下的损失.
DuncanZhou
2018-09-04
5150
记录几个经典模型
2.1 gbdt 的算法的流程? gbdt通过多轮迭代,每轮迭代生成一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练.(弱分类器一般会选择CART TREE - 分类回归树)
DuncanZhou
2018-09-04
7100
ProbabilityTheory
6.相关系数 $\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$
DuncanZhou
2018-09-04
3330
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档