Duncan's Blog

37 篇文章
15 人订阅

全部文章

DuncanZhou

数据挖掘整理

2.1数据清洗:填写缺失值、光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据

1023
DuncanZhou

IV值和WOE值记录

1)用途:评价特征或变量的预测能力。类似的指标还有信息增益 、增益率和基尼系数等

1352
DuncanZhou

Hive SQL 学习

example: 一个班有学生id,成绩,班级,现在将学生根据班级按照成绩排名。(partition by)

922
DuncanZhou

模型记录

用bootstrap自助法生成m个训练集,对每个训练集构造一颗决策树,在节点找特征进行分裂的时候,并不是对所有特征找到使得指标(如信息增益)最大的,而是在特征中...

521
DuncanZhou

pyspark记录

1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”par...

962
DuncanZhou

超参的搜索方法整理

网格搜索通过查找搜索范围内的所有的点,来确定最优值。它返回目标函数的最大值或损失函数的最小值。给出较大的搜索范围,以及较小的步长,网格搜索是一定可以找到全局最大...

1532
DuncanZhou

推荐算法

1353
DuncanZhou

求最优解算法学习

本篇主要记录三种求最优解的算法:动态规划(dynamic programming),贪心算法和平摊分析.

1371
DuncanZhou

四则运算表达式求值

822
DuncanZhou

JAVA虚拟机了解

1.JDK(Java Developmen Kit):将Java程序设计语言,Java虚拟机和Java API类库这三部分统称为JDK.

952
DuncanZhou

Personalized Search泛读记录

搜索在20年前就已出现在互联网,而如今搜索已经无处不在。传统的搜索像这样,用户给出Query,Query中包含1个或多个关键词,搜索引擎通过关键词去检索返回查询...

542
DuncanZhou

社交网络中抽取有代表性的用户

将用户以各个属性构建向量,以向量之间的距离来定义人物之间的代表性. 以Twitter社交拓扑为例,当A用户关注了B用户,将会有A指向B的一条有向边,

1042
DuncanZhou

天池-半导体质量预测

1) 提取特征后,xgboost的mse为0.0325341683406 2) 单个随机森林的5折交叉验证的平均mse为0.0288353227614 (max...

622
DuncanZhou

Twitter用户数据Profiling

传统的数据摘要包括data exploration/data cleansing/data integration.而之后,data management和bi...

873
DuncanZhou

NP-Hard问题(重点关注k-median问题)

启发式搜索在状态空间中对每一个要搜索的位置按照某种方式进行评估,得到最优的位置,再从这个位置进行搜索直到达到目标.常用的启发式算法包括:禁忌搜索/遗传算法/进化...

854
DuncanZhou

在非root用户下安装mpi4py

安装mpi4py所需要的依赖包(python2.7版本/Cpython/Openmpi) 1.源码包安装Python2.7版本

791
DuncanZhou

Personalized Search论文阅读笔记

论文中首先总结了之前的工作中对用户和资源的profile构建的方法,用户和资源的profile的tag的权重计算方法有TF、TF-IDF、BM25,以及用户兴趣...

893
DuncanZhou

Recommendation方向学习

目前推荐上研究的方向有这样几个方向: 1.Temporal Context-Aware Recommendation 2.Spatial Recommendat...

813
DuncanZhou

准确率和召回率及如何提高准确率

精确率 = 提取出的正确信息条数 / 提取出的信息条数 召回率 = 提取出的正确信息条数 / 样本中的信息条数

3682
DuncanZhou

neo4j官方开发文档阅读记录

neo-4j由两部分组成:relationship,label和property,label或者relationship中包含property,label与la...

1191

扫码关注云+社区