DuncanZhou

LV1
发表了文章

数据挖掘整理

2.1数据清洗:填写缺失值、光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据

DuncanZhou
其他
发表了文章

IV值和WOE值记录

1)用途:评价特征或变量的预测能力。类似的指标还有信息增益 、增益率和基尼系数等

DuncanZhou
其他
发表了文章

Hive SQL 学习

example: 一个班有学生id,成绩,班级,现在将学生根据班级按照成绩排名。(partition by)

DuncanZhou
其他
发表了文章

模型记录

用bootstrap自助法生成m个训练集,对每个训练集构造一颗决策树,在节点找特征进行分裂的时候,并不是对所有特征找到使得指标(如信息增益)最大的,而是在特征中...

DuncanZhou
其他
发表了文章

pyspark记录

1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”par...

DuncanZhou
其他
发表了文章

超参的搜索方法整理

网格搜索通过查找搜索范围内的所有的点,来确定最优值。它返回目标函数的最大值或损失函数的最小值。给出较大的搜索范围,以及较小的步长,网格搜索是一定可以找到全局最大...

DuncanZhou
其他
发表了文章

推荐算法

DuncanZhou
其他
发表了文章

求最优解算法学习

本篇主要记录三种求最优解的算法:动态规划(dynamic programming),贪心算法和平摊分析.

DuncanZhou
编程算法
发表了文章

四则运算表达式求值

DuncanZhou
其他
发表了文章

JAVA虚拟机了解

1.JDK(Java Developmen Kit):将Java程序设计语言,Java虚拟机和Java API类库这三部分统称为JDK.

DuncanZhou
Java编程算法API
发表了文章

Personalized Search泛读记录

搜索在20年前就已出现在互联网,而如今搜索已经无处不在。传统的搜索像这样,用户给出Query,Query中包含1个或多个关键词,搜索引擎通过关键词去检索返回查询...

DuncanZhou
其他
发表了文章

社交网络中抽取有代表性的用户

将用户以各个属性构建向量,以向量之间的距离来定义人物之间的代表性. 以Twitter社交拓扑为例,当A用户关注了B用户,将会有A指向B的一条有向边,

DuncanZhou
机器学习神经网络深度学习AI 人工智能数据分析
发表了文章

天池-半导体质量预测

1) 提取特征后,xgboost的mse为0.0325341683406 2) 单个随机森林的5折交叉验证的平均mse为0.0288353227614 (max...

DuncanZhou
其他
发表了文章

Twitter用户数据Profiling

传统的数据摘要包括data exploration/data cleansing/data integration.而之后,data management和bi...

DuncanZhou
其他
发表了文章

NP-Hard问题(重点关注k-median问题)

启发式搜索在状态空间中对每一个要搜索的位置按照某种方式进行评估,得到最优的位置,再从这个位置进行搜索直到达到目标.常用的启发式算法包括:禁忌搜索/遗传算法/进化...

DuncanZhou
其他

个人简介

个人成就

  • 获得 82 次赞同
  • 文章被阅读 10K 次

扫码关注云+社区

领取腾讯云代金券