首页
学习
活动
专区
工具
TVP
发布

Duncan's Blog

专栏作者
50
文章
48404
阅读量
15
订阅数
Flink学习记录
Flink笔记 1.数据集类型 有界数据集:具有时间边界,在处理过程中数据一定会在某个时间范围内起始和结束。提供DataSet API 无界数据集: 数据从一开始就一直持续产生的。提供DataStream API 2.Flink编程接口 Flink SQL Table API:在内存中的DataSet和DataStream基础上加上Schema信息,将数据类型抽象成表结构 DataStream API和DataSet API Stateful Stream Process API 3.程序结构 设定运行环境
DuncanZhou
2020-01-21
5150
python-MPI安装命令
Step2:sudo apt-get install openmpi-bin</br>
DuncanZhou
2020-01-21
7900
pyspark记录
1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)
DuncanZhou
2020-01-21
9580
python构建小顶堆
近日实验中需要用到小顶堆,记录下来,便于日后参考. 123456789101112131415161718192021 import heapq# 定义一个小顶堆class MinHeap(object): # 允许传入tuple,按照第二个元素比较 def __init__(self, initial=None, key=lambda x:x[1]): self.key = key if initial: self._data = [(key
DuncanZhou
2020-01-21
8320
Redis学习
使用场景对比:set 存储单个大文本非结构化数据,hset 则存储结构化数据,一个 hash 存储一条数据,一个 filed 则存储 一条数据中的一个属性,value 则是属性对应的值。
DuncanZhou
2020-01-21
3980
pip安装包更换pypi源
使用豆瓣源 sudo pip install #package -i http://pypi.douban.com.simple —trusted-host pypi.douban.com
DuncanZhou
2020-01-21
4870
P问题/NP问题/NP-Hard问题/NP-Complete问题
近日,论文中涉及到NP-Hard问题,写下笔记对以上问题进行区分. P问题:在多项式时间内可以求解的问题. NP问题:在多项时间内不能求解,在多项式时间内可以验证的问题. NP-Hard问题:所有的NP问题在多项式时间内可以归约到该问题,该问题为NP-Hard问题. NP-Complete问题:一个问题即是NP-Hard问题,同时又是NP问题.
DuncanZhou
2020-01-21
1.2K0
在非root用户下安装mpi4py
安装mpi4py所需要的依赖包(python2.7版本/Cpython/Openmpi) 1.源码包安装Python2.7版本
DuncanZhou
2020-01-21
9720
判断无向图是否是一颗树
这是一个基本概念,且很重要,记录一下. 树的定义:用图的知识来表示即为,无环的连通图或者边数等于顶点数减1. 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970 package questionCheckisTree;import java.util.Scanner;/** * Created
DuncanZhou
2020-01-21
4650
neo4j官方开发文档阅读记录
neo-4j由两部分组成:relationship,label和property,label或者relationship中包含property,label与label之间形成关系.
DuncanZhou
2020-01-21
6170
python与neo-4j交互(对py2neo包做的笔记)
1.连接数据库(三种方式相等) 123 graph_1 = Graph()graph_2 = Graph(host="localhost")graph_3 = Graph("http://localhost:7474/db/data") 2.事务操作 a)直接返回结果 1 graph.data("MATCH (a:Person) RETURN a.name, a.born LIMIT 4") b)以pandas格式返回结果 1 DataFrame(graph.data("MATCH (a:Pers
DuncanZhou
2020-01-21
4450
Spark笔记
基础版:https://tech.meituan.com/2016/04/29/spark-tuning-basic.html
DuncanZhou
2020-01-19
4180
Scala笔记
Scala笔记 1.四种操作符的区别和联系 :: 该方法成为cons,表时构造,向队列头部加入元素。x::list表示向list头部加入元素。(列表构造: 12::1::2::"bar"::"foo" 表示List[Any]= (2,1,2,bar,foo) :+和+:表示分别在尾部加入元素和在头部加入元素。 ++ 表示连接两个集合 ::: 该方法只能用于连接两个list类型的集合 2.日期操作(经常用到,所以记录下) 获取今天0点时间戳 12val dateFormat = new Si
DuncanZhou
2020-01-19
3640
数据挖掘整理
2.1数据清洗:填写缺失值、光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据
DuncanZhou
2018-09-04
5600
IV值和WOE值记录
1)用途:评价特征或变量的预测能力。类似的指标还有信息增益 、增益率和基尼系数等
DuncanZhou
2018-09-04
2.4K0
Hive SQL 学习
example: 一个班有学生id,成绩,班级,现在将学生根据班级按照成绩排名。(partition by)
DuncanZhou
2018-09-04
1.2K0
模型记录
用bootstrap自助法生成m个训练集,对每个训练集构造一颗决策树,在节点找特征进行分裂的时候,并不是对所有特征找到使得指标(如信息增益)最大的,而是在特征中随机抽取一部分特征,在抽取到的特征中找到最优解,进行分裂。模型预测阶段就是bagging策略,分类投票,回归取均值。
DuncanZhou
2018-09-04
4750
pyspark记录
1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)
DuncanZhou
2018-09-04
1.3K0
超参的搜索方法整理
网格搜索通过查找搜索范围内的所有的点,来确定最优值。它返回目标函数的最大值或损失函数的最小值。给出较大的搜索范围,以及较小的步长,网格搜索是一定可以找到全局最大值或最小值的。
DuncanZhou
2018-09-04
1.9K0
推荐算法
算法分类 1.基于内容 / 用户的推荐 更多依赖相似性计算然后推荐 基于用户信息进行推荐 基于内容 、物品的信息进行推荐 2.协同过滤 需要通过用户行为来计算用户或物品见的相关性 基于用户的协同推荐: 以人为本 | 小张 | 产品经理、Google、增长 | | —— | ———————————— | | 小明 | 产品经理、Google、比特币 | | 小吴 | 比特币、区块链、以太币 | 这是一个用户关注内容的列表,显然在这个列表中,小张和小明关注的内容更为相似,那么可以给小张推荐比特币。
DuncanZhou
2018-09-04
1.6K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档