首页
学习
活动
专区
工具
TVP
发布

木东居士的专栏

专栏成员
222
文章
424482
阅读量
178
订阅数
数据百问系列:“未知”数据该如何处理?
数据百问系列:“未知”数据该如何处理? 0x00 前言 本次讨论的主题是:数据维度分类中,习惯将无法归类或者数据模糊的归为“未知”,那么对于这些未知数据, 我们应该怎么处理呢? 问题: 1、“未知”对
木东居士
2019-09-27
8030
你了解你的数据吗(化神篇):简易特征分析
0x00 前言 对于数据的使用,我们不管是需要了解数据质量、数据口径亦或是数据血缘,最终都将会走向对数据价值的探索上。因此,本篇尝试讨论数据挖掘中的特征分析。 本篇将会以一个具体的例子为主线,讨论一下特征分析的基本流程。 主题和数据是 Kaggle 中的入门级竞赛题《Titanic: Machine Learning from Disaster》。题目背景是预测一个人是否能够从灾难中存活。 0x01 特征总览 先整体看一下我们有哪些数据,给出的数据集如下表,总共 10 个字段,其中 survival 表明该
木东居士
2018-05-25
6000
【Andrew Ng 机器学习】Week 1(一):基本概念和线代基础
0x00 前言 第一周主要讲了四部分内容: 机器学习简介 单变量线性回归的模型和代价函数 单变量线性回归的的梯度下降 线代基础 由于篇幅会比较长,后续的笔记都会按照一些主题将每周的内容分拆成几篇笔记。本篇只有机器学习简介和线性代数两部分。 0x01 机器学习简介 一、什么是机器学习 The field of study that gives computers the ability to learn without being explicitly programmed. 第一个机器学习的定义来自于
木东居士
2018-05-25
4370
聊一聊如何优雅地向程序员提问题
0x00 前言 你是否遇到过抛出了一个问题后,群里突然安静了,或者是大家继续聊其它话题自动忽略你的问题? 你是否遇到过抛出了一个问题后,别人只是随便回你一句,然后再继续追问就不再搭理你了? 你是否遇到过抛出了一个问题后,别人的回答总是答非所问,抓不住你的重点? 如果上面的问题你都没有遇到过,那么恭喜你,不要再浪费时间往下看了,出去耍一耍放松一下吧。 如果遇到过类似的问题,那咱们可以一起继续交流一下这方面的经验。 0x01 抓住对方的心理 要想让别人高质量地回答你的问题,首先是要明白他为什么会回答你
木东居士
2018-05-25
9650
数据仓库概念总结
0x00 前言 整理一些数据仓库中的常用概念。大部分概念不是照搬书上的准确定义,会加入很多自己的理解。 0x01 概念 数据仓库(Data Warehouse) 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 个人理解,数据仓库不单单是一个概念,其实算是对数据管理和使用的一种方法论,它包括了如何合理地收集数据、如何规范的管理数据、如何优雅地使用数据,以及任务调度、数据血统分析等一系列内容。 在大数
木东居士
2018-05-25
1.9K0
不深入而浅出 Roaring Bitmaps 的基本原理
0x00 前言 位图索引被广泛用于数据库和搜索引擎中,通过利用位级并行,它们可以显著加快查询速度。但是,位图索引会占用大量的内存,因此我们会更喜欢压缩位图索引。 Roaring Bitmaps 就是一种十分优秀的压缩位图索引,后文统称 RBM。 压缩位图索引有很多种,比如基于 RLE(Run-Length Encoding,运行长度编码)的WAH (Word Aligned Hybrid Compression Scheme) 和 Concise (Compressed ‘n’ Composable Int
木东居士
2018-05-25
19.7K6
TensorFlow GPU 版安装
0x00 前言 CPU版的TensorFlow安装还是十分简单的,也就是几条命令的时,但是GPU版的安装起来就会有不少的坑。在这里总结一下整个安装步骤,以及在安装过程中遇到的问题和解决方法。 整体梳理 安装GPU版的TensorFlow和CPU版稍微有一些区别,这里先做一个简单的梳理,后面有详细的安装过程。 Python NVIDIA Cuda cuDNN TensorFlow 测试 0x01 安装Python 这里有两种安装的方法: 安装基本的Python环境,需要什么再继续安装。 安装Anaconda,
木东居士
2018-05-25
1.4K0
拉链表是什么
0x00 前言 过了半年时间,对数据仓库的理解又有了一些不同的认识,翻出来之前写的关于拉链表的内容,稍作修改重新发出来。本篇将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。 内容 全文由下面几个部分组成: 先分享一下拉链表的用途、什么是拉链表。 举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在 Hive 的大规模使用,我们会以 Hive 场景下的设计为例)。 分析一下拉链表的优缺点,并对前面的提到的一些内容进
木东居士
2018-05-25
10.3K1
缓慢变化维度
0x00 前言 本文会分享数据仓库中和缓慢变化维度相关的内容。在看之前建议回顾一下和维度建模相关的知识点,可参考数据仓库系列文章。 为什么会分享这个听起来很奇怪的东西?因为站在的笔者的视角中,只要是做数据仓库的小伙伴们,在工作中基本上都会接触和维度建模相关的内容,而谈到维度建模,就少不了会和维度表打交道。我们要谈的就是维度表相关的知识点。 在正式开始之前,先解释一下什么是缓慢变化维度。笔者个人理解,缓慢变化维度其实就是指在维度表中那些会随着时间变化的字段,比如用户基本资料。 注:缓慢是一个相对的概念。与缓慢
木东居士
2018-05-25
2.1K0
漫谈并发和并行:概述
0x00 前言 比较担心自己最终有一天会陷入对各种工具的使用,而忽视了对一些基础知识的学习。因此,开始系列地整理一些知识。 本文关注并发和并行,虽说是漫谈,其实都是看书看知乎看各种文章,理论基本也都是凑出来的。我只是做了搬运工+自己的一丁点理解。 文章结构 概述,大致描述一下并发和并行的区别 摘录了两个关于并行和并发的区别,英语的那一段写的十分好。 列出来了4种并行的架构 放一个c++的多线程的例子 0x01 概述 并发是同一时间应对(dealing with)多件事情的能力!并行是同一时间动手做(doi
木东居士
2018-05-25
8600
Ubuntu安装Opencv记录(附人脸识别和人眼识别例子)
0x00 前言 和朋友聊了一下人眼识别的东西,自己动手来实验一番。 0x01 安装步骤 环境 Ubuntu 14.04 虚拟机 Opencv 3.1.0 下载 官网:http://opencv.org/ 国内的一个下载地址:http://blog.csdn.net/yanzi1225627/article/details/47668021 安装依赖 1 sudo apt-get install build-essential libgtk2.0-dev libavcodec-dev libavfor
木东居士
2018-05-25
1.3K0
Jdbc源码详解(二):获取connection
0x00 前言 上一节分析了jdbc的Driver注册过程,这一节分析一下jdbc是如何获取connection的。 0x01 connection的建立过程 DriverManager.getConnection 做了什么 conn = DriverManager.getConnection("jdbc:mysql://192.168.108.145/test", "root", "root"); 可以看出,getConnection方法返回的是一个Connection对象,在下面的for循环中,会遍历r
木东居士
2018-05-25
2.5K2
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档