对于可视化的过程,拿到一份数据,我们首先要做的是进行数据清洗。我在这篇博文:数据清洗的目的,方法
介绍了数据清洗的一个通用步骤。
针对这个通用流程,我们 准备了一份医疗领域 的通用 样例数据,准备进行分析探查以及基本的可视化工作。
我在系列博文中:大数据ETL实践探索(5)---- 大数据ETL利器之 pandas 介绍了pandas 的部分使用。
通过文件加载,我们首先需要将文件中的数据转化为pandas 的dataframe ,
最近单位在研究开源的数据库,说实话他的官方文档真是烂,中文的文档版本滞后,下载个CentOS 7 内核版本还要找半天:Linux downloads (Red Hat family)
yum install https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm
yum install postgresql12
yum install postgresql12-server
# postgresql-12-setup initdb 命令不支持后跟参数设置编码,但是查官网init 又可以,很迷惑
/usr/pgsql-12/bin/postgresql-12-setup initdb
systemctl enable postgresql-12
systemctl start postgresql-12
之前在一些虚机上安装时候发现,如果没有在开始时候指定字符集,那么后来修改会比较麻烦:
强烈建议阅读下文:字符集修改:字符集修改
其中提到,只要locale字符集正确,postgresql 默认字符集就ok ,
修改登录及监听
修改配置文件(非常关键),操作如下:
cd /var/lib/pgsql/data
首先,修改postgresql.conf,将 listen_addresses 这一行的ip地址改为 listen_addresses ='*',代表监听所有端口,如果不改后面会出错。
其次,修改pg_hba.conf,将indent全部改为trust;
另外,pg_hba.conf的#IPv4 local connections 下添加一列:
host all all 0.0.0.0/0 md5 //这是由于每台远程机器的ip都不统一,pgadmin登录的时候ip不一致将无法连接数据
之后重启服务。
修改时区
# 查找配置文件目录
find / -name postgresql.conf
vi /var/lib/pgsql/data/postgresql.conf
# coding:utf-8
from sqlalchemy import create_engine
class connet_databases:
def __init__(self):
'''
# 初始化数据库连接,使用pymysql模块
# MySQL的用户:root, 密码:147369, 端口:3306,数据库:mydb
'''
_host = '39.108.131.88'
_port = 3306
_databases = 'san_jin_sq' # 'produce' #
_username = 'wuzaipei'
_password = 'wuzaipei'
self._connect = r'mysql+pymysql://{username}:{password}@{host}:{port}/{databases}'.format(
username=_username,
password=_password,
host=_host,
port=_port,
databases=_databases)
engine = create_engine(connet_databases()._connect, echo=True)
非结构化数据的可视化,我们可以使用elastic search 配套的kibana 进行可视化 的绘制。
技术调研----BI工具对比及Surperset 之 docker安装与可视化