首页
学习
活动
专区
工具
TVP
发布

大数据仓库建设

大数据仓库搭建
专栏成员
78
文章
144688
阅读量
16
订阅数
Linux下ls根据文件大小排序展示
如果想要输入是按照“便于人类阅读的方式”,那么就再加一个-h,表示"–human-readable"。
大数据工程师-公子
2020-06-15
4.2K0
Mac 安装 ApacheFlink + Scala + SBT
flink: https://ci.apache.org/projects/flink/flink-docs-release-1.8/tutorials/local_setup.html
大数据工程师-公子
2019-08-22
1.6K0
LeetCode-262.Trips and Users
原题链接:https://leetcode.com/problems/trips-and-users/
大数据工程师-公子
2019-06-15
5240
LeetCode.601.Human_Traffic_of_Stadium
https://leetcode.com/problems/human-traffic-of-stadium/
大数据工程师-公子
2019-06-15
3940
hive mapjoin 方案
MapJoin 使用限制,必须是join中从表(子查询)数据比较小。所谓从表,及左外连接的右表,或者右外连接的左表。
大数据工程师-公子
2019-03-14
1.3K0
IDEA license server 激活
-- 2017-10-16 -------------------------------------------可用----------------------------------------- http://xidea.online 补充:上述服务器地址不可用的话尝试以下地址: http://idea.shaofan.org http://shaofan.org:8080 http://23.105.214.239:10001 http://idea.liyang.io --------
大数据工程师-公子
2019-03-14
19.9K1
2018-09-27#hive数据检查的常见方式
hive数据检查的常见方式 主键上的数据是否用重复 select phone_segment,count(1) as cnt from dw.dim_phone_segment_info a group by phone_segment having cnt > 1; 对比去重前后的数据量 select count(1), count(distinct phone_num) from dw.dim_phone_profile a; 取每个分组中的唯一一条 drop table temp.zhjq_tmp
大数据工程师-公子
2019-03-14
4360
2018-09-27#hive 表写入数据的方式
hive 表写入数据的方式 少量数据 insert into create table dw.dim_area_code ( country_name string comment "国家名称", country_code string comment "国家代码", province_name string comment "省份名称", city_name string comment "地级市", city_area_code string comment "城市代码", city_zip_c
大数据工程师-公子
2019-03-14
8250
Git 命令思维导图
小白用户基本操作 命令 功能 git checkout -b develop 创建一个名为develop的分支,并切换到该分支 git branch develop 创建一个名为develop的分支 git checkout develop 切换到develop分支 git branch -av 查看所有分支和当前分支 git merge develop 将develop分支合并到当前分支 git status 查看项目状态 git diff 查看修改 git add -A 将新增的文件添加到git追
大数据工程师-公子
2019-03-14
8510
gitbash https git credentials 小乌龟 TortoiseGit 配置备忘
git credentials Docs: https://git-scm.com/docs/gitcredentials
大数据工程师-公子
2019-03-14
9250
hive weekofyear 怪异的姿势
今天在使用hive函数weekofyear的时候遇到一个奇怪的情况,原sql如下:
大数据工程师-公子
2019-03-14
7550
2017-07-20#Hive Analytics Functions : row_number rank over
在做数据分析是,会统计用户访问app不同页面的开始时间,理论上同一个用户访问不同页面的开始时间应该不同。为了排查app端是否存在bug,用到row_number() over () 窗口函数。
大数据工程师-公子
2019-03-14
4200
scala 将异常信息完成输出到日志中
/** * scala 将异常信息完成输出到日志中 * @param e * @param data */ def printStackTraceStr(e: Exception, data: String) = { val sw:StringWriter = new StringWriter() val pw:PrintWriter = new PrintWriter(sw) e.printStackTrace(pw) println("======>>printStackTraceStr Exception: " + e.getClass() + "\n==>" + sw.toString () + "\n==>data=" + data) }
大数据工程师-公子
2019-03-14
1.5K0
jdk版本导致Intellij IDEA编译报错:org/jetbrains/jps/incremental/messages/BuildMessage$Kind
最经安装了Intellij IDEA后,导入之前开发的项目,运行买方法,一直都报同样的错误,还以为是idea的版本问题
大数据工程师-公子
2019-03-14
2.2K0
Spark Hive SQL实例
Spark Hive SQL def initDimFrontCate(sqlContext: HiveContext): mutable.HashMap[String, String] = { var dimValues = new mutable.HashMap[String, String] val sql = s"""select front_cate_id, page_level_id | from dw.dim_fron
大数据工程师-公子
2019-03-14
7160
shell 两个日期之间循环
shell 日期循环 #!/bin/bash if [ $# == 2 ]; then datebeg=$1 dateend=$2 else echo "请输入开始时间和结束日期,格式为2017-04-04" exit 1 fi tStart=$(date +%s) THIS="$0" THIS_DIR=`dirname "$THIS"` cd ${THIS_DIR} beg_s=`date -d "$datebeg" +%s` end_s=`date -d "$
大数据工程师-公子
2019-03-14
1.6K0
Scala File 文件操作
写文件 package com.bi import java.io.{File, PrintWriter} /** * Created by xxx on 2017/6/30. */ object FileHandler { def fileWriter(fileName: String, content: String): Unit = { val writer = new PrintWriter(new File(fileName)) writer.write(co
大数据工程师-公子
2019-03-14
6910
Hive 正则提取英文名称和中文名称
Hive 正则提取英文名称和中文名称 提取英文名称 select regexp_extract("Aptamil 爱他美(德国)",'([A-Z][a-z]*(\\s|$))+', 1); select regexp_extract("Skin 伊思",'(\\w*(\\s|$))+', 1); select regexp_extract("SKIN 伊思",'(\\w*(\\s|$))+', 1); 提取中文名称 select regexp_extract("Aptamil 爱他美(德国)",'(
大数据工程师-公子
2019-03-14
5K0
Amazon AWS 安装 Python 2.7.13
Python 2.7.13 编译安装 下载 Python mkdir ~/dev-tools cd ~/dev-tools wget https://www.python.org/ftp/python/2.7.13/Python-2.7.13.tgz --no-check-certificate 解压 gunzip -d Python-2.7.13.tgz tar xvf Python-2.7.13.tar 编译安装 cd Python-2.7.13 mkdir -p ~/dev/python ##
大数据工程师-公子
2019-03-14
6790
hive-修改hive表字段的注释
修改hive表字段的注释 修改之前 hive> desc dw.fct_user_ctag_today; OK user_id int 用户id user_tag int 精准化新老客标签 rpt_tag int 报表新老客标签
大数据工程师-公子
2019-03-14
4K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档