首页
学习
活动
专区
工具
TVP
发布

python3

专栏成员
11919
文章
14612848
阅读量
239
订阅数
基于docker快速搭建hive环境
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。
py3study
2020-07-27
4.1K0
基于docker快速搭建多节点Hadoop集群
Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。
py3study
2020-07-27
2.3K0
hadoop3种集群方式
  $>cp /mnt/hdfs/downloads/bigdata/jdk-8u65-linux-x64.tar.gz ~/downlooads
py3study
2020-01-14
5020
hadoop2.7第一个python实例
没有任何基础,第一次跑hadoop实例,遇到不少问题,记录下来以便自查和帮助同样情况的hadoop学习者。
py3study
2020-01-13
5960
Python在HiveQL中的运用
在写HiveQL的时候,往往发现内置函数不够用,Hive支持用户自定义函数UDF,使用Java进行开发。很多时候这显得过于繁重。因而Hive中提供了Transform机制(基于hadoop streaming),这种机制相当于提供了一个脚本程序的入口,因此我们可以很方便的使用shell、perl、python等语言进行开发。
py3study
2020-01-13
1.6K0
配置Ipython Nodebook 运
启动启动Ipython Notebook,首先进入Ipython Notebook的工作目录,如~/ipynotebook这个根据实际的情况确定;
py3study
2020-01-13
1.7K0
使用Python写spark 示例
个人GitHub地址: https://github.com/LinMingQiang
py3study
2020-01-10
1.3K0
hadoop安装(3)
zookeeper和hbase安装 #--hbase是Hadoop的数据库,依赖于zookeeper,默认的hbase自带zookeeper #不是很好用,这里我们自己安装zookeeper 1.下载软件 & 解压软件 zookeeper.apache.org hbase.apache.org $ tar -zxvf zookeeper-3.4.11.tar.gz -C /usr/local $ tar -zxvf hbase-1.3.1.tar.gz -C /usr/loc
py3study
2020-01-09
4260
HADOOP之3节点集群
1.apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译
py3study
2020-01-09
9650
用Python来写MapReduce的实
用Python来写分布式的程序。这样速度快。便于调试,更有实际意义。MapReduce适合于对文本文件的处理及数据挖掘用:
py3study
2020-01-09
3960
Python海量数据处理之_Hadoop
 前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持C++,Python等程序的分布计算。下面以Python为例介绍如何使用Hadoop的MapReduce功能。
py3study
2020-01-09
9960
python开发sparkSQL应用
vi .bashrc  #添加如下内容 export SPARK_HOME=/opt/spark/current export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip
py3study
2020-01-08
7970
1、Python大数据应用——部署Had
简介:目前业界主流存储与分析平台以Hadoop为主的开源生态圈,MapReduce作为Hadoop的数据集的并行运算模型,除了提供Java编写MapReduce任务外,还兼容了Streaming方式,可以使用任意脚本语言来编写MapReduce任务,优点是开发简单且灵活。
py3study
2020-01-07
4780
python调用mrjob实现hadoo
咱们一般写mapreduce是通过java和streaming来写的,身为pythoner的我,
py3study
2020-01-07
9720
Python执行hive sql
该python脚本是用于执行hive脚本的,需要设置hive的可执行环境变量,其实质转化为shell下命令 hive -e 'sql语句’ 的方式执行,然后把结果重定向到控制台显示。注:由于该脚本是直接调用shell中的hive命令,所以需要在安装hive的服务器上执行。
py3study
2020-01-07
4.1K0
Hadoop配置机架感知(python脚
昨天QQ群里提了一个hadoop运行效率分配的问题,总结一下,写个文章。集群使用hadoop-1.0.3
py3study
2020-01-06
6850
Streaming执行Python版Wo
hadoop jar /home/hadoop/hadoop-2.6.0-cdh5.5.2/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh5.5.2.jar  -input /user/hadoop/aa.txt -output /user/hadoop/python_output -mapper "python mapper.py" -reducer "python reducer.py" -file mapper.py -file reducer.py
py3study
2020-01-06
4540
在Hadoop上运行Python脚本
之前已经配置好了Hadoop以及Yarn,可那只是第一步。下面还要在上面运行各种程序,这才是最重要的。
py3study
2020-01-06
4.2K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档