首页
学习
活动
专区
工具
TVP
发布

python3

专栏作者
11919
文章
13922901
阅读量
238
订阅数
beibei_sum_spark(pyt
# -*-coding:utf8-*-# __author__ = 'hash' """ create time:16/7/5 15:42 """ from datetime import datetime, timedelta # os.environ['SPARK_HOME'] = "/Users/play/software/spark"  # 绝对路径 # sys.path.append("/Users/play/software/spark/python") # print os.environ['
py3study
2020-01-14
3470
pyspark修改python版本
You can specify the version of Python for the driver by setting the appropriate environment variables in the ./conf/spark-env.sh file. If it doesn't already exist, you can use the spark-env.sh.templatefile provided which also includes lots of other variables.
py3study
2020-01-13
1.7K0
配置Ipython Nodebook 运
启动启动Ipython Notebook,首先进入Ipython Notebook的工作目录,如~/ipynotebook这个根据实际的情况确定;
py3study
2020-01-13
1.6K0
Apriori算法的python实现
原始链接里的代码是在python2下写的,有的地方我看的不是太明白,在这里,我把它修改成能在python3下运行了,还加入了一些方便自己理解的注释。
py3study
2020-01-10
1.2K0
使用Python写spark 示例
个人GitHub地址: https://github.com/LinMingQiang
py3study
2020-01-10
1.2K0
hbase+python安装部署及操作
安装流程可借鉴此处,同理spark安装也可借鉴此处 具体参考:http://dblab.xmu.edu.cn/blog/install-hbase/
py3study
2020-01-09
1.1K0
CentOS6.5安装python2.7
以前一直用ubantu下的python,ubantu比较卡。自己倾向于使用centos,但默认的python版本太低,所以重新装了一个python和ipython
py3study
2020-01-09
7650
python spark windows
放在D盘 添加 SPARK_HOME = D:\spark-2.3.0-bin-hadoop2.7。
py3study
2020-01-08
4790
spark集群更换python安装环境
ln -s /opt/modules/anaconda3/bin/python /usr/bin/python3 3修改root环境变量 /root/.bashrc /root/.bash_profile 修改hdfs用户环境变量,因为集群操作大多有hdfs用户完成。 su - hdfs ~/.bashrc export PATH="/usr/bin:$PATH" 4修改pyspark2命令 vi /usr/bin/pyspark2 修改spark2-submit命令 vi /usr/bin/spark2-submit 修改PYSPARK_PYTHON这个变量 几个节点都要修改,之后spark更换到新的python,常用的包都有了。
py3study
2020-01-08
7640
python开发sparkSQL应用
vi .bashrc  #添加如下内容 export SPARK_HOME=/opt/spark/current export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip
py3study
2020-01-08
7710
spark入门框架+python
不可否认,spark是一种大数据框架,它的出现往往会有Hadoop的身影,其实Hadoop更多的可以看做是大数据的基础设施,它本身提供了HDFS文件系统用于大数据的存储,当然还提供了MR用于大数据处理,但是MR有很多自身的缺点,针对这些缺点也已经有很多其他的方法,类如针对MR编写的复杂性有了Hive,针对MR的实时性差有了流处理Strom等等,spark设计也是针对MR功能的,它并没有大数据的存储功能,只是改进了大数据的处理部分,它的最大优势就是快,因为它是基于内存的,不像MR每一个job都要和磁盘打交道,所以大大节省了时间,它的核心是RDD,里面体现了一个弹性概念意思就是说,在内存存储不下数据的时候,spark会自动的将部分数据转存到磁盘,而这个过程是对用户透明的。
py3study
2020-01-06
1.4K0
Spark 编程指南 (一) [Spa
每一个运行在cluster上的spark应用程序,是由一个运行main函数的driver program和运行多种并行操作的executes组成
py3study
2020-01-03
2.1K0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档