当我们的AWS实例启动并运行时,通过发出以下命令在每个主机上创建一个docker容器:
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。本文档主要讲述如何在Redhat中使用源码方式编译安装及配置R的环境。
继之前的文章讲述如何在Redhat中配置R环境和如何在Redhat中安装R的包及搭建R的私有源后,那我们如何使用R连接CDH集群中的Hive和Impala进行数据分析呢?本文档主要讲述如何使用R连接Hive和Impala,并分别通过命令行和CDSW进行演示。
说在前面的话:只适用于完全没有后端知识的纯小白,因为我就是。最开始了解Linux文件系统的目录结构,之后在学习Linux命令行,是比较推荐的学习方法。
Python 安装 linux #!/bin/bash cd ~ mkdir py-env mkdir ~/dev-tools cd ~/dev-tools wget https://www.python.org/ftp/python/2.7.13/Python-2.7.13.tgz --no-check-certificate gunzip -d Python-2.7.13.tgz tar xvf Python-2.7.13.tar cd ~/dev-tools/Python-2.7.13
利用 pw管理文件 【.netrc】(linux 下路径: /home/username , windows下路径:C:\Users\username)
有时候我们直接在终端中执行了命令,等待很长时间后发现还需要很久才能执行完,又不想一直开着终端等待结果,可以按照下面的方式,将前台进程转至后台,并重定向输出内容至文件,以便随时连接回来查看执行状态。
继上一章如何在Redhat中配置R环境后,我们知道对于多数企业来说是没有外网环境的,在离线环境下如何安装R的包,能否搭建R的私有源对R的包进行管理。
当前有很多工具辅助大数据分析,但最受环境的就是Python。Python简单易用,语言有着直观的语法并且提供强大的科学计算和集群学习库。借着最近人工智能,深度学习的兴起,Python成为时下最火的语言,已经超越了Java和C,并且纳入了国家计算机等级考试。本篇文章主要讲述如何在CDH集群基于Anaconda安装包部署Python3.6.1的运行环境,并使用PySpark作业验证Python3环境的可行性。
目前版本的Hive中没有提供类似存储过程的功能,使用Hive做数据应用开发时候,一般有以下两种方法:
CDSW中提供的基础镜像中已有R的环境,但是在真实使用过程中往往需要安装更多R的包。我们在创建一个新的Project时如果使用CDSW基础镜像,每次都需要重新安装需要的依赖包,为了避免大家每次都需要重复安装R的包,这时就需要定制我们自己的Docker。这样在创建新的Project时,如果使用定制过的Docker镜像,就不需要再去安装额外的R依赖包。本文档主要讲述如何基于CDSW基础镜像定制我们自己的Docker镜像。
当前有很多工具辅助大数据分析,但最受欢迎的就是Python。Python简单易用,语言有着直观的语法并且提供强大的科学计算和集群学习库。借着最近人工智能,深度学习的兴起,Python成为时下最火的语言,已经超越了Java和C,并且纳入了国家计算机等级考试。本篇文章主要讲述如何在CDH集群基于Anaconda部署Python3的运行环境,并使用示例说明使用pyspark运行Python作业。
systemd的使用(/etc/systemd/system)大幅提高了系统服务的运行效率, 其优先级高于([/usr]/lib/systemd/system)
在文章中,我们写一个 shell 脚本,它在 crontab 中指定固定时间间隔监控磁盘使用情况,并在报告达到指定的阈值时通过电子邮件发送报告。
在CDH集群中默认使用的MySQL版本是操作系统自带的版本,一般操作系统自带的MySQL版本都会比较低,对于企业已有应用可能会用较新的MySQL版本,使用集群中安装的MySQL时可能会出现SQL不兼容的问题,那么解决方法一是在集群中安装新版本的MySQL,二是升级集群中老版本的MySQL。本文主要选择第一种方法在集群中安装新版本的MySQL,在RedHat6安装时会遇到mysql-community-libs包冲突的问题,卸载冲突包时会将cloudera-manager-agent包也卸载导致Agent异常,在RedHat7安装时会自动更新mysql-community-libs依赖包,本文档主要讲述基于RedHat7.2系统的CDH集群中的非元数据库节点安装MySQL5.7.12。
ec2 aws主机,sudo -i 切换用户到root 修改了一个ec2-user目录下的模板文件。纯手贱执行了一下:
在前面的文章Fayson介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》,由于Cloudera暂未将Livy服务打包集成到CDH,所以需要我们自己编译安装,本篇文章主要介绍如何通过Maven编译Livy并在非Kerberos环境的CDH集群中安装。
原因不明。server有两套环境,DEV,Stage,chdir分别绝对路径和相对路径。
注意:Fayson的github调整为:https://github.com/fayson/cdhproject,本文的代码在github中也能找到。
在CDH集群中启用了Kerberos服务后,通过zookeeper-client登录Kerberos删除服务的注册信息时报“Authentication isnot valid”,具体操作及异常信息如下。Fayson这里已经使用fayson用户kinit后操作的,当然即使用hive的keytab文件kinit后也会报同样的错。
在管理多个 Kubernetes 集群时,我们通常需要在本地机器上安装 kubectl 工具,并为每个集群配置相应的 kubeconfig 文件。如果手动操作,这个过程会比较繁琐。本文将介绍如何在单机上自动化这个过程,以便更高效地管理多个 K8s 集群。
在CDH集群中启用了Kerberos认证,那么我们的Kafka集群能否与Kerberos认证服务集成呢?本篇文章主要讲述如何通过Cloudera Manager为Kafka集群启用Kerberos认证及客户端配置使用。
Mondoo是一个Cloud-Native安全和漏洞风险管理系统且开箱即用。Mondoo集成了主要的云环境,CI/CD环境和构建工具(如packer)以及资源调配工具Terraform,Ansible和Chef等。
容器技术的一个最佳实践是构建尽可能精简的容器镜像。但这一实践却会给排查问题带来麻烦:精简后的容器中普遍缺失常用的排障工具,部分容器里甚至没有 shell (比如 FROM scratch )。 在这种状况下,我们只能通过日志或者到宿主机上通过 docker-cli 或 nsenter 来排查问题,效率很低,在K8s环境部署应用后,经常遇到需要进入pod进行排错。除了查看pod logs和describe方式之外,传统的解决方式是在业务pod基础镜像中提前安装好procps、net-tools、tcpdump、vim等工具。但这样既不符合最小化镜像原则,又徒增Pod安全漏洞风险。
继上一章讲述如何在CDH集群安装Anaconda&搭建Python私有源后,本章节主要讲述如何使用Pyton Impyla客户端连接CDH集群的HiveServer2和Impala Daemon,并进行SQL操作。
当 Longhorn 卷的文件系统损坏时,Longhorn 无法重新挂载该卷。因此,workload 无法重新启动。
使用如下命令在HDFS的根目录下创建Hive外部表的数据目录/extwarehouse
昨天我们简单介绍了一下Apache Phoenix,请参考Cloudera Labs中的Phoenix。今天我们主要讲述如何在CDH中安装配置Phoenix,并会做一些使用示例。
minikube 创建集群 安装kubelet 添加rpm源 cat << EOF |tee /etc/yum.repos.d/kubernetes.repo [kubernetes] name=Kubernetes baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64/ enabled=1 gpgcheck=1 repo_gpgcheck=0 gpgkey=https://mirrors.aliyun.
Kubernetes 作为云原生时代的操作系统,熟悉和使用它是每名用户的必备技能。本文将介绍一些提高操作 Kubernetes 效率的技巧以及如何打造一个高效的 Kubernetes 命令行终端的方法。
Docker容器启动的时候,如果要挂载宿主机的一个目录,可以用-v参数指定。上面把宿主机的 /home/xxljobwork 目录挂载到容器的 /home/xxljobwork 目录.
Gateway节点又称为客户端节点,通常用作访问Hadoop集群的接口机。它主要会部署一些客户端的配置,脚本命令,比如HDFS的core-site.xml,hdfs-site.xml以及hadoop的操作命令。
选自GitHub 机器之心编译 参与:蒋思源、Smith、吴攀 像 Docker 这样的容器格式和 Kubernetes 之类的容器管理平台正越来越受到人们的欢迎,这不仅仅是因为人们喜欢微服务,出于很多原因,公司的首席信息官和工程高管都乐于接受微服务,他们也会把容器视为他们的混合云战略的关键组成部分。这是因为容器空间(Docker、Kubernetes 和 DC / OS 等)的核心技术、生态系统是全面开源的,这为用户提供了抽象的虚拟化工具。近日,卡尔斯鲁厄理工学院(KIT)的计算机科学学生 Frederi
下载 mkdir ~/dev-tools cd ~/dev-tools #md5=44e19f4134906fe2d75124427dc9b716 curl -O https://pypi.python.org/packages/d4/0c/9840c08189e030873387a73b90ada981885010dd9aea134d6de30cd24cb8/virtualenv-15.1.0.tar.gz 解压 tar xvfz virtualenv-15.1.0.tar.gz 系统默认Pytho
虽然有一些自动化安装的工具,但是功能越多,越专业的工具,可能也需要越高的学习成本,而我们并非专业运维,但是又必须做这些事情的话,不妨选择用 Shell 脚本来完成集群的安装。
前面我写了关于k8s环境部署的几篇文章,k8s部署还是比较麻烦的,所以是有必要考虑一键部署的方案,这里借助ansible playbook来实现k8s环境的一键部署,实现快速部署的目的。关于k8s传统部署详细过程可以参考以下文章:
GIT-SHELL 沙盒绕过(CVE-2017-8386)导致任意文件读取、可能的任意命令执行漏洞。
继上一章介绍如何使用R连接Hive与Impala后,Fayson接下来讲讲如何在CDH集群中提交R的Spark作业,Spark自带了R语言的支持,在此就不做介绍,本文章主要讲述如何使用Rstudio提供的sparklyr包,向CDH集群的Yarn提交R的Spark作业。
链接:https://pan.baidu.com/s/1U3UWaZSA5b5bf3QnR_XZGw 密码:2flw
在前面的文章中Fayson介绍过《如何在CDH集群启用Kerberos》,对于一个启用了Kerberos的正式生产系统,还需要考虑KDC的高可用。而Kerberos服务是支持配置为主备模式的,数据同步是通过kprop服务将主节点的数据同步到备节点。本文主要讲述如何配置Kerberos服务的高可用。
高可用采用的是HAProxy+Keepalived来进行高可用和master节点的流量负载均衡,HAProxy和KeepAlived以守护进程的方式在所有Master节点部署
《Oracle 19c之RPM安装》介绍了在Oracle Linux平台下安装Oracle 19c的过程,其实无论是19c,还是11g,用Oracle Linux会为你省不少的事情,毕竟同为Oracle产品,从推广角度看,肯定会相对其他平台提供更多的便利性,例如提前预安装了需要的Package,设置了信号量,创建了各种账号、路径和权限。
VMware创建7个vm,规格2cpu 2G mem 200G disk,一个NAT网卡
由于众所周知的原因,在国内无法直接访问Google的服务。二进制包由于其下载方便、灵活定制而深受广大kubernetes使用者喜爱,成为企业部署生产环境比较流行的方式之一,Kubernetes v1.13.2是目前的最新版本。安装部署过程可能比较复杂、繁琐,因此在安装过程中尽可能将操作步骤脚本话。文中涉及到的脚本已经通过本人测试。
本篇文章主要介绍如何为Cloudera Manager集成FreeIPA提供的LDAP认证。
在aws ec2上使用root用户登录 aws ec2默认是使用ec2-user账号登陆的,对很多文件夹是没有权限的。如何使用root账号执行命令就是一个问题了。解决办法如下: 1.根据官网提供的方法登录连接到EC2服务器(官网推荐widows用户使用PUTTY连接) 主机:是服务器的Public DNS 端口:22 2.创建root的密码,输入如下命令:sudo passwd root 3.然后会提示你输
对于生产环境,需以高可用的配置安装 Rancher,确保用户始终可以访问 Rancher Server。当安装在Kubernetes集群中时,Rancher将与集群的 etcd 集成,并利用Kubernetes 调度实现高可用。
Centos 下非 Root 安装 Microsoft R Open 作者: Hyacz hyacinth.hao@foxmail.com 2017年8月30日 本教程发布时仅针对 Microsoft R Open 3.4.0 版本测试通过。 写在前面 我们新写的 GWAS 的算法包 MVP 采用了 Microsoft R Open,在我们对计算的优化中 MRO 起到了非常关键的作用。在测试的时候就遇到了在没有 root 权限要安装 MRO 的问题,经过百度、Google 都没有找到较好的方案,研究了
2、安装docker-ce17.03(kubeadmv1.9最大支持docker-ce17.03)
本文介绍有关如何使用AWS EC2+Docker+JMeter创建分布式负载测试基础架构。 完成所有步骤后,得到的基础结构如下:
领取专属 10元无门槛券
手把手带您无忧上云