james大数据架构-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

james大数据架构

高并发分布式负载均衡、Hadoop批处理、Spark流式实时大数据处理架构

专栏成员

241

文章

428595

阅读量

55

订阅数

你必须要了解的大数据潮流下的机器学习及应用场景

大数据机器学习编程算法

　　机器学习是一门人工智能的科学，能通过经验自动改进的计算机算法的研究。　　　机器学习是一个多学科交叉的领域，会涉及到计算机、信息学、数学、统计学、神经科学等。　　机器学习是大数据的核心技术

2018-03-28

1.1K0

零代码如何打造自己的实时监控预警系统

spark 大数据

概要为什么要做监控线上发布了服务，怎么知道它一切正常，比如发布5台服务器，如何直观了解是否有请求进来，访问一切正常。当年有一次将线上的库配置到了Beta，这么低级的错误，排错花了一个通宵，十几个人。某个核心服务挂了，导致大量报错，如何确定到底是哪里出了问题。 SOA带来的问题，调用XX服务出问题，很慢，是否可以衡量？由于业务系统数量大，每天都会产生大量的系统日志和业务日志，单流式业务的一台服务器产生的日志达400M 想直接查看内容打开可能几分钟，而且内容之多根本无法查看，给开发和运维带来诸多不便，

2018-01-22

3.5K0

分布式文件系统FastDFS如何做到高可用

nginx 数据处理大数据分布式

FastDFS是用C语言编写的一款开源的轻量级分布式文件系统。它对文件进行管理，功能包括：文件存储、文件同步、文件访问（文件上传、文件下载）等，解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务，如相册网站、视频网站等等。 FastDFS为互联网量身定制，充分考虑了冗余备份、负载均衡、线性扩容等机制，并注重高可用、高性能等指标，使用FastDFS很容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。与Hadoop有什么区别？　　Hadoop也是一个分布式文件系统，had

2018-01-22

2K0

高可用高性能分布式文件系统FastDFS进阶keepalived+nginx对多tracker进行高可用热备

nginx 分布式大数据

　　在上一篇分布式文件系统FastDFS如何做到高可用中已经介绍了FastDFS的原理和怎么搭建一个简单的高可用的分布式文件系统及怎么访问。　　高可用是实现了，但由于我们只设置了一个group，

2018-01-22

1.8K0

如何开发自己的搜索帝国之ES图形化Kibana安装与使用

大数据机器学习

　　在如何开发自己的搜索帝国之Elasticsearch中已经介绍安装好了ES，下面就Kibana对ES的查询监控作介绍，就是常提到的大数据日志处理组件ELK里的K。　　什么是Kibana?现引用园

2018-01-22

1.7K0

0基础搭建Hadoop大数据处理-集群安装

大数据 hadoop java

　　经过一系列的前期环境准备，现在可以开始Hadoop的安装了，在这里去apache官网下载2.7.3的版本 http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz 　　不需要下载最新的3.0版本，与后续Hive最新版本有冲突，不知道是不是自己的打开方式不对。　 hadoop有三种运行方式：单机、伪分布式、完全分布式，本文介绍完全分布式。安装Hadoop 　　现在有三个机器，一个Mast

2018-01-22

1.2K0

0基础搭建Hadoop大数据处理-编程

大数据 hadoop java

　　Hadoop的编程可以是在Linux环境或Winows环境中，在此以Windows环境为示例，以Eclipse工具为主（也可以用IDEA）。网上也有很多开发的文章，在此也参考他们的内容只作简单的介绍和要点总结。　　Hadoop是一个强大的并行框架，它允许任务在其分布式集群上并行处理。但是编写、调试Hadoop程序都有很大难度。正因为如此，Hadoop的开发者开发出了Hadoop Eclipse插件，它在Hadoop的开发环境中嵌入了Eclipse，从而实现了开发环境的图形化，降低了编程难度。在安装插件

2018-01-22

1.2K0

mysql数据与Hadoop之间导入导出之Sqoop实例

hadoop 大数据云数据库 SQL Server

　　前面介绍了sqoop1.4.6的如何将mysql数据导入Hadoop之Sqoop安装，下面就介绍两者间的数据互通的简单使用命令。显示mysql数据库的信息，一般sqoop安装测试用 sqoop list-databases --connect jdbc:mysql://192.168.2.101:3306/ --username root --password root 显示数据库里所有表: sqoop list-tables --connectjdbc:mysql://192.168.2.101:

2018-01-22

2K0

0基础搭建Hadoop大数据处理-初识

大数据数据处理 hadoop

　　在互联网的世界中数据都是以TB、PB的数量级来增加的，特别是像BAT光每天的日志文件一个盘都不够，更何况是还要基于这些数据进行分析挖掘，更甚者还要实时进行数据分析，学习，如双十一淘宝的交易量的实时展示。大数据什么叫大？4个特征：体量化 Volume，就是量大。多样化 Variety，可能是结构型的数据，也可能是非结构行的文本，图片，视频，语音，日志，邮件等快速化 Velocity，产生快，处理也需要快。价值密度低 Value，数据量大，但单个数据没什么意义，需要宏观的统计体现其隐藏的价值。

2018-01-22

1K0

我是如何处理大并发量订单处理的 KafKa部署总结

大数据分布式

　　今天要介绍的是消息中间件KafKa，应该说是一个很牛的中间件吧，背靠Apache 与很多有名的中间件搭配起来用效果更好哦，为什么不用RabbitMQ，因为公司需要它。　　网上已经有很多怎么用和用到哪的内容，但结果很多人都倒在了入门第一步环境都搭不起来，可谓是从了解到放弃，所以在此特记录如何在linux环境搭建，windows中配置一样，只是启动运行bat文件。　　想要用它就先必须了解它能做什么及能做到什么程度，先看看它是什么吧。　　当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工

2018-01-22

1.8K0

0基础搭建Hadoop大数据处理-环境

数据处理大数据 linux hadoop

　　由于Hadoop需要运行在Linux环境中，而且是分布式的，因此个人学习只能装虚拟机，本文都以VMware Workstation为准，安装CentOS7，具体的安装此处不作过多介绍，只作需要用到的知识介绍。　　VMware的安装，装好一个虚拟机后利用复制虚拟机的方式创建后面几个虚拟机，省时省力，需要注意的是需要修改每个虚拟机的IP与主机名。　　所有虚拟机采用NAT模式上网，而且要保证与物理主机的IP互相能访问。　　需要注意的几个问题。nat如果上网首先需要查看物理机（pc机）这个服务器已经启动

2018-01-22

1.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态