首页
学习
活动
专区
工具
TVP
发布

大数据学习笔记

专栏作者
533
文章
735871
阅读量
72
订阅数
Eclipse创建Maven Java8 Web项目,并直接部署Tomcat
(1)先将Dynamic Web Module的勾去掉 (2)将Java版本改为1.8,点击Apply (3)再勾选Dynamic Web Module,点击Apply (4)单击下方出现的Further configuration available,进行设置
程裕强
2022-05-06
2210
Windows下搭建python2和python3双版本环境
http://www.python.org 分别下载并安装 python-2.7.14.amd64.msi python-3.6.5-amd64.exe
程裕强
2022-05-06
5400
MapReduce应用:广告数据分析
整个需求可以分为两个作业 - 统计作业:按天统计报告量 - 排序作业:按照曝光量进行全排序;依赖于前一个作业的输出结果;升序依赖MR的shuffle阶段对key进行升序排序的特征;降序需要重写key的比较器
程裕强
2022-05-06
5700
区块链基础:交易模型解读
UTXO(unspent transaction output)未花费的交易输出,这是比特币交易中核心概念。
程裕强
2022-05-06
7860
Java设计模式之单例模式
一般单例模式口诀:两私一公。 具体说就是私有构造方法、私有静态实例、公开的静态获取方法。
程裕强
2022-05-06
2270
Zookeeper中的分布式一致性协议ZAB
在分布式系统中实现一致性是件困难的事。 Paxos 算法可以较好的解决分布式系统的一致性,但由于复杂,在实际工程上不是很合适。 ZAB(ZooKeeper Atomic Broadcast ) 协议借鉴了 Paxos 的思想,ZAB在Paxos算法上做了重要改造,和Paxos有着明显的不同,以满足工程上的实际需求。
程裕强
2022-05-06
2930
Java IO流处理 面试题汇总
答:输入流就是从外部文件输入到内存,输出流主要是从内存输出到文件。 IO里面常见的类,第一印象就只知道IO流中有很多类,IO流主要分为字符流和字节流。字符流中有抽象类InputStream和OutputStream,它们的子类FileInputStream,FileOutputStream,BufferedOutputStream等。字符流BufferedReader和Writer等。都实现了Closeable, Flushable, Appendable这些接口。程序中的输入输出都是以流的形式保存的,流中保存的实际上全都是字节文件。 java中的阻塞式方法是指在程序调用改方法时,必须等待输入数据可用或者检测到输入结束或者抛出异常,否则程序会一直停留在该语句上,不会执行下面的语句。比如read()和readLine()方法。
程裕强
2022-05-06
4930
Java多线程3种实现方式
运行结果如下。由于循环次数较少,可能从运行结果可不到多线程并发运行的消息,多执行几次即可看到类似下面的结果。
程裕强
2022-05-06
1900
ElasticSearch 6.x 学习笔记:30.Java API之全文查询
https://www.elastic.co/guide/en/elasticsearch/client/java-api/6.1/java-full-text-queries.html
程裕强
2022-05-06
2960
ElasticSearch 6.x 学习笔记:26.Java API之文档添加
https://www.elastic.co/guide/en/elasticsearch/client/java-api/6.1/java-docs-index.html
程裕强
2022-05-06
1630
ElasticSearch 6.x 学习笔记:14.mapping参数
官方文档 https://www.elastic.co/guide/en/elasticsearch/reference/6.1/mapping-params.html ElasticSearch提供了丰富的映射参数对字段的映射进行参数设计,比如字段的分词器、字段权重、日期格式、检索模型等等。
程裕强
2022-05-06
1.3K0
ElasticSearch 6.x 学习笔记:12.字段类型
(1)string string类型在ElasticSearch 旧版本中使用较多,从ElasticSearch 5.x开始不再支持string,由text和keyword类型替代。 (2)text 当一个字段是要被全文搜索的,比如Email内容、产品描述,应该使用text类型。设置text类型以后,字段内容会被分析,在生成倒排索引以前,字符串会被分析器分成一个一个词项。text类型的字段不用于排序,很少用于聚合。 (3)keyword keyword类型适用于索引结构化的字段,比如email地址、主机名、状态码和标签。如果字段需要进行过滤(比如查找已发布博客中status属性为published的文章)、排序、聚合。keyword类型的字段只能通过精确值搜索到。
程裕强
2022-05-06
4460
ElasticSearch 6.x 学习笔记:11.映射Mapping
前文已经把ElasticSearch的核心概念和关系数据库做了一个对比,索引(index)相当于数据库,类型(type)相当于数据表,映射(Mapping)相当于数据表的表结构。ElasticSearch中的映射(Mapping)用来定义一个文档,可以定义所包含的字段以及字段的类型、分词器及属性等等。
程裕强
2022-05-06
6630
ElasticSearch 6.x 学习笔记:10.批量操作
如果文档数量非常庞大,商业运维中都是海量数据,一个一个操作文档显然不合实际。幸运的是ElasticSearch提供了文档的批量操作机制。我们已经知道mget允许一次性检索多个文档,ElasticSearch提供了Bulk API,可以执行批量索引、批量删除、批量更新等操作,也就是说Bulk API允许使用在单个步骤中进行多次 create 、 index 、 update 或 delete 请求。
程裕强
2022-05-06
2750
Hadoop基础教程-第8章 Zookeeper(8.5 Zookeeper内存数据库)
ZooKeeper的数据模型是一棵树,而从使用角度看, Zookeeper就像一个内存数据库一样。在这个内存数据库中,存储了整棵树的内容,包括所有的节点路径、节点数据及其ACL信息等,Zookeeper会定时将这个数据存储到磁盘上。 Zookeeper内存数据库是通过ZKDatabase类实现, 内部属性包括dataTree,sessionsWithTimeouts,snapLog,commitedLog。
程裕强
2022-05-06
3190
Hadoop基础教程-第8章 Zookeeper(8.1 Zookeeper介绍)
单点故障(single point of failure),从英文字面上可以看到是单个点发生的故障,通常应用于计算机系统及网络。实际指的是单个点发生故障的时候会波及到整个系统或者网络,从而导致整个系统或者网络的瘫痪。这也是在设计IT基础设施时应避免的。
程裕强
2022-05-06
2070
Hadoop基础教程-第7章 MapReduce进阶(7.1 MapReduce过程)
一般而言,数据文件都会上传到HDFS上,也就是说HDFS上的文件作为MapReduce的输入。已知block块大小是128M(Hadoop 2.x默认的blockSize是128MB,Hadoop 1.x默认的blockSize是64MB)。MapReduce计算框架首先会用InputFormat的子类FileInputFormat类对输入文件进行切分,形成输入分片(InputSplit)。每个InputSplit分片将作为一个Map任务的输入,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。也就是说,InputSplit只是对输入数据进行逻辑上切分,并不会将物理文件切分成片进行存储。
程裕强
2022-05-06
4300
Hadoop基础教程-第6章 MapReduce入门(6.5 温度统计)
《HADOOP权威指南 第3版 》教程中有个经典例子,既是温度统计。作者Tom White在书中写了程序和讲解了原理,认为读者们都会MapReduce程序的基本环境搭建部署,所以这里轻描淡写给带过了,对于初学者来说,这是一个“天坑”,程序跑步起来,也就消磨了Hadoop初学者的兴趣和意志。
程裕强
2022-05-06
4780
Hadoop基础教程-第5章 YARN:资源调度平台(5.1 YARN介绍)
YARN的全称是Yet Another Resource Negotiator,意为另一种资源调度者。 从Apache Hadoop 2.0开始, Hadoop包含 YARN。
程裕强
2022-05-06
3020
Hadoop基础教程-第4章 HDFS的Java API(4.5 Java API介绍)
在4.4节我们已经知道了HDFS Java API的Configuration、FileSystem、Path等类,本节将详细介绍HDFS Java API,一下节再演示更多应用。
程裕强
2022-05-06
3030
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档