首页
学习
活动
专区
工具
TVP
发布

别先生

爱生活,爱工作。
专栏作者
588
文章
1130737
阅读量
64
订阅数
Lucene的全文检索学习
Lucene的官方网站(Apache的顶级项目):http://lucene.apache.org/
别先生
2019-10-13
9190
使用kettle来根据时间戳或者批次号来批量导入数据,达到增量的效果。
1、Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。下载图形化界面的zip包格式的,直接解压缩使用即可。安装部署模式这里不说了,自己可以根据自己的需求安装为单机模式或者集群模式。     Kettle的社区官网:https://community.hitachivantara.com/docs/DOC-1009855       Kettle的下载地址:https://sourceforge.net/projects/pentaho/files/Data%20Integration/ kettle国内镜像下载:http://mirror.bit.edu.cn/pentaho/Data%20Integration/ 2、由于这里只是演示了如何配置通过时间戳和批次号增量的导入数据,所以具体的操作不再叙述,具体的使用自己可以根据需求来使用。
别先生
2018-12-12
3K0
统计各个数据库的各个数据表的总数,然后写入到excel中
1、最近项目基本进入最后阶段了,然后会统计一下各个数据库的各个数据表的数据量,开始使用的报表工具,report-designer,开源的,研究了两天,发现并不是很好使,最后自己下班回去,晚上思考,想着还不如自己做一个,领导下命令,说这个活给你了,你做好给经理就行了。然后就开始不断的做。思路大概如下所示:
别先生
2018-10-09
2K0
Spark的Streaming + Flume进行数据采集(flume主动推送或者Spark Stream主动拉取)
1、针对国外的开源技术,还是学会看国外的英文说明来的直接,迅速,这里简单贴一下如何看: 2、进入到flume的conf目录,创建一个flume-spark-push.sh的文件: [hadoop@sl
别先生
2018-05-16
1.2K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档