1 从mysql读数据到hdfs:
mapreduce读数据库数据到hdfs使用map读取,连接数和map数对应,读的时候会锁表读取全量数据,此时,其它更新或者写入操作就会处于等待状态。所以读的数据库尽量不能为主库,而是用从库,主库主要负责写,从库主要负责读。若锁表读取主库全量数据,其它业务操作就会处于等待状态。
2 从hdfs写入数据到mysql:
mapreduce从hdfs写数据到数据库,连接数对应reduce数据量。刚开始将hdfs数据读到数据库机器的内存中,最后通过事物将内存中所有数据写入到数据库。