前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hive项目实战系列(1) | 项目创建与上传数据

Hive项目实战系列(1) | 项目创建与上传数据

作者头像
不温卜火
发布2020-10-28 16:09:43
8930
发布2020-10-28 16:09:43
举报
文章被收录于专栏:不温卜火

  此次博主为大家带来的是Hive项目实战系列。

一. 项目需求

统计谷粒影音视频网站的常规指标,各种TopN指标:

  • 1–统计视频观看数Top10
  • 2–统计视频类别热度Top10
  • 3–统计视频观看数Top20所属类别
  • 4–统计视频观看数Top50所关联视频的所属类别Rank
  • 5–统计每个类别中的视频热度Top10
  • 6–统计每个类别中视频流量Top10
  • 7–统计上传视频最多的用户Top10以及他们上传的视频
  • 8–统计每个类别视频观看数Top10

二. 项目

2.1 数据结构

  • 1. 视频表

字段

备注

详细描述

video id

视频唯一id

11位字符串

uploader

视频上传者

上传视频的用户名String

age

视频年龄

视频在平台上的整数天

category

视频类别

上传视频指定的视频分类

length

视频长度

整形数字标识的视频长度

views

观看次数

视频被浏览的次数

rate

视频评分

满分5分

Ratings

流量

视频的流量,整型数字

conments

评论数

一个视频的整数评论数

related ids

相关视频id

相关视频的id,最多20个

  • 2. 用户表

字段

备注

字段类型

uploader

上传者用户名

string

videos

上传视频数

int

friends

朋友数量

int

2.2 上传数据

  • 1. 上传到虚拟机中
1
1
2
2
  • 2. 上传到HDFS中
代码语言:javascript
复制
[bigdata@hadoop002 datas]$ hadoop fs -put guli /
3
3

2.3 ETL原始数据

  通过观察原始数据形式,可以发现,视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清洗操作。即:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频id也使用“&”进行分割。

  • 1. 先粘贴依赖创建好编程环境
代码语言:javascript
复制
    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>RELEASE</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.8.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>jdk.tools</groupId>
            <artifactId>jdk.tools</artifactId>
            <version>1.8</version>
            <scope>system</scope>
            <systemPath>D:/java/jdk-1.8.0/lib/tools.jar</systemPath>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>2.3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin </artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>wordcount.WcDriver</mainClass>
                        </manifest>
                    </archive>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
代码语言:javascript
复制
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
  • 2.ETL之ETLMapper
代码语言:javascript
复制
package com.buwenbuhuo.etl;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class ETLMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    private Text k = new Text();

    private StringBuilder sb = new StringBuilder();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();

        String result = handleLine(line);

        if (result == null) {
            context.getCounter("ETL", "False").increment(1);
        } else {
            context.getCounter("ETL","True").increment(1);
            k.set(result);
            context.write(k, NullWritable.get());
        }
    }

    /**
     * ETL方法,处理掉长度不够的数据,并且把数据形式做转换
     * @param line 输入的行
     * @return 处理后的行
     */
    private String handleLine(String line) {

        String[] fields = line.split("\t");
        if (fields.length < 9) {
            return null;
        }

        sb.delete(0, sb.length());

        fields[3] = fields[3].replace(" ", "");

        for (int i = 0; i < fields.length; i++) {
            if (i == fields.length - 1) {
                sb.append(fields[i]);
            } else if (i < 9) {
                sb.append(fields[i]).append("\t");
            } else {
                sb.append(fields[i]).append("&");
            }
        }

        return sb.toString();
    }
}
  • 3. ETL之ETLDriver
代码语言:javascript
复制
package com.buwenbuhuo.etl;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class ETLDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(ETLDriver.class);

        job.setMapperClass(com.buwenbuhuo.etl.ETLMapper.class);

        job.setNumReduceTasks(0);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}
  • 5. 打包并上传jar包
4
4
5
5
  • 6. 执行ETL
代码语言:javascript
复制
hadoop jar /opt/software/jars/1.jar com.buwenbuhuo.etl.ETLDriver /guli/video /guli/video_etc
6
6
7
7

我们可以看到去除了5000多条数据,保留了74万多条数据。

下面我们看下处理过后的数据:

8
8
9
9

  这样数据看上去就没啥问题了。

现在我们所需要的原始数据就已经全部准备好了,下面我们就可以建表了。

10
10

好了,这次的分享到这里就结束了,下篇开始进行建表

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/05/10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一. 项目需求
  • 二. 项目
    • 2.1 数据结构
      • 2.2 上传数据
        • 2.3 ETL原始数据
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档