前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言数据分析有意思的小例子:Prince的歌词挖掘 — 1

R语言数据分析有意思的小例子:Prince的歌词挖掘 — 1

作者头像
用户7010445
发布2020-03-03 15:12:21
7070
发布2020-03-03 15:12:21
举报
原文地址

Lyric Analysis with NLP & Machine Learning with R

原文的主要内容

深入挖掘Prince音乐的歌词,通过文本挖掘和探索性数据分析来进一步了解这位伟大艺术家的职业生涯。

原文的内容可以分为三个部分

  • 文本挖掘和探索新数据分析
  • 情感分析和 Topic Modeling with NLP()
  • 机器学习预测分析

对于自己这样一个不太了解音乐的人来说首先提出的问题就是 Prince是谁?

image.png

Prince(1958年6月7日—2016年4月21日),原名普林斯·罗杰斯·内尔森(Prince Rogers Nelson),美国流行歌手、词曲作家、音乐家、演员,以全面的音乐才能,华丽的服装及舞台表演著称。 Prince是位高产的音乐人,至今已发行近40张个人专辑,创作歌曲已超过千首。他精通各类乐器,绝大部分专辑的词曲创作,乐器演奏都由他自己一人包办。同时,Prince颇具实验精神,音乐风格横跨黑白乐界,几乎每次出新专辑都会融合新的音乐元素。上世纪80年代初,他所开创的独特音乐风格,被称为“明尼阿波利斯之声”,影响了许多音乐人。截止2018年,prince专辑销量已经达到1亿3千万张。此外,Prince还以胆大敢为,性格颇为古怪而著称。 Prince获得过1次奥斯卡奖、1次金球奖、7次格莱美奖、6次全美音乐奖、3次全英音乐奖、4次MTV音乐录影带大奖。他也先后在2004年入选美国摇滚名人堂、2006年入选英国音乐名人堂。2004年,《滚石杂志》评选的“100位最杰出艺人”(100 Greatest Artists of All Time),Prince名列第27。 2016年4月21日清晨,流行音乐传奇人物、以多才多艺且多产而闻名的美国歌手“王子”(Prince)纳尔逊,在明尼苏达州派斯里园宅邸辞世,享年57岁。

以上内容来自百度百科。

下面开始数据分析的内容

第一部分:数据预处理

1、读入数据,查看变量,查看数据维度

代码语言:javascript
复制
prince_orig<-read.csv("Taylor/prince_raw_data_1.csv",
                        stringsAsFactors = F,
                        header=T)
names(prince_orig)
dim(prince_orig)

2、 选择用到的变量,包括

  • 歌词文本 text
  • 歌名 song
  • 发行年份 year
  • 专辑 album
  • peak (which shows its placement on the Billboard charts)Billboard上的排名
  • US.Pop 和 US.R.B (peak positions for the US Pop and R&B charts)我理解为另外两个排行榜上的排名
代码语言:javascript
复制
prince<-prince_orig%>%
  select(lyrics=text,song,year,album,peak,
         us_pop=US.Pop,us_rnb=US.R.B)
which(prince$song == "controversy")
glimpse(prince[138,])

3、 查看数据维度

代码语言:javascript
复制
dim(prince)

我用到的数据和原文有些出入少了两行,因为读入原始数据的时候有提示

代码语言:javascript
复制
Warning message:
In scan(file = file, what = what, sep = sep, quote = quote, dec = dec,  :
  EOF within quoted string

我手动删掉了一些内容后,没有了这个警告 4、使用gsub()函数替换掉歌词文本的一些像won't can't等内容

代码语言:javascript
复制
fix.contractions<-function(doc){
  doc <- gsub("won't","will not",doc)
  doc <- gsub("can't", "can not", doc)
  doc <- gsub("n't", " not", doc)
  doc <- gsub("'ll", " will", doc)
  doc <- gsub("'re", " are", doc)
  doc <- gsub("'ve", " have", doc)
  doc <- gsub("'m", " am", doc)
  doc <- gsub("'d", " would", doc)
  doc <- gsub("'s","",doc)
  return(doc)
}
prince$lyrics<-sapply(prince$lyrics,fix.contractions)

5、删除一些特殊字符

代码语言:javascript
复制
removeSpecialChars<-function(x)gsub("[^a-zA-Z0-9]"," ",x)
prince$lyrics<-sapply(prince$lyrics,removeSpecialChars)

6、将字符转化为小写字母

代码语言:javascript
复制
prince$lyrics<-sapply(prince$lyrics,tolower)

7、使用summary()函数查看数据的基本情况

代码语言:javascript
复制
> summary(prince)
    lyrics              song                year         album                peak          us_pop             us_rnb         
 Length:822         Length:822         Min.   :1978   Length:822         Min.   : 0.00   Length:822         Length:822        
 Class :character   Class :character   1st Qu.:1989   Class :character   1st Qu.: 2.00   Class :character   Class :character  
 Mode  :character   Mode  :character   Median :1996   Mode  :character   Median : 7.00   Mode  :character   Mode  :character  
                                       Mean   :1995                      Mean   :15.68                                        
                                       3rd Qu.:1999                      3rd Qu.:19.50                                        
                                       Max.   :2015                      Max.   :88.00                                        
                                       NA's   :495                       NA's   :750                                          
    decade          chart_level          charted         
 Length:822         Length:822         Length:822        
 Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character

从以上结果我们可以看到

  • 这些歌的前后跨度有37年
  • year和peak变量中有一些缺失值

缺失值可以先保留,根据后续的具体分析内容在做处理

8、将年份划分为年代

代码语言:javascript
复制
library(dplyr)
prince<-prince%>%
  mutate(decade=
           ifelse(prince$year%in% 1978:1979,"1970s",
                  ifelse(prince$year %in% 1980:1989,"1980s",
                         ifelse(prince$year %in% 1990:1999, "1990s",
                                ifelse(prince$year %in% 2000:2009, "2000s",
                                       ifelse(prince$year %in% 2010:2015, "2010s", 
                                              "NA"))))))

9、将排名进行处理

  • top10
  • top100
  • 上榜
  • 没上榜
代码语言:javascript
复制
prince <- prince %>%
  mutate(chart_level = 
           ifelse(prince$peak %in% 1:10, "Top 10", 
                  ifelse(prince$peak %in% 11:100, "Top 100", "Uncharted")))
prince <- prince %>%
  mutate(charted = 
           ifelse(prince$peak %in% 1:100, "Charted", "Uncharted"))

至此数据预处理就完成了,将结果保存到文件中

代码语言:javascript
复制
write.csv(prince,file="prince_new.csv",row.names = F,quote = F)
第二部分:对数据进行一些简单的可视化

1、柱形图展示不同的年代发行的歌曲数量

代码语言:javascript
复制
df1<-prince%>%
  filter(decade !="NA")%>%
  group_by(decade,charted)%>%
  summarise(number_of_songs=n())
dim(df1)
head(df1)
library(ggplot2)
ggplot(df1,aes(x=decade,y=number_of_songs))+
  geom_bar(aes(fill=charted),stat="identity")+
  theme_bw()+
  scale_fill_manual(values=c("#E69F00", "#56B4E9"))

image.png 从上图可以清楚的看到发布歌曲最多的是90年代

2、柱形图展示上榜歌曲的数量

代码语言:javascript
复制
df2<-prince%>%
  filter(peak>0)%>%
  group_by(decade,chart_level)%>%
  summarise(number_of_songs=n())
ggplot(df2,aes(x=decade,y=number_of_songs))+
  geom_bar(aes(fill=chart_level),stat="identity")+
  theme_bw()+
  scale_fill_manual(values=c("#009E73", "#CC79A7"))

image.png

从上图可以看出,Prince上榜的歌曲中绝大部分都排到了前10名。一个比较有意思的现象是Prince最高产是在90年代,然而歌曲上榜数量最多是在80年代。为什么会出现这个现象,这里先卖个小关子。 3、看一看在排行榜上排到第一名的都是哪些歌

代码语言:javascript
复制
library(knitr)
install.packages("kableExtra")
library(kableExtra)
install.packages("formattable")
library(formattable) 
prince %>%
  filter(peak == "1") %>%
  select(year, song, peak) %>%
  arrange(year) %>%
  mutate(year = color_tile("lightblue", "lightgreen")(year)) %>%
  mutate(peak = color_tile("lightgreen", "lightgreen")(peak)) %>%
  kable("html", escape = FALSE, align = "c", caption = "Prince's No. 1 Songs") %>%
  kable_styling(bootstrap_options = 
                  c("striped", "condensed", "bordered"), 
                full_width = FALSE)
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 下面开始数据分析的内容
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档