首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化

字段 id 评论内容 有害的 严重有害的 猥亵 威胁 侮辱 身份_仇恨 大小 67191kb 样本量 159571 数据浏览 以前8行数据为例,我们来预览一下: 变量探索: 总体高频词...有害的高频词 严重有害的高频词 猥亵高频词 词云 点击标题查阅往期内容 Python中用PyTorch机器学习神经网络分类预测银行客户流失模型 01 02 03 04 本文中分析的数据分享到会员群...的seq2seq模型实例:用Keras实现神经机器翻译 用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类 适用于NLP自然语言处理的Python:使用FacebookFastText...库 用于NLP的Python:使用Keras进行深度学习文本生成 用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类 python在Keras中使用LSTM解决序列问题 Python...对商店数据进行lstm和xgboost销售量时间序列建模预测分析 Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力消耗数据 在Python中使用LSTM和PyTorch进行时间序列预测

19130

入门中文NLP必备干货:5分钟看懂“结巴”分词(Jieba)

Jieba官方提供了Python、C++、Go、R、iOS等多平台多语言支持,不仅如此,还提供了很多热门社区项目的扩展插件,如ElasticSearch、solr、lucene等。...02 实战之高频词提取 高频词一般是指文档中出现频率较高且非无用的词语,其一定程度上代表了文档的焦点所在。针对单篇文档,可以作为一种关键词来看。...在提取高频词时,通过更合理的自定义词典加载,能够获得更佳的效果。当然这里仅仅演示了一篇文档的高频词计算,多篇文档的高频词提取也可按照该思路进行整体统计计算。...关于作者:涂铭,阿里巴巴数据架构师,对大数据、自然语言处理、Python、Java相关技术有深入的研究,积累了丰富的实践经验。...本文摘编自《Python自然语言处理实战:核心技术与算法》,经出版方授权发布。 延伸阅读《Python自然语言处理实战》

6.4K20

Python面试题大全(五):测试、大数据、数据结构、架构

数据结构 222.数组中出现次数超过一半的数字-Python版 223.求100以内的质数 224.无重复字符的最长子串-Python实现 225.通过2个5/6升得水壶从池塘得到3升水 226.什么是...240.列表中有n个正整数范围在[0,1000],进行排序; 241.面向对象编程中有组合和继承的方法实现新的类 大数据 242.找出1G的文件中高频词 243.一个大约有一万行的文本文件统计高频词 244...数据结构 222.数组中出现次数超过一半的数字-Python版 223.求100以内的质数 224.无重复字符的最长子串-Python实现 225.通过2个5/6升得水壶从池塘得到3升水 226.什么是...240.列表中有n个正整数范围在[0,1000],进行排序; 241.面向对象编程中有组合和继承的方法实现新的类 大数据 242.找出1G的文件中高频词 243.一个大约有一万行的文本文件统计高频词 244...245.判断数据是否在大量数据中 架构 Python后端架构演进 这篇文章几乎涵盖了python会用的架构,在面试可以手画架构图,根据自己的项目谈下技术选型和优劣,遇到的坑等。绝对加分

32630

用R语言进行网站评论文本挖掘聚类|附代码数据

比如对于如下的网站评论信息:通过一系列的文本处理和高频词汇的提取,最后结合聚类,我们可以得到如下的可视化结果。...v));     dd=data.frame(word=names(v), freq=v);   index=intersect(dd[,1],colnames(rating))#找到每条记录中拥有的高频词汇...----最受欢迎的见解1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组2.R语言文本挖掘、情感分析和可视化哈利波特小说文本数据3.r语言文本挖掘tf-idf主题建模,情感分析...n-gram建模研究4.游记数据感知旅游目的地形象5.疫情下的新闻数据观察6.python主题lda建模和t-sne可视化7.r语言中对文本数据进行主题模型topic-modeling分析8.主题模型:...数据聆听人民网留言板的那些“网事”9.python爬虫进行web抓取lda主题语义数据分析

22720

Python实现对张小龙3万字演讲分词统计

Python 中有个比较著名的分词库是结巴分词,从易用性来说对用户是非常友好的,但是准确度不怎么好。...这几天发现另外一个库,pkuseg-python,简单易用,跟现有开源工具相比提高了分词的准确率。 于是我想起用张小龙的3万字演讲做下测试。...导入pkuseg from collections import Counter #Counter(计数器)用于追踪值的出现次数 import pprint #pprint模块 提供了打印出任何python...w) counter = Counter(new_text) pprint.pprint(counter.most_common(20)) 打印的结果: 停用词都过滤掉了,但是我们选出来的前20个高频词还是不准确...'公众号'] # seg = pkuseg.pkuseg(user_dict=lexicon) # 加载模型,给定用户词典 text = seg.cut(content) 最后出来的结果前50个高频词是这样的

21420

利用Python来教你通过英语四六级!成功率95%!太牛了!

今天我用 Python 分析了最近 10 年的四六级考试的真题,把里面的单词进行统计,按照降序排序,并做成可视化的图形。...项目环境 语言:Python 3 编辑器:Pycharm 我从网上下载了最近 10 年的四六级考试的真题,都为纯文本 txt 格式的文件。我先把四六级真题单独建了文件夹保存。...关于生成可视化图形,之前有一篇文章专门讲过,没看过的戳这里 Python让你的数据生成可视化图形 ,这篇文章里讲到了 10 种可视化图形的制作方法。今天这篇文章只用柱形图和词云图两种方法。...我们可以看到,六级的真题高频词汇和四级的真题高频词汇排名靠前的都差不多。...话说如果当年我考试前用了强大的 Python 去分析,也许我的六级考试一次就过了呢,哈哈。 鉴于本文的思路,你如果有更多的四六级真题数据也可以加进去,你也可以分析专业八级英语考试出现的高频单词排名。

1.1K20

机器学习(十四) ——朴素贝叶斯实践

看到这个return的内容,感慨一下python的便利性。其把for循环、字符串长度判断、字符串小写用一行全部概括进去。...但是另外也要吐槽一下python的版本问题,书上的是python2,我用的python3,导致文件读取那个内容一开始一直报错。后来才查到python3要用下图的codecs的方式来进行处理。 ?...2、读取rss源 这里用到python的包feedparser。...区别主要有三点:1、数据源来自rss而不是txt文档,这个上面已经有了读取方式;2、这里需要删除高频词汇;3、由于判断的是词频,因此必须要用前面提到的词带模型,而不能用词集模型,即不能仅仅记录每个单词是否出现...其实可以发现这样效果并不是很好,主要原因在于,第一步删除通用词汇,只通过取前30个高频词汇删除,实际这样还不够。

87870

分析周杰伦75775字歌词后,我们用他最爱的词重写了《说好不哭》

然后,我们选取了豆瓣评分最高的《范特西》(9.2)以及《Fantasy Plus》(9.2)两张专辑,统计其中的高频词汇,并与新歌《说好不哭》的高频词进行对比。...为了准确地分析各专辑高频词的特征,我们采用了TF-IDF算法来统计不同专辑、单曲和原声带歌曲的高频词。(具体处理过程请见文末)。 周杰伦之所以迷人,是因为他唱的不仅仅是“情歌”。...对这两张专辑的高频词进行统计,并与《说好不哭》的高频词进行对比,我们试图找出他们之间存在的差异。...爱情是流行音乐最普遍的主题,但从周杰伦各专辑高频词看,他的野心远不止谈论爱情。...在分词基础上,采用TF-IDF加权技术统计每一张专辑相对于语料库的前100-150个高频词;并统计新歌《说好不哭》相对于语料库的前50个高频词,TF-IDF算法认为:如果某个词在一篇文档(新歌 or 某个专辑

63510

回归树模型分析纪录片播放量影响因素|数据分享

纪录片高频词特点 以下是对各个纪实分类下的文本的词频特征的分析。哔哩哔哩网站上最相关的纪录片细分类别是社会和旅游类,该类别的纪录片文本的高频词比较生活化。...下图是对该细分领域的纪录片视频文本进行细分过滤后得到的高频词的词频图。 图中显示了社会和旅游纪录片文本中的12个高频词。...文字是由UP主编辑的,目的是让用户更好地理解视频内容,国家类高频词的出现表明,纪录片内容发生的国家是观众决定是否观看视频的重要决定。...词频分析显示了高频词在纪录片中的分布情况,但不能仅根据词频给出纪录片的选择建议。 播放量的影响因素分析 接下来,我们研究变量对播放量的影响。回归树模型被用来确定自变量对播放量的影响程度。

35240
领券