前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化

【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化

作者头像
拓端
发布2023-08-31 08:04:46
1910
发布2023-08-31 08:04:46
举报
文章被收录于专栏:拓端tecdat拓端tecdat

原文链接:http://tecdat.cn/?p=8640

数据简介

AI团队正在研究工具,以帮助提高在线评论互动。一个重点领域是研究负面的在线行为,如有害评论(即粗鲁、不尊重或可能使某人离开讨论的评论)。到目前为止,他们已经构建了一系列可用模型。但是当前的模型仍然会出错,并且它们不允许用户选择他们感兴趣的有害评论类型,例如,某些平台可能可以接受亵渎,但不能接受其他类型的有害内容(查看文末了解数据获取方式)。

数据详情

数据格式

csv

字段

id

评论内容

有害的

严重有害的

猥亵

威胁

侮辱

身份_仇恨

大小

67191kb

样本量

159571

数据浏览

以前8行数据为例,我们来预览一下:

变量探索:

总体高频词

有害的高频词

严重有害的高频词

猥亵高频词

词云

点击标题查阅往期内容

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

01

02

03

04

本文中分析的数据分享到会员群,扫描下面二维码即可加群!

点击标题查阅往期内容

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

自然语言处理NLP:情感分析疫情下的新闻数据

R语言自然语言处理(NLP):情感分析新闻文本数据

python用于NLP的seq2seq模型实例:用Keras实现神经机器翻译

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

适用于NLP自然语言处理的Python:使用FacebookFastText库

用于NLP的Python:使用Keras进行深度学习文本生成

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

python在Keras中使用LSTM解决序列问题

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力消耗数据

在Python中使用LSTM和PyTorch进行时间序列预测

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 拓端数据部落 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 原文链接:http://tecdat.cn/?p=8640
    • 本文中分析的数据分享到会员群,扫描下面二维码即可加群!
    相关产品与服务
    NLP 服务
    NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档