首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

案例|社区用户行为分析

没想到你竟是这样的! 正好我们也在做网站的数据分析案例,不如就用 Python 来分析下,你这个直男论坛到底是怎样的?...时间:2019.3.16-2019.6.22 (论坛只显示近三个月的帖子) 数据: 板块内容:共 101.4w 个帖子的概要数据 帖子内容:回复数大于 200,浏览数大于 5w 的 4.4w 个帖子...用户页面:29.9w(详细帖子数据中发帖回帖用户),其中 10w 有效数据(剩余 17.6w 未填写,1.4w 填地球) 说明一下,我们这里不可能获取到的全部数据,但作为一个抽样统计已经足够。...从用户注册时间上来看,每年的新增用户都在上涨,2014 和 2017 年是增长较快的两年。 另外我们统计了用户声望和等级的前50排行,声望最高:张佳玮·信陵,等级最高:登等瞪等凳。...词云 最后,我们来看下 JRs 这三个月的帖子中频率最高的词汇是什么(可点击查看大图): ?

1.5K10
您找到你想要的搜索结果了吗?
是的
没有找到

Python实现用命令行看直播

專 欄 ❈陈键冬,Python中文社区专栏作者 GitHub: https://github.com/chenjiandongx ❈ 作为一个加入快 700 天的 JRs,一直都是的铁粉。...喜欢逛绿化街,喔不对,是步行街;喜欢看评论,搬好小板凳,欣赏段子手们的表演,前排偶尔还有出售瓜子和爆米花;喜欢的直播风格,幽默有趣,还能时不时蹦出金句,如上次的詹姆斯一个后撤步,后撤距离达到一个郭敬明...主播们都是被耽误了的作家,且节间中场还经常有福利图,需要定时补营养。毕竟随着身体一阵抽搐,整个帖子也就变得索然无味了。...所以就想来个文字直播命令行版的,不过没有找到手机直播的数据,就只能将就找网页版的文字直播。有点可惜,因为发现网页版的直播语言太正式了,一点都不像我认识的,说好的我的三分剑,是地狱的火焰呢。

1.1K50

社区论坛数据爬虫分析报告

p=4115 一、的官方介绍: 是为年轻男性服务的专业网站,涵盖篮球、足球、F1、NFL等赛事的原创新闻专栏视频报道,拥有大型的生活/影视/电竞/汽车/数码网上交流社区,聊体育谈兴趣尽在...三、论坛分析 1.各版块活跃度分析 在社区由10个分论坛,380个子版块构成,日发帖量达到70W+,其中哪一个最活跃呢?...,的会员都在关注些什么。...五、分析总结 总体上看,会员以年轻的男性和在校大学生为主,他们喜欢篮球等体育运动,关注NBA,英超等球类联赛;但在步行街社区,他们的话题不仅限于体育,八卦热点,情感咨询等都是他们关注的内容;并且他们每天在停留时间较长...,可以说的内容很好的抓住了目前的用户群体。

90820

利用requests和正则表达式爬取

正则表达式 解释:符合某个模式(规则)的文本 在线测试工具:https://tool.oschina.net/regex 详细的正则表达式规则,可见:http://www.runoob.com/python3.../python3-reg-expressions.html ---- re模块 概述:re为正则表达式提供了很多api,对正则表达式的使用提供了便利。...、re.S:是.匹配包括换行在内的所有字符 方法:match() 参数:正则表达式,待匹配的字符串,修饰符,返回一个SRE.Match对象 代码演示: content = 'Hello World Python3.6...'birthday:19970704' result = re.sub('\d','5',content)#参数:正则表达式,被替换字符串,被修改文本 print(result) ---- 爬取网球员得分榜...首先打开网,切到得分榜页面:https://nba.hupu.com/stats/players/pts 点击下一页,查看得分榜51-100的球员,发现此时链接变成:https://nba.hupu.com

73120

分享:NLP算法有效提升风险内容识别效果,降本提效|博思享会

近日,以《新技术,助力“清朗”、“净网”行动》为主题的博思享会,于博科技总部举办。...活动汇聚了来自上海市信息安全测评认证中心、社区、宽带山社区、樊登读书的内容安全专家、负责人,共同围绕技术与内容生态的平衡进行探索。...在本次博内容安全主题思享会中,来自社区的技术总监郑中业,结合在多年从事内容生态工作的经验,就扑在内容生态治理上的发展历程、技术投入、审核流程,以及与博合作后取得的效果等方面做了精彩的干货分享...视频内容 演讲分享·keymessage 01|足球点阵式体系 的内容生态体系好比一个足球队,巡查、人审、机审构成后卫、中场与前锋,而模型作为技术基础承载了重要作用 02|“好人卡”提效降本 对用户进行精准画像...” 巡查环节将审核流程当做“黑盒子”,去评估审核质量、流程漏洞和安全漏放等问题,从而完善审核机制 04|“投毒”测试 对问题内容进行“投毒”模拟测试,提升审核的感知度和敏感度 05|小提升,大进步 与博合作至今

75620

融资6.18亿元 官网域名超吸睛

近日完成新一轮6.18亿融资,领投方是“国家队”中金公司。...在过去的两年,低调的也依托着海量互联网用户,在电商变现,体育IP开发,以及产业投资上三方面取得了飞速进步,初步完成了互联网体育生态的布局。   ...在域名升级道路上,做的可谓是十分不错,之前的官网使用组合域名hoopchina.com,后来转而启用简短的双拼hupu.com,这个域名是扑在2012年从58同城姚劲波手中收购而来的。...虽然相关域名hupu.cn/.com.cn/.net均在他人的手里,不过还保护了hupu.org。   ...未来的,在经历内容、赛事和电商的探索后,将借助资本力量来推动这些商业模式扩大。可以预期的是,一个内容和赛事更加多样的将成为公司未来的方向,而这个方向,或许远无法用“体育社区”来定义。

1.1K60

不懂就问,这波diss吴亦凡属于什么水平?

今天要说的就是上周一个小热点: 大战吴亦凡 作为半个从步行街上走出来的公众号和半个伪嘻哈爱好者,尘埃落定之后,出来打个圆场。...相关代码已上传,获取代码请在公众号(Crossin的编程教室)回复 由于篇幅所限,本文只展示结论和思路。如果想听详细的代码分析,请在文章右下角点个赞,人多的话我就另开一篇详细说明。...对此次掐架进行的分析数据来源: 因为无法查看太早的帖子,所以此案例的数据截取了步行街栏目 7月25日下午3点 到 8月2日下午四点半 左右的帖子。...话题内容: 从词频来看,、吴亦凡平分秋色,skr 无疑成最大赢家。...以上就是对此次热点的粗浅分析。不算很细致很精确,但足够给练习数据分析的同学参考。

58030

刷个,还能刷到自己?-「编程杂感」第 6 期

本文概览(你可以选择自己感兴趣的部分阅读): 思考: 避免货物崇拜编程 复习计算机网络的一点感触 快速阅读的秘诀 工具/网站推荐 一个高质量的编程导航 AI 人工智能图片放大 趣事:刷个,还能刷到自己...趣事 刷个,还能刷到自己? 这个事情感觉蛮好笑的。我自己是不玩的哈,是一位读者在看篮球赛的时候刷到了我。 ? 在我的印象中,就是一个偏篮球、游戏以及数码的交流圈子。...说明我以后还能去引引流? 其实,看这些人的评论特别是“准备面试,我只看 javaguide!”这句真有点像是我自己找人发的。 不过,真心不是。我真还没有干过这种羞耻的事情,未来也不会干这种事。

45220

openinstall与达成合作,挖掘体育文化产业数据价值

图片近日,openinstall与国内体育文化产业知名独角兽企业达成合作。openinstall将依托六年来在App渠道数据统计领域的技术积累和服务经验,帮助分析渠道价值、提升用户体验。...多个话题区构成的社区App——App。...图片目前活跃用户数达8000万以上,其中App承载了移动端的主要流量,是JRs(用户的简称)必备的社区软件。...关于扑虎成立于2004年,是以体育赛事和日常生活为主的专业直文化社区网站,截至2020年5月,用户数已超过1亿,活跃用户数达8000万。...旗下拥有大型体育互联网平台体育网以及App,经过十多年的发展与积累,已发展为由技术推动媒体、电商、自有赛事、投资四大业务板块联动的产业领军企业,并在各领域成功孵化出得物、识货、路人王、芽等知名衍生品牌

75720

数据分析篇 | 一个社区数据分析实战

没想到你竟是这样的! 正好我们也在做网站的数据分析案例,不如就用 Python 来分析下,你这个直男论坛到底是怎样的?...时间:2019.3.16-2019.6.22 (论坛只显示近三个月的帖子) 数据: 板块内容:共 101.4w 个帖子的概要数据 帖子内容:回复数大于 200,浏览数大于 5w 的 4.4w 个帖子...从用户注册时间上来看,每年的新增用户都在上涨,2014 和 2017 年是增长较快的两年。 另外我们统计了用户声望和等级的前50排行,声望最高:张佳玮·信陵,等级最高:登等瞪等凳。...词云 最后,我们来看下 JRs 这三个月的帖子中频率最高的词汇是什么(可点击查看大图): ?...

2.5K30

4种主流评论功能设计:最悬疑,豆瓣最人性

本文参考了豆瓣、360手机助手、豌豆荚、网易新闻、网易云音乐、体育等客户端,总结了几种目前常用的评论结构,本文只谈及评论的结构,不涉及评论本身的内容以及评分系统的设计。...相比之下,体育客户端使用的截取式评论的显示方式貌似更加合理,阅读起来更加顺畅: ?...说到,提一个体育客户端评论区的小设计,当一条评论被踩的次数过多的时候,就会被隐藏(如下图),但评论内容还在,只需要点击一次就能显示出来,这个设计不知是不是有意为之,反正我每次看见都会忍不住点开看下...除了、网易云音乐之外,豆瓣影评的评论,使用的也是截取式评论,我前面说过,豆瓣不同地方使用了不同的评论结构,这种方式可能加大了开发量,但是根据不同的业务使用更合理的显示方式,这也是产品经理的技能之一。

3.3K60

GitHub上3k+star的python爬虫库你了解吗?详解MechanicalSoup爬虫库

提起python爬虫,大家想起的是requests还是bf4或者是scrapy?但是有一款爬虫库在GitHub上已经拿了3k+的小星星,那就是MechanicalSoup: ?...MechanicalSoup/MechanicalSoup 代码详解MechanicalSoup 我们将分两个案例详解是怎样通过MechanicalSoup实现网页内容获取和网站交互,首先看第一个爬取热帖...我们先打开社区首页,可以看到有几个帖子是红色标题,现在想把这几个帖子的标题爬下来并保存。...首先创建一个浏览器实例: import mechanicalsoup browser = mechanicalsoup.StatefulBrowser() 现在我么在浏览器的实例中打开bbs的网站,...提示200表示OK访问成功 browser.open('https://bbs.hupu.com/') 我们的浏览器实例现在位于bbs主页。

70430

GitHub上3k+star的python爬虫库你了解吗?详解MechanicalSoup爬虫库

开始正文: 提起python爬虫,大家想起的是requests还是bf4或者是scrapy?但是有一款爬虫库在GitHub上已经拿了3k+的小星星,那就是MechanicalSoup: ?...MechanicalSoup/MechanicalSoup 代码详解MechanicalSoup 我们将分两个案例详解是怎样通过MechanicalSoup实现网页内容获取和网站交互,首先看第一个爬取热帖...我们先打开社区首页,可以看到有几个帖子是红色标题,现在想把这几个帖子的标题爬下来并保存。...首先创建一个浏览器实例: import mechanicalsoup browser = mechanicalsoup.StatefulBrowser() 现在我么在浏览器的实例中打开bbs的网站,...提示200表示OK访问成功 browser.open('https://bbs.hupu.com/') 我们的浏览器实例现在位于bbs主页。

93910

从零开始学Python29-K均值聚类

前言 我们接着《从零开始学Python【28】--K均值聚类(理论部分)》一文,继续跟大家分享一下如何借助于Python和R语言工具完成K均值聚类的实战。...本次实战的数据来源于体育(https://nba.hupu.com/stats/players),我们借助于NBA球员的命中率和罚球命中率两个来给各位球员做一次“人以群分”的效果。...首先,我们使用pandas中的read_html函数读取体育网页中的球员数据表,然后再对数据作清洗(主要是数据类型的转换、变量的重命名和观测的删除): 本次一共获得286名球员的历史投篮记录,这些记录包括球员姓名...到此,关于使用Python实现K均值聚类的实战我们就分享到这里,接下来将使用R语言重新复现一遍,希望对R语言熟悉的朋友有一点的帮助。...如下是R语言的复现脚本: 结语 OK,关于使用Python和R语言完成K均值聚类的实战我们就分享到这里。

59250

Python获取NBA历史巨星和现役所有球员生涯数据曲线

1.序 之前用 Python 写过一个自动生成球员职业生涯数据的程序,没想到反响很好,本人也感到很欣慰。很多人问我怎么做的,如何学 python 的,也有提建议说集成到 web 里面的。...科比 2.环境配置 语言:Python3 编辑器:Pycharm web框架:Flask 数据可视化:Pyecharts 项目主目录有个 requirements.txt 文件,里面是项目所需要的依赖包...4.2 爬虫部分 之前程序是抓的扑上面的数据,网有个 bug :每个球员都多了一条 2017 年汇总的数据(不清楚是干什么的),现代码已修正。...而且不支持历史球员数据查询,所以现在加入了一个新网站,代码部分如下: ? 主要涉及到 html 提取技术,之前文章都有介绍,不详说了。

81431
领券