首页
学习
活动
专区
工具
TVP
发布
您找到你想要的搜索结果了吗?
是的
没有找到

爬虫(103)分析 the girl QQ 空间说说

昨天偷偷取了我们喜欢的 女孩的 QQ 空间说说,千万要把内容保存好了,不要泄露出去了,否则死无葬身之地啊,会被打死的,会被当作无耻之徒的,我都感觉自己罪恶感蹭蹭往上涨了,不过为了喜欢的人,无耻一回也罢...接下来小编就带领大家来教大家如何将昨天的内容进行词云可视化展示,首先需要安装词云库,以及画图的库 from wordcloud import WordCloud import matplotlib.pyplot...as plt import jieba wordcloud 词云库 matplotlib 画图的库 jieba 中文分词库 爬虫(六十九)简明 jieba 中文分词教程(六十) 接着,我们当然需要读取昨天完成之后的数据...qq_word.txt 这个文件 text= open("{}".format(filename), encoding='UTF-8').read() jieba 分词 # 结巴分词 wordlist...plt.show() wc.to_file('py_book.png') # 把词云保存下 if __name__ == '__main__': create_word_cloud('qq_word.txt

1.5K20

爬虫篇|动态QQ说说并生成词云,分析朋友状况

今天我们要做的事情是使用动态爬虫QQ空间说说,并把这些内容存在txt中,然后读取出来生成云图,这样可以清晰的看出朋友的状况。 这是好友的QQ空间10年说说内容,基本有一个大致的印象了。 ?...动态内容 因为动态页面的内容是动态加载出来的,所以我们需要不断下滑,加载页面 切换到当前内容的frame中,也有可能不是frame,这里需要查看具体情况 获取页面源数据,然后放入xpath中,然后读取...:学习Selenium并使用Selenium模拟登录知乎 说说的完整代码 #coding:utf-8 import time from selenium import webdriver from...号,朋友的空间要求允许你能访问 user = 'XXX' # 你的QQ号 pw = 'XXXX' # 你的QQ密码 #获取浏览器驱动 driver = webdriver.Firefox() #...next_num += 1 # 因为在下一个循环里首先还要把页面下拉,所以要跳到外层的frame上 driver.switch_to.parent_frame() 这样所有的说说内容就可以取到了

83510

Python爬虫:动态QQ说说并生成词云,分析朋友状况

今天我们要做的事情是使用动态爬虫QQ空间说说,并把这些内容存在txt中,然后读取出来生成云图,这样可以清晰的看出朋友的状况。 这是好友的QQ空间10年说说内容,基本有一个大致的印象了。 ?...动态内容 因为动态页面的内容是动态加载出来的,所以我们需要不断下滑,加载页面 切换到当前内容的frame中,也有可能不是frame,这里需要查看具体情况 获取页面源数据,然后放入xpath中,然后读取...:学习Selenium并使用Selenium模拟登录知乎 说说的完整代码 #coding:utf-8 import time from selenium import webdriver from...号,朋友的空间要求允许你能访问 user = 'XXX' # 你的QQ号 pw = 'XXXX' # 你的QQ密码 #获取浏览器驱动 driver = webdriver.Firefox() #...next_num += 1 # 因为在下一个循环里首先还要把页面下拉,所以要跳到外层的frame上 driver.switch_to.parent_frame() 这样所有的说说内容就可以取到了

1.4K10

火车QQ空间说说采集模板

闲的无事写了一个火车采集器的 QQ 空间说说任务模板,用于采集已有访问权限的指定 QQ 号的所有说说消息。有需要的就拿去用,转载请注明出处。默认输出格式为 TXT ,每行一条说说。...uin=[QQ号码]&inCharset=utf-8&outCharset=utf-8&hostUin=[QQ号码]¬ice=0&sort=0&pos=(*)&num=20&cgi_host=http...=1&g_tk=[参数1] 需将[QQ号码]替换为被采集 QQ 号码,不保留方括号。...[参数1]获取方法见下,不同 QQ 号码之间参数1不相同。 打开被采集 QQ 空间后,按 F12 开启元素审查。切换到 network 标签后点击 QQ 空间中的说说链接。...使用记事本修改为“[标签:说说]”保存即可。 由于未做容错处理,说说内容如以逗号结尾,可能导致将本条说说及其下所有的评论一并抓取,但不影响下一条说说内容。

2.7K20

QQ空间3000万用户,玩玩大数据分析

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。...程序断断续续的运行了两周,目前总共了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。...1、大家一般都在啥时候发说说呢? 从图中看出一天最冷门的时候是凌晨4点,这时全国正在睡觉的人最多。 大家最亢奋的是晚上10点到11点,人们都喜欢睡前看看别人的空间,发条说说。...3、这是我目前的数据人群地区分布 ? 4、数据人群的年龄分布。 ? 上两张图,整好和我的信息相吻合。我是湖南人,在江苏读的书,而湖南大部分人都在广东打工。...现在我们拥有海量的互联网社交数据,如QQ说说,sina的微博数据。我觉得这些数据拥有惊人的利用价值,这非常值得我们去研究,去挖掘。

98060

QQ空间3000万用户,玩玩大数据分析

导读 一位程序猿使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,总共了3000万QQ数据,这些大数据背后隐藏了哪些信息?做大数据分析的同学收好,不谢!...程序断断续续的运行了两周,目前总共了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。...5、数据人群性别分布 男比女足足多了23%的人数,我分析认为实际差距应该是不大的,但女生在设置QQ空间访问权限时普遍要比男生的高。所以我的数据中男生居多。 ?...另附我在该问题下的答案“用爬虫监测她(他)的知乎动态”,仅做技术玩乐,求别再喷我猥琐了。 如果当我们拥有海量的QQ空间最新说说,和sina微博数据。...这么多名字,自讨苦吃。 ? 6.5 QQ空间中讨论的最为频繁的社交平台排行榜。 ?

70210

QQ空间3000万用户,玩玩大数据分析

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。...程序断断续续的运行了两周,目前总共了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。...5、数据人群性别分布 男比女足足多了23%的人数,我分析认为实际差距应该是不大的,但女生在设置QQ空间访问权限时普遍要比男生的高。所以我的数据中男生居多。 ?...另附我在该问题下的答案“用爬虫监测她(他)的知乎动态”,仅做技术玩乐,求别再喷我猥琐了。 如果当我们拥有海量的QQ空间最新说说,和sina微博数据。...这么多名字,自讨苦吃。 ? 6.5 QQ空间中讨论的最为频繁的社交平台排行榜。 ?

871100

Python爬虫小说

selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities 一章内容...选择的小说是你是我的城池营垒,如果要把所有章节取下来就要点进每一章然后去,一开始觉得有点击所以要用selenium,但是写到后面发现传每一章的url就可以不用模拟点击,所以可以不用selenium...'a+', encoding='utf-8') print(title) str = div.text + "\n\n" f.write(title) f.write(str) f.close() 所有章节...把上面的一个章节封装成一个函数,一会调用。...链接都是有长度相等的字符串,所以可以用切片的方法获取每一章的链接: for li in all_li: str_0 = str(li) str_0 = str_0[9: 31] 然后把链接传到每一章的函数里就可以完成整章小说取了

59510

【数说】QQ空间3000万用户,玩玩大数据分析

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。...程序断断续续的运行了两周,目前总共了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。...5、数据人群性别分布 男比女足足多了23%的人数,我分析认为实际差距应该是不大的,但女生在设置QQ空间访问权限时普遍要比男生的高。所以我的数据中男生居多。 ?...另附我在该问题下的答案“用爬虫监测她(他)的知乎动态”,仅做技术玩乐,求别再喷我猥琐了。 如果当我们拥有海量的QQ空间最新说说,和sina微博数据。...这么多名字,自讨苦吃。 ? 6.5 QQ空间中讨论的最为频繁的社交平台排行榜。 ?

1.2K30
领券