图书馆热门话题 通过主题挖掘分析知乎热门图书馆话题下的问答,了解到目前大多数用户去图书馆不再单纯的以获取资源为目的,除了借还书和查阅文献资料外,更多的读者是选择来图书馆进行自习、复习、备考,他们认为图书馆更有学习的氛围 ---- 我们从评论数量、被关注度和赞同数量来评估用户的参与程度,可以看到图书馆交友话题(主题1)关注人数和赞同人数最多(如图书馆怎么认识女生?) 图书馆话题内容表达的情感 接下来,通过主题挖掘和情感分析(也称为意见挖掘)知乎热门话题下的问答,我们详细看下热门话题中用户表达了哪些情感。 ---- 图表2 ? 疫情前后的图书馆话题 新型冠状病毒导致的肺炎疫情给大学图书馆信息资源建设工作带来了极大影响和冲击,通过时间线的对比,我们发现疫情前后的图书馆话题数量和情感表现发生明显变化。 ---- 图表3 ? 从正面情感来看,一些用户回答表示图书馆加强了网络在线服务,确保数据库资源正常使用和相关文献资源使用权,还策划了一些列活动以期更加全面地帮助全校师生在疫情防控期间充分利用网络进行专业资源,助力师生更好地开展学习
p=16890 当前是大数据盛行的时代,各种用户信息行为数据分析的结果影响着人们的生活和学习,同时对图书馆的发展也有着影响。 ▼ 本文在图书馆话题下知乎用户问答行为数据的基础上,分析了图书馆信息资源建设的新要求,并提出了相关建议。 图书馆热门话题 通过主题挖掘分析知乎热门图书馆话题下的问答,了解到目前大多数用户去图书馆不再单纯的以获取资源为目的,除了借还书和查阅文献资料外,更多的读者是选择来图书馆进行自习、复习、备考,他们认为图书馆更有学习的氛围 图书馆话题内容表达的情感 接下来,通过主题挖掘和情感分析(也称为意见挖掘)知乎热门话题下的问答,我们详细看下热门话题中用户表达了哪些情感。 :家电线上消费新趋势 6.在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析 7.虎扑论坛基因探秘:社群用户行为数据洞察 8.把握出租车行驶的数据脉搏 9.智能门锁“剁手”数据攻略
适用于业务初期的行为分析、经营策略等分析查询场景,首购限时10元,快来抢购吧!
下载文件是CSV,导入时注意别选EXCEL数据源 03 数据清洗 数据导入后,字段名改不改中文看各人习惯。 就以我自己所在地江苏常州为例(毕竟自己城市每天的数据要相对熟一点),先把城市筛选出来。 04 重点来了!!!有两个难点: 1)从更新时间上看,丁香园会每天刷新多次数据。 如何取得每天最后一条数据? 2)每条数据记录的不是新增人数,而是汇总人数。如何得到每天增量数据,而不是总量? 根据“更新时间”新建“更新日期”列,把年月日单独列出来。 , "总疑似",MAX(DXYArea[市疑似]), "总确诊",MAX(DXYArea[市确诊]), "更新时间",MAX(DXYArea[更新时间]) ) SUMMARIZE函数可以对表进行分组 对于上表中“省”“市”这样重复值较多的列可以直接合并,而对于数据列值,则通过MAX函数取最大值。若前后两次数据无变化,则根据MAX(“更新时间”)来取最后一次更新时间。
Hadoop离线数据分析平台实战——320会话分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 会话分析主要同时计算会话个数和会话长度, 主要应用在用户基本信息分析模块和浏览器信息分析模块这两部分 会话个数就是计算u_sd的唯一个数,长度就是每个会话的长度总和。 计算规则 会话个数指的是计算所有u_sd的个数, 会话长度就是计算每个会话的长度, 然后计算这些长度的一个总值。 (注意:处理的数据为所有事件产生的数据) 最终数据保存:stats_user和stats_device_browser。
Hadoop离线数据分析平台实战——330会话分析Hourly分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析 (MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 Hourly分析指的是按照小时分析数据, 在本次项目中,只分析活跃用户、 会话个数以及会话长度这三个指标的数据。 我们通过修改现有的job来达到完成hourly分析数据统计的目标。 分别通过在active user和sessions这两个job中添加数据可以达到我们的分析要求。 计算规则 hourly分析分为hourly active user分析、hourly sessions分析以及hourly sessions length分析, 分别计算各个小时的活跃用户、会话个数以及会话长度来进行展示操作
本次主要围绕数据分析岗位的招聘情况, 进行一个简单的数据分析 环境 win8, python3.7, pycharm, jupyter notebook 正文 1. 明确分析目的 了解数据分析岗位的最新招聘情况, 包括地区分布, 学历要求, 经验要求, 薪资水平等. 2. 职位名称的种类就有4758种, 他们都是我们本次分析的数据分析师岗位吗, 先来确认下: zhaopin.JobTitle.unique() array(['零基础免费培训金融外汇数据分析师', '数据分析师 (周末双休+上班舒适)', '数据分析师', ..., '数据分析实习(J10635)', '数据分析实习(J10691)', '数据分析实习(J10713)'], dtype=object -数据分析师助理/实习生 16 -数据分析师助理/统计专员+双休五险+住宿 17 -无销售不加班金融数据分析师月入
前段时间在有讲上分享了一个微博粉丝爬虫的代码,爬取的是吴亦凡的部分粉丝(不要问我为什么选择吴亦凡),今天把数据来出来简单分享下,看看吴亦凡小盆友的粉丝妹子多,还是汉子多,嘿嘿。 数据预处理 首先,我们读入数据: import pandas as pd import pymysql conn = pymysql.connect(host='localhost', user='root 由于爬虫中断过,出现了一些重复数据,我们要去重掉。 weibo = weibo.drop_duplicates() weibo ? 这样我们就完成了简单的数据处理啦。 数据分析 看看男女比例情况 ? 城市分布情况 ? 广东的粉丝是最多的,由于只是数据量不多,也不能说明太多问题,大家看看就好。
用数据说话,就是用真实的数据说真实的话!真实也可以理解为求真务实。那么,数据分析就是不断地求真,进而持续地务实的过程!用一句话表达就是用数据说话,用真实的数据说话,说真话、说实话、说管用的话。 1.用数据说话 数据本不会说话,但是面对不同的人时,就会发出不同的声音。现在我们以《荒岛售鞋》这个老故事为引例,从数据分析的角度来解读,看看能不能开出新花? 是不是数据自始自终都很齐全、很准确,而且统计口径与分析目的保持着高度的一致呢?这个问题留到日常工作中供大家思考。 3.说真话说实话 拿着错误的数据,肯定得不出正确的结论。 也就是说如果数据的跨度或者说是极差不大的话,用均值可以很好的反映真实情况。但是,如果数据的差异比较大,单一使用平均数就会搞出新的笑话了。 4.说管用的话 说管用的话是指深入分析数据的实质,挖掘数据的内涵,而不是停留在数据的表层,说些大话、空话或者套话。这就要求在数据分析时,首先明确分析的目的,其次是选择恰当的方法,最后得出有用的结论。
一 数据分析与自然语言处理 我们在处理很多数据分析任务时,不可避免地涉及到与文本内容相关的知识,这是属于文本挖掘(text mining)的内容,显然是NLP技术的范畴,基于这样的考虑我们先来对自然语言处理有一个基本的认识 文章描述了这个叫作Eliza的程序如何使人与计算机在一定程度上进行自然语言对话成为可能。Eliza通过关键词匹配规则对输入进行分解,而后根据分解规则所对应的重组规则来生成回复。 分词就是把词分开,在英文中,I love you,这三个词组成的一句话原本就是用空格分开的,而中文里面的一句话,比如“我爱北京天安门”,应该怎么样用空格分开呢? 精准模式:将句子精确的切开,适合文本分析。通过参数cut_all确定分词模型,如果为False,则为精准模式。如果不写参数,默认就是精准模式。 公式的推导过程比较简单,有数学恐惧症的同学可以先跳过这一部分。
下载数据集请登录爱数科(www.idatascience.cn) 该数据集可用于情感分析分类。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
下载数据集请登录爱数科(www.idatascience.cn) 数据集从零售投资者的角度包含了金融新闻头条的观点。数据集包含两列,情感标签和新闻标题,情感标签包含消极的,中立的或积极的。 1. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。 5. 数据引用 Malo P, Sinha A, Korhonen P, et al.
随着企业组织创建或者扩展其分析战略,这里有十几个需要揭穿的数据分析神话需要他们牢记在心。 神话1:数据分析需要大量投资 现在来看,几乎每一项技术都必须经过财务稳健性的过滤。“这项技术成本多少?” 神话2:你需要大数据来执行分析 对很多人来说,大数据和分析这两个概念是齐头并进的。这个想法是说,企业组织需要在执行分析之前收集大量数据,以便产生业务洞察,改进决策等。 我们使用‘训练数据’来优化算法和分析,这会重新引发训练数据所具有的特征。” 在某些情况下,这会给分析结果带来偏差;有些情况下,则有更严重的偏差。 神话10:数据分析应该是一个单独的部门 在有些企业组织内,数据分析是作为一个单独的部门运作的,还有一些是被嵌入到了一个跨职能部门中,咨询和数据收集公司Delvinia总裁兼首席创新关Steven Mast 随着企业组织变得更加以客户为中心,数据驱动的分析专家应该成为业务部门的核心,而不是作为一个你打电话许寻求支持的部门来运作。”
作者:林骥 来源:林骥 在《数据分析报告的 3 个层级》这篇文章下面,有位读者留言:有完整的数据分析报告模板吗? 我回复说: 数据分析报告可以有千千万万个不同的模板,但是你要知道哪一个模板最适合当时的情景,这是非常困难的一件事。 即使收集到了世界上所有数据分析报告的模板,也不代表就有能力写好数据分析报告。 为了缩小选择的范围,我们可以把数据分析报告按情景进行划分,大致分成下面 4 种情景,即:首次分析报告、常规分析报告、问题分析报告、总结分析报告。为了便于理解,分别类比为看病体检时的情景。 情景 2:常规分析报告 当业务已经开展一段时间之后,相关数据分析报告已经变成常规工作的时候,数据变化的趋势相对比较稳定,读者对业务已经很熟悉了,此时就不用再啰啰嗦嗦地写一大堆,只需要重点关注异常情况就可以了 以上 4 种情景,无论是哪一种,都要先熟悉业务的背景和分析的目标,搞清楚沟通的对象,对数据有基本的判断,对问题有深入的理解,这样写出来的数据分析报告,才更有吸引力,看数据分析报告的人,才更有收获,而写数据分析报告的人
# 训练数据预处理 import numpy as np from sklearn.utils import shuffle import os import matplotlib.pyplot as all_data.append({"text": text, "label": 0}) # shuffle打乱顺序 all_data = shuffle(all_data, random_state=1) # 拿出5%的数据用来测试 test_proportion = 0.05 test_idx = int(len(all_data) * test_proportion) # 分割训练集和测试集 test_data = all_data [:test_idx] train_data = all_data[test_idx:] # 输出训练集和测试集为txt文件, 每一行为一个dict: {"text":文本, "label":分类} with encoding="utf-8") as f: for line in test_data: f.write(str(line)) f.write("\n") 部分数据
数据集准备 使用的是中文对话情感分析的一个数据集。 下载地址:z17176 这个是数据集是来自这篇 paper :Sentiment Classification with Convolutional Neural Networks: an Experimental 常用的分词工具有 jieba 分词。该数据集已经用 jieba 工具处理过分词了,所以就不需要额外处理了。 停用词处理 中文的停用词资源有挺多的,停用词处理主要依据不同的文本或者不同的目的来处理。 将一个个单词转换成由整数组成的序列,每个整数都对应于词汇表中的一个索引值。Tokenization 之后,将序列处理成等长,这样后续就容易处理。 DNN/LSTM/Text-CNN情感分类实战与分析 [4].
tfboy 支付宝关键词鄙视我太穷丢它脸 个人特别喜欢听网易云音乐的推荐歌单(个人比较懒),但一个高播放量的歌单里的歌曲,不一定都喜欢,所以我爬取了9万多首歌曲,定制化了自己的网易云音乐歌单, 数据情况 本文爬取了部分歌单,及歌单中的歌曲,如图所示。 数据分析 歌单类别 ? 总共爬取了673个歌单,由于爬虫中断了,并没有爬取所有的类别,但爬取的歌单类别中,分布还是比较均匀的。 周杰伦果然是一代人的回忆,通过排行也可以看出,对于大部分用户来说,华语的播放量还是最多的。 歌手出现次数 ? 部分数据
定义数据结构 ? names用于存入小说人物和出场次数;relationships保存人物关系的有向边,该字典的键为有向边的起点,值为一个字典edge,edge的键是有向边的终点,值是有向边的权值,代表两个人物之间联系的紧密程度 添加人名到jieba词库中 jieba库分词可能并不能把小说的人物都切开,我们需要把这些人名添加到词库中,以便成功分词。 ? 统计出场人数 ? ? 通过图可以看出,陈长生作为主角,出场最多,而他的好基友是排第二的,而他的女票徐有容却是排到第五,这与一些玄幻小说不一样,注定了这是一部基情的小说。 人物关系及写入文件 ? ? ?
定义数据结构 import jieba names = {} relationships = {} linenames = [] all_names = [] names用于存入小说人物和出场次数;relationships 添加人名到jieba词库中 jieba库分词可能并不能把小说的人物都切开,我们需要把这些人名添加到词库中,以便成功分词。 all_names.append(line.strip().strip('\ufeff')) for name in all_names: jieba.add_word(name) 统计出场人数 通过图可以看出,陈长生作为主角,出场最多,而他的好基友是排第二的,而他的女票徐有容却是排到第五,这与一些玄幻小说不一样,注定了这是一部基情的小说。
在此前我们发布了:疫情分析,很多小伙伴要求得到数据可以自己演练。 今天我们说两个事: 直接使用规整的全球疫情数据 20.04.15 20点 直播 某疫情作品 解析(作者参与) 直接使用疫情数据 ? 该研究将全球疫情数据彻底开源化,大家可以直接使用。 如下: https://github.com/CSSEGISandData/COVID-19 可以直接基于该研究组织提供的数据来进行可视化分析,数据初始结构: ? 点击“Raw”可以查看原始数据的CSV格式。 在 PowerBI 中通过几步 PowerQuery 的变换就可以得到规整的数据来进行分析,如下: ? 疫情作品 解析 周三晚上20点,我们邀请作品的作者一起解析一个作品: ? ? ?
智能数据分析( IDA)基于安全、低成本、高可靠、可弹性的云端大数据架构,帮助企业客户实现从数据采集、建模、挖掘、效果分析、用户标签画像到自动化营销等全场景的数据服务,快速实现数据驱动业务增长的目标。
扫码关注云+社区
领取腾讯云代金券