展开

关键词

视域下图书馆

图书馆热门题 通过主题挖掘知乎热门图书馆题下的问答,了解到目前大多用户去图书馆不再单纯的以获取资源为目的,除了借还书和查阅文献资料外,更多的读者是选择来图书馆进行自习、复习、备考,他们认为图书馆更有学习的氛围 ---- 我们从评论量、被关注度和赞同量来评估用户的参与程度,可以看到图书馆交友题(主题1)关注人和赞同人最多(如图书馆怎么认识女生?) 图书馆题内容表达的感 接下来,通过主题挖掘和(也称为意见挖掘)知乎热门题下的问答,我们详细看下热门题中用户表达了哪些感。 ---- 图表2 ? 疫前后的图书馆题 新型冠状病毒导致的肺炎疫给大学图书馆信息资源建设工作带来了极大影响和冲击,通过时间线的对比,我们发现疫前后的图书馆量和感表现发生明显变化。 ---- 图表3 ? 从正面感来看,一些用户回答表示图书馆加强了网络在线服务,确保库资源正常使用和相关文献资源使用权,还策划了一些列活动以期更加全面地帮助全校师生在疫防控期间充利用网络进行专业资源,助力师生更好地开展学习

14120

视域下图书馆

p=16890 当前是大盛行的时代,各种用户信息行为的结果影响着人们的生活和学习,同时对图书馆的发展也有着影响。 ▼ 本文在图书馆题下知乎用户问答行为的基础上,了图书馆信息资源建设的新要求,并提出了相关建议。 图书馆热门题 通过主题挖掘知乎热门图书馆题下的问答,了解到目前大多用户去图书馆不再单纯的以获取资源为目的,除了借还书和查阅文献资料外,更多的读者是选择来图书馆进行自习、复习、备考,他们认为图书馆更有学习的氛围 图书馆题内容表达的感 接下来,通过主题挖掘和(也称为意见挖掘)知乎热门题下的问答,我们详细看下热门题中用户表达了哪些感。 :家电线上消费新趋势 6.在r语言中使用GAM(广义相加模型)进行电力负荷时间序列 7.虎扑论坛基因探秘:社群用户行为洞察 8.把握出租车行驶的脉搏 9.智能门锁“剁手”攻略

14500
  • 广告
    关闭

    云数据仓库ClickHouse首购10元特惠

    适用于业务初期的行为分析、经营策略等分析查询场景,首购限时10元,快来抢购吧!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    利用PowerBI

    下载文件是CSV,导入时注意别选EXCEL源 03 清洗 导入后,字段名改不改中文看各人习惯。 就以我自己所在地江苏常州为例(毕竟自己城市每天的要相对熟一点),先把城市筛选出来。 04 重点来了!!!有两个难点: 1)从更新时间上看,丁香园会每天刷新多次。 如何取得每天最后一条? 2)每条记录的不是新增人,而是汇总人。如何得到每天增量,而不是总量? 根“更新时间”新建“更新日期”列,把年月日单独列出来。 , "总疑似",MAX(DXYArea[市疑似]), "总确诊",MAX(DXYArea[市确诊]), "更新时间",MAX(DXYArea[更新时间]) ) SUMMARIZE函可以对表进行组 对于上表中“省”“市”这样重复值较多的列可以直接合并,而对于列值,则通过MAX函取最大值。若前后两次无变化,则根MAX(“更新时间”)来取最后一次更新时间。

    1.1K20

    Hadoop离线平台实战——320会Hadoop离线平台实战——320会

    Hadoop离线平台实战——320会 项目进度 模块名称 完成况 用户基本信息(MR)� 未完成 浏览器信息(MR) 未完成 地域信息(MR) 未完成 外链信息(MR) 未完成 用户浏览深度(Hive) 未完成 订单(Hive) 未完成 事件(Hive) 未完成 模块介绍 会主要同时计算会和会长度, 主要应用在用户基本信息模块和浏览器信息模块这两部就是计算u_sd的唯一个,长度就是每个会的长度总和。 计算规则 会指的是计算所有u_sd的个, 会长度就是计算每个会的长度, 然后计算这些长度的一个总值。 (注意:处理的为所有事件产生的) 最终保存:stats_user和stats_device_browser。

    43170

    Hadoop离线平台实战——330会HourlyHadoop离线平台实战——330会Hourly

    Hadoop离线平台实战——330会Hourly 项目进度 模块名称 完成况 用户基本信息(MR)� 未完成 浏览器信息(MR) 未完成 地域信息(MR) 未完成 外链信息 (MR) 未完成 用户浏览深度(Hive) 未完成 订单(Hive) 未完成 事件(Hive) 未完成 模块介绍 Hourly指的是按照小时, 在本次项目中,只活跃用户、 会以及会长度这三个指标的。 我们通过修改现有的job来达到完成hourly统计的目标。 别通过在active user和sessions这两个job中添加可以达到我们的要求。 计算规则 hourly为hourly active user、hourly sessions以及hourly sessions length别计算各个小时的活跃用户、会以及会长度来进行展示操作

    468100

    岗位招聘

    本次主要围绕岗位的招聘况, 进行一个简单的 环境 win8, python3.7, pycharm, jupyter notebook 正文 1. 明确目的 了解岗位的最新招聘况, 包括地区布, 学历要求, 经验要求, 薪资水平等. 2. 职位名称的种类就有4758种, 他们都是我们本次师岗位吗, 先来确认下: zhaopin.JobTitle.unique() array(['零基础免费培训金融外汇师', '师 (周末双休+上班舒适)', '师', ..., '实习(J10635)', '实习(J10691)', '实习(J10713)'], dtype=object -师助理/实习生 16 -师助理/统计专员+双休五险+住宿 17 -无销售不加班金融师月入

    52340

    Python之小鲜肉粉丝预处理

    前段时间在有讲上享了一个微博粉丝爬虫的代码,爬取的是吴亦凡的部粉丝(不要问我为什么选择吴亦凡),今天把来出来简单享下,看看吴亦凡小盆友的粉丝妹子多,还是汉子多,嘿嘿。 预处理 首先,我们读入: import pandas as pd import pymysql conn = pymysql.connect(host='localhost', user='root 由于爬虫中断过,出现了一些重复,我们要去重掉。 weibo = weibo.drop_duplicates() weibo ? 这样我们就完成了简单的处理啦。 看看男女比例况 ? 城市况 ? 广东的粉丝是最多的,由于只是量不多,也不能说明太多问题,大家看看就好。

    34860

    ——的基本思想

    ,就是用真实的说真实的!真实也可以理解为求真务实。那么,就是不断地求真,进而持续地务实的过程!用一句表达就是用,用真实的,说真、说实、说管用的。 1.用 本不会说,但是面对不同的人时,就会发出不同的声音。现在我们以《荒岛售鞋》这个老故事为引例,从的角度来解读,看看能不能开出新花? 是不是自始自终都很齐全、很准确,而且统计口径与目的保持着高度的一致呢?这个问题留到日常工作中供大家思考。 3.说真说实 拿着错误的,肯定得不出正确的结论。 也就是说如果的跨度或者说是极差不大的,用均值可以很好的反映真实况。但是,如果的差异比较大,单一使用平均就会搞出新的笑了。 4.说管用的 说管用的是指深入的实质,挖掘的内涵,而不是停留在的表层,说些大、空或者套。这就要求在时,首先明确的目的,其次是选择恰当的方法,最后得出有用的结论。

    92550

    挖掘 - 03智能对

    与自然语言处理 我们在处理很多任务时,不可避免地涉及到与文本内容相关的知识,这是属于文本挖掘(text mining)的内容,显然是NLP技术的范畴,基于这样的考虑我们先来对自然语言处理有一个基本的认识 文章描述了这个叫作Eliza的程序如何使人与计算机在一定程度上进行自然语言对成为可能。Eliza通过关键词匹配规则对输入进行解,而后根解规则所对应的重组规则来生成回复。 词就是把词开,在英文中,I love you,这三个词组成的一句原本就是用空格开的,而中文里面的一句,比如“我爱北京天安门”,应该怎么样用空格开呢? 精准模式:将句子精确的切开,适合文本。通过参cut_all确定词模型,如果为False,则为精准模式。如果不写参,默认就是精准模式。 公式的推导过程比较简单,有学恐惧症的同学可以先跳过这一部

    27820

    集 | 苹果推特

    下载集请登录爱科(www.idatascience.cn) 该集可用于类。 1. 字段描述 2. 预览 3. 字段诊断信息 4. 来源 来源于Kaggle。

    7120

    集 | 金融新闻

    下载集请登录爱科(www.idatascience.cn) 集从零售投资者的角度包含了金融新闻头条的观点。集包含两列,感标签和新闻标题,感标签包含消极的,中立的或积极的。 1. 预览 3. 字段诊断信息 4. 来源 来源于Kaggle。 5. 引用 Malo P, Sinha A, Korhonen P, et al.

    14020

    揭穿的12个神

    随着企业组织创建或者扩展其战略,这里有十几个需要揭穿的需要他们牢记在心。 神1:需要大量投资 现在来看,几乎每一项技术都必须经过财务稳健性的过滤。“这项技术成本多少?” 神2:你需要大来执行 对很多人来说,大这两个概念是齐头并进的。这个想法是说,企业组织需要在执行之前收集大量,以便产生业务洞察,改进决策等。 我们使用‘训练’来优化算法和,这会重新引发训练所具有的特征。” 在某些况下,这会给结果带来偏差;有些况下,则有更严重的偏差。 神10:应该是一个单独的部门 在有些企业组织内,是作为一个单独的部门运作的,还有一些是被嵌入到了一个跨职能部门中,咨询和收集公司Delvinia总裁兼首席创新关Steven Mast 随着企业组织变得更加以客户为中心,驱动的专家应该成为业务部门的核心,而不是作为一个你打电许寻求支持的部门来运作。”

    33470

    报告的 4 种

    作者:林骥 来源:林骥 在《报告的 3 个层级》这篇文章下面,有位读者留言:有完整的报告模板吗? 我回复说: 报告可以有千千万万个不同的模板,但是你要知道哪一个模板最适合当时的景,这是非常困难的一件事。 即使收集到了世界上所有报告的模板,也不代表就有能力写好报告。 为了缩小选择的范围,我们可以把报告按景进行划,大致成下面 4 种景,即:首次报告、常规报告、问题报告、总结报告。为了便于理解,别类比为看病体检时的景。 景 2:常规报告 当业务已经开展一段时间之后,相关报告已经变成常规工作的时候,变化的趋势相对比较稳定,读者对业务已经很熟悉了,此时就不用再啰啰嗦嗦地写一大堆,只需要重点关注异常况就可以了 以上 4 种景,无论是哪一种,都要先熟悉业务的背景和的目标,搞清楚沟通的对象,对有基本的判断,对问题有深入的理解,这样写出来的报告,才更有吸引力,看报告的人,才更有收获,而写报告的人

    48420

    预处理过程

    # 训练预处理 import numpy as np from sklearn.utils import shuffle import os import matplotlib.pyplot as all_data.append({"text": text, "label": 0}) # shuffle打乱顺序 all_data = shuffle(all_data, random_state=1) # 拿出5%的用来测试 test_proportion = 0.05 test_idx = int(len(all_data) * test_proportion) # 割训练集和测试集 test_data = all_data [:test_idx] train_data = all_data[test_idx:] # 输出训练集和测试集为txt文件, 每一行为一个dict: {"text":文本, "label":类} with encoding="utf-8") as f: for line in test_data: f.write(str(line)) f.write("\n") 部

    24320

    基于 CNN 的中文对

    集准备 使用的是中文对的一个集。 下载地址:z17176 这个是集是来自这篇 paper :Sentiment Classification with Convolutional Neural Networks: an Experimental 常用的词工具有 jieba 词。该集已经用 jieba 工具处理过词了,所以就不需要额外处理了。 停用词处理 中文的停用词资源有挺多的,停用词处理主要依不同的文本或者不同的目的来处理。 将一个个单词转换成由整组成的序列,每个整都对应于词汇表中的一个索引值。Tokenization 之后,将序列处理成等长,这样后续就容易处理。 DNN/LSTM/Text-CNN类实战与 [4].

    1.4K30

    Python之定制化网易云音乐歌单

    tfboy 支付宝关键词鄙视我太穷丢它脸 个人特别喜欢听网易云音乐的推荐歌单(个人比较懒),但一个高播放量的歌单里的歌曲,不一定都喜欢,所以我爬取了9万多首歌曲,定制化了自己的网易云音乐歌单, 况 本文爬取了部歌单,及歌单中的歌曲,如图所示。 歌单类别 ? 总共爬取了673个歌单,由于爬虫中断了,并没有爬取所有的类别,但爬取的歌单类别中,布还是比较均匀的。 周杰伦果然是一代人的回忆,通过排行也可以看出,对于大部用户来说,华语的播放量还是最多的。 歌手出现次 ? 部

    1.3K60

    Python之基的择天记

    定义结构 ? names用于存入小说人物和出场次;relationships保存人物关系的有向边,该字典的键为有向边的起点,值为一个字典edge,edge的键是有向边的终点,值是有向边的权值,代表两个人物之间联系的紧密程度 添加人名到jieba词库中 jieba库词可能并不能把小说的人物都切开,我们需要把这些人名添加到词库中,以便成功词。 ? 统计出场人 ? ? 通过图可以看出,陈长生作为主角,出场最多,而他的好基友是排第二的,而他的女票徐有容却是排到第五,这与一些玄幻小说不一样,注定了这是一部基的小说。 人物关系及写入文件 ? ? ?

    37660

    python之基的择天记

    定义结构 import jieba names = {} relationships = {} linenames = [] all_names = [] names用于存入小说人物和出场次;relationships 添加人名到jieba词库中 jieba库词可能并不能把小说的人物都切开,我们需要把这些人名添加到词库中,以便成功词。 all_names.append(line.strip().strip('\ufeff')) for name in all_names: jieba.add_word(name) 统计出场人 通过图可以看出,陈长生作为主角,出场最多,而他的好基友是排第二的,而他的女票徐有容却是排到第五,这与一些玄幻小说不一样,注定了这是一部基的小说。

    22310

    PowerBI 疫 之 全球获取

    在此前我们发布了:疫,很多小伙伴要求得到可以自己演练。 今天我们说两个事: 直接使用规整的全球疫 20.04.15 20点 直播 某疫作品 解(作者参与) 直接使用疫 ? 该研究将全球疫彻底开源化,大家可以直接使用。 如下: https://github.com/CSSEGISandData/COVID-19 可以直接基于该研究组织提供的来进行可视化初始结构: ? 点击“Raw”可以查看原始的CSV格式。 在 PowerBI 中通过几步 PowerQuery 的变换就可以得到规整的来进行,如下: ? 疫作品 解 周三晚上20点,我们邀请作品的作者一起解一个作品: ? ? ?

    48540

    相关产品

    • 智能数据分析

      智能数据分析

      智能数据分析( IDA)基于安全、低成本、高可靠、可弹性的云端大数据架构,帮助企业客户实现从数据采集、建模、挖掘、效果分析、用户标签画像到自动化营销等全场景的数据服务,快速实现数据驱动业务增长的目标。

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券