展开

关键词

揭秘V

那么,上都有哪些“V”用户?普通用户喜欢关注哪方面内容?我们利用 Python 对上的部分信息进行了个采集,做了一份简单的统计。 另外要说明的是,这个项目的代码由实训生 清风小筑 完成于今年7月,所以并非最新数据,主要是思路的学习讨论,结果仅供参考。 V的关联 首先给大家看的是上粉丝数前50用户的关系图: ? ? ? 谁是V 的四指标:关注、赞同、感谢、收藏。我们分别看下以不同指标排行的“头部用户”: ? ? ? ? (点击可查看大图。截图仅取前20,完整见交互版本) 其中,张佳玮可以说是非常突出了。 不过这并不能直接推断的整体热度,也可能内容的产出更分散于不同用户了呢?这就只有知官方才有权威数据了。 用户爱看什么? ? ? 这些关注度最高专栏和收藏夹,里面有你关注的吗? 最后,这是一个以关注数超1万的用户的个人简介做出来的词: ? 不过有点尴尬,似乎大家更喜欢在简介里发自己的公众号、微信和微博呢。 以上就是我们对于公开数据做的一些分析。

40320

时间序列数据的存储和计算-系列介绍

上关于时间数据的存储与计算的系列介绍. 作者:木洛 主要包括: [1] - 时间序列数据的存储和计算 - 概述 - 2018.01.07 [2] - 时间序列数据的存储和计算 - 开源时序数据库解析(一) - 2018.01.07 [3] - 时间序列数据的存储和计算 - 开源时序数据库解析(二) - 2018.01.07 [4] - 时间序列数据的存储和计算 - 开源时序数据库解析(三) - 2018.01.07 [5] - 时间序列数据的存储和计算 - 开源时序数据库解析(四) - 2018.01.16 系列介绍中,重点解析了InfluxDB、OpenTSDB、Base系和Cassandra系时序数据库. 附:2018.10 全球时序数据库市场热度排名 ? 来源:重磅发布!10月份全球数据库市场热度排名 - 大象数据科学 - 2018.10.28

43910
  • 广告
    关闭

    腾讯云图限时特惠0.99元起

    腾讯云图是一站式数据可视化展示平台,旨在帮助用户快速通过可视化图表展示大量数据,低门槛快速打造出专业大屏数据展示。新用户0.99元起,轻松搞定数据可视化

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据埋点方案

    回顾埋点流程的迭代史,整个流程落地三部曲可以总结为六个字:能力、意愿、工具。 能力 这几年的业务发展很快,埋点的流程也随着迭代了很多个版本。 埋点的模型 古语有:「治大国若烹小鲜」。目前的埋点数量约为三千个,如果缺少统一的模型来做标准化,每个人设计出来的埋点都不一样。 目前对于这个问题,目前没有做统一,由业务自己来定义。 行为事件 对于行为事件,选择了事件模型,完整描述 Who、When、Where、How 和 What 五要素。 数据团队在 2016 年做了一个埋点的小工具,只要输入测试设备的 id,就可以查看对应的埋点信息。 随着的快速发展,业务越来越多,的埋点模型、流程和平台技术在不断迭代当中,在应用实践上还有很大的改进的空间。

    4.4K45

    怎样成为V?爬取张佳玮138w+关注者:数据可视化

    而既然要爬,那就爬关注人数最多的张公子吧,数据量也,这方面是之前小项目所不及的,此前也看过不少爬数据与分析的文章,因此也想练练手,看看大量访问与获取数据时会不会遇到什么封IP的反爬措施,以及数据可视化能搞成什么样 3、10w+V 前文已多次提到10w+V,那么这190人里到底都有谁呢?这里以关注人数为权重,生成词如下: ? 大家上知的话应该也有关注一些V,许多名字应该并不陌生,比如马伯庸、动机在杭州、葛巾、朱炫、丁香医生等等,当然也会发现并不是所有V都关注了张公子,哪怕他是第一人,目前已交出了3026个回答,135 涉及的257话题词 而所有优秀回答者贡献的回答和收录回答情况如下: ? 最右上角的便是张佳玮的贡献情况,令人望尘莫及。也有不少用户贡献了上千个回答,可以说是非常高产。 有不少数据收录回答为0,因为还不知道优秀回答者的评判标准,所以此处还需进一步了解。另外这些数据点,对应的加上一些V名字可能显示起来能好,但一直在摸索,还不得要领。

    64130

    对话李大海:与计算的亲密接触缘于AI

    当你在上寻找答案时,是否发现有些自己感兴趣的问题会出现在自己的视野里?这就是计算、大数据的体现之一。 正如李大海所说,所做的一切,都是为了创造一种前所未有的“连接”,满足彼此的需求。要做的如何挖掘?挖掘后如何分发?这些过程其实正是计算可以大展拳脚的地方。 通过大数据、AI技术判断出哪些用户是该问题的权威专家,从而进行匹配。” 目前,的搜索、推荐、社区治理、用户发表的回答、评论、文章,都可以利用计算、大数据、AI技术,并根据以“认真、专业、友善”为基础的社区规范进行管理。 李大海认为,“化是未来的一个大趋势,腾讯现在不光是把计算商业化了,同时还开始把AI商业化了。未来企业将不需要自己组建庞大的相关技术团队,门槛越来越低。”

    49610

    头条巨资挖走300个V,却上线“想法”做信息流,有何想法?

    检索“恶魔奶爸”发现,这位V可能是名为“恶魔奶爸Sam”,定位“英语和职场攻略”,有45万粉丝,一共获得了66.5万次赞同,算是上的超级V。 ? 关于此,我第一时间在朋友圈发表的以下几点看法: 1、两年前,超过10万粉丝的V有150个,今天这个数量已远远超过300个,设若超过10万粉丝的算V,那么签约了300个还剩下许多大V; 2、没有一个平台是靠 社区氛围是由内容生产者和消费者一起决定的,而不是V; 4、就算有些V因为钱,卖身头条,头条会一直给钱吗? 显然不可能,协议到期还是会回去的; 5、真正在赚钱的V,靠的是内容营销,比如点赞(相当于转发)、内容广告(收费写答案)、还有把粉丝导入到微信做大号(如杜绍斐),做营销的公司越来越多,这些 就是说,将不同内容,通过算法+关注聚合到一个页面,让用户可以刷到自己感兴趣的内容是趋势,要做到这一点要有很强的算法推荐技术(以及背后的兴趣数据积累),不存在这个问题,首页就有三个tab:动态、热门和发现

    54660

    如何用代码控制浏览器下载v的粉丝数据

    回到本文,群友问:如何在浏览器简便地爬取数据,并下载成 json 格式的文件到本地电脑。 本文以下载v的粉丝数据为例,介绍4个知识点,爬虫相关的 html 获取与解析,模拟鼠标点击,缓存数据至本地,自动下载文件至本地。 接下来我们一步步来: 1 选定目标页面 爬取 v 的粉丝数据,比如拿李开复老师的开刀: https://www.zhihu.com/people/kaifulee/followers 2 编写爬取函数 JSON.stringify(res)); document.querySelector(‘.PaginationButton-next’).click(); }; 3 开始自动获取数据 _t=setInterval(getFollows,1600); 4 保存数据至本地文件 等待爬取完成后,再输入: window.clearInterval(window.

    25730

    学好Python爬取京东价值数据

    利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如: :爬取优质答案,为你筛选出各话题下最优质的内容。 当然如果你需要爬取异步加载的网站,可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化,这样,、时光网、猫途鹰这些动态的网站也可以迎刃而解。 02 了解非结构化数据的存储 爬回来的数据可以直接用文档形式存在本地,也可以存入数据库中。 当然你可能发现爬回来的数据并不是干净的,可能会有缺失、错误等等,你还需要对数据进行清洗,可以学习 pandas 包的基本用法来做数据的预处理,得到更干净的数据。 04 学习数据库基础,应对大规模数据存储 爬回来的数据量小的时候,你可以用文档的形式来存储,一旦数据量大了,这就有点行不通了。所以掌握一种数据库是必须的,学习目前比较主流的 MongoDB 就OK。

    39820

    Python爬虫框架:scrapy爬取数据

    测试爬虫效果 我这里先写一个简单的爬虫,爬取用户的关注人数和粉丝数,代码如下: import scrapy class ZhuHuSpider(scrapy.Spider): """ 爬虫 XHR为向服务器发送请求和解析服务器响应提供了流畅的接口,能够以异步方式从服务器取得更多信息,意味着用户单击后,可以不必刷新页面也能取得新数据。 开始爬取 我们还是先写一个简易的爬虫,把功能先实现,代码如下: import scrapy class ZhuHuSpider(scrapy.Spider): """ 爬虫 """ name item pipeline 存储使用MongoDB,我们需要修改Item Pipeline,参照官网示例修改的代码如下: class ZhiHuspiderPipeline(object): """ 数据存入 也可以看到mongodb中数据,如下: ? ·END·

    74430

    374名10万+V(一):相互关注情况

    一、前言 两个月前,今日头条签约了300多名V,随后引发广大关注和讨论,具体可见:如何看待今日头条一口气签了 300 多个 V 的传闻? 正所谓有人的地方就有江湖,挖掘下上述数据,或许能窥见到不一样的V生态圈。 两个月前也爬取过数据:《爬取张佳玮138w+关注者:数据可视化》,本回发现反爬变得严格多了,此处先不做展开。 三、Gephi绘制关注图谱 获取得到374名V和25090条关注的数据后,依旧选择用开源网络分析和可视化神器“Gephi”来绘制V们的关注图谱。 后面应该还会根据手头的数据写几篇相关文章,大家可以留言对什么感兴趣。数据、Gephi软件(薛定谔的官网下载)、图表等,后续会放到公众号:牛衣古柳,(Deserts-X)。

    35420

    用户画像与实时数据架构实践

    今天和大家分享侯容老师关于用户画像和实时数据架构实践的干货。 侯容:数据赋能组 Leader,主要负责实时数据、用户理解方向。 对于实时数据方面,期望拥有可以实时响应的用户行为流,同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。 在 2021 年 8 月,平台团队成立数据赋能组。 通过提升并行度 parallel_fragment_exec_instance_num 再进一步优化计算速度。 效果 上线后,接入了多个主要场景的业务,支持多业务方的人群定向和分析能力。 (自研 HBase 协议) 中完成外部压力承载。 具体到针对的各个业务: AI平台、增长团队、内容平台等已经将部分或全部业务渐渐迁移到实时计算平台,在接入数据更实时,更迅速的接入带来的所享受的收益外,数据质量更加变得重要。

    12930

    7计算数据仓库

    顶级计算数据仓库展示了近年来计算数据仓库市场发展的特性,因为很多企业更多地采用计算,并减少了自己的物理数据中心足迹。 计算数据仓库是一项收集、组织和经常存储供组织用于不同活动(包括数据分析和监视)数据的服务。 在企业使用计算数据仓库时,物理硬件方面全部由计算供应商负责。 对于只看到大量等待数据并可供处理的大型仓库或数据仓库的最终用户来说,它们是抽象的。近年来,随着越来越多的企业开始利用计算的优势,并减少物理数据中心,计算数据仓库的市场不断增长。 计算数据仓库通常包括一个或多个指向数据库集合的指针,在这些集合中收集生产数据计算数据仓库的第二个核心元素是某种形式的集成查询引擎,使用户能够搜索和分析数据。这有助于数据挖掘。 如何选择计算数据仓库服务 在寻求选择计算数据仓库服务时,企业应考虑许多标准。 现有的部署。

    91130

    数据实战:百万用户分析

    我萌生了去“探望”下的念头。 前言 我个人是15年注册,三年过去了,我个人主页数据是: ? 我一直不喜欢上面的氛围,但是通过我确实拿到了很多学习、设计、阅读和产品灵感的资源,都是通过链接到其他平台;在此也感谢这个平台给每一个求知者带来的帮助和启发。 这次我将利用用户的数据,从数据分析的角度,以用户、区域、行业、专业、大学、喜欢数、粉丝数和性别为交叉对比展开分析,因为我迫切想知道,那些 V 从哪来,做了什么事,是个什么背景等等像打了马赛克一样的信息 数据 直接爬取的用户数据,包括ID、粉丝数量、工作信息、回答数量、文章数量等等。 ? 部分数据不完整,gender 列中“1”表示男,对应的“0”就是女啦。 “所在的地域决定了的环境,环境影响人关注的行业和领域”这一点,这样也显得更加严谨和科学。

    90530

    用户画像与实时数据架构实践

    今天和大家分享侯容老师关于用户画像和实时数据架构实践的干货。 侯容:数据赋能组 Leader,主要负责实时数据、用户理解方向。 对于实时数据方面,期望拥有可以实时响应的用户行为流,同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。 在 2021 年 8 月,平台团队成立数据赋能组。 通过提升并行度 parallel_fragment_exec_instance_num 再进一步优化计算速度。 效果 上线后,接入了多个主要场景的业务,支持多业务方的人群定向和分析能力。 (自研 HBase 协议) 中完成外部压力承载。 具体到针对的各个业务: AI平台、增长团队、内容平台等已经将部分或全部业务渐渐迁移到实时计算平台,在接入数据更实时,更迅速的接入带来的所享受的收益外,数据质量更加变得重要。

    8330

    :做数据分析有前(钱)景吗?

    上有个热门问题,做数据分析有前景吗? 先说我的看法:前景、钱景都会有,但得使对劲。 一 「数据」本身没有价值,价值在于「分析,基于数据和业务的分析是有前景的。」 所以很多数据岗实质上干的是SQL、Excel、Python数据处理,日常写代码跑取数需求。或者更技术一点,做数据平台的开发。 二 就我个人这么多年的数据工作经验来说,具备「业务深度、数据敏感度和闭环逻辑」,是数据分析从业者能力的最大体现。 三 数据驱动是大势所趋,具备数据挖掘能力的人会更吃香。注意我这里说的不是数据分析岗,而是具备数据挖掘能力的人。 数字化普及的今天,越来越多的职位都会和数据打交道,所以每个人都可以去挖掘数据背后的价值,每个人都是数据分析师。

    8411

    用Zhihu-OAuth库轻松爬取各类数据

    好久没更新,没赶在2018年的第一天内推送,出师不利 去年(手动滑稽)某日想爬取特定话题下的全部回答数据,于是翻出以前写的话题爬虫跑运行了下,没想到遇到一个一直没能解决的bug,貌似是抓包到的 API返回的JSON数据格式有问题,于是遭遇爬的滑铁卢。 幸而想起有个叫“Zhihu-OAuth”的库,于是了解了下并上手一用,还蛮方便的,于是介绍给想爬取数据的小伙伴们。 /zh_CN/latest/ 其中能爬取的数据非常全、非常丰富:用户动态、答案、文章、收藏夹、专栏、评论、首页信息流、live、特定用户的信息、分享、问题、话题、私信会话和私信信息等等全部囊括在内 本文简单介绍下Zhihu-OAuth库,因为上手还蛮简单的,很推荐想爬数据而不得的小伙伴尝试下。后续看情况会更详细的讲下其他用法,看大家觉得需要吗?

    1.3K100

    R语言爬虫实战——live课程数据爬取实战

    之前已经演练过如何使用httr来完成网易课堂的课程爬取,其中用到POST方法和表单提交。 今天爬取对象是live课程信息,用到的GET方法,结合cookies登录和参数提交来完成,这一篇会给大家稍微涉猎一些细节技巧。 ;q=0.4 Authorization:oauth 8274ffb553d511e6a7fdacbc328e205d Connection:keep-alive Cookie:_zap="请键入个人 备注:(请求参数里我匿了我的登录cookies哈哈,毕竟如今有六七千关注量,虽然不算大号,但是对我挺重要的,不能随便登录信息泄露哒~) OK,完美,那么确定本次使用到的浏览器请求方式是GET请求,网址对象是 limit=10&offset=10&includes=live #构造cookies: Cookie='请键入个人cookies' #构造浏览器报头信息:(这些信息均来自于request模块) headers

    78160

    用Zhihu-OAuth库轻松爬取各类数据

    去年(手动滑稽)某日想爬取特定话题下的全部回答数据,于是翻出以前写的话题爬虫跑运行了下,没想到遇到一个一直没能解决的bug,貌似是抓包到的API返回的JSON数据格式有问题,于是遭遇爬的滑铁卢 幸而想起有个叫“Zhihu-OAuth”的库,于是了解了下并上手一用,还蛮方便的,于是介绍给想爬取数据的小伙伴们。 这是用户“7sDream”开源的Python库,github地址。 ? 其中能爬取的数据非常全、非常丰富:用户动态、答案、文章、收藏夹、专栏、评论、首页信息流、live、特定用户的信息、分享、问题、话题、私信会话和私信信息等等全部囊括在内。 ? 以下为登录,并保存token的代码。 ? 其中账号和密码需要每个人自己输入。账号为邮箱或手机号(前缀"+86")。 ? 后续就可以直接加载token来登录。 本文简单介绍下Zhihu-OAuth库,因为上手还蛮简单的,很推荐想爬数据而不得的小伙伴尝试下。后续看情况会更详细的讲下其他用法,看大家觉得需要吗?

    26330

    2014年数据计算的预测

    然而,计算却处于一个截然不同的阶段,远远超过了初始的炒作阶段,进入了一个混合部署的新时代,在这一新时代中云计算显然地扩展到了数据中心中。 在2014年,我们可以期待大数据计算的发展: 1、大数据计算一同成长:大多数组织知道他们应该使用计算平台,但计算到大数据的主要贡献将会转移。 不久,计算将成为许多大数据的来源,从开放数据到社会数据到聚合数据——所有来源都将为大数据项目提供能量和动力。 企业要建立一个包括全面数据源的大数据基础设施。 3、混合数据中心的渲染:虽然企业已经采用了计算,但部署仍然十分的孤立,在云中运行的这些基于内部部署的系统并不总能正常的工作。不久,基于的和内部部署的不同将会变得无关紧要。 公司将不仅仅是IT公司——他们将成为数据公司。 企业只是刚刚接触大数据——还将会出现许多趋势。在未来的一年中,企业将能够利用新技术——特别是计算——利用整合系统和数据工具的优势。

    38930

    相关产品

    • 流计算 Oceanus

      流计算 Oceanus

      流计算 Oceanus 是基于Flink构建的云上全托管的实时计算服务。您无须关注基础设施运维,通过云端一站式开发环境,轻松构建点击流分析、电商精准推荐、金融风控、物联网 IoT 等应用。

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注云+社区

      领取腾讯云代金券