前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >通过Betalist 分析近年创业项目

通过Betalist 分析近年创业项目

原创
作者头像
探码科技
修改2018-12-21 15:16:35
4920
修改2018-12-21 15:16:35
举报
文章被收录于专栏:探码科技探码科技

本文通过Dyson Web数据采集器实现对Betalist的网络数据爬取,并通过简单的统计分类,对近年来发布在Betalist的创业项目进行了统计分析。 

目标:对https://betalist.com/markets(Betalist该网页上的数据进行分析)

1.对数据进行采集并处理

使用工具:Ruby & Atom

(1)网站信息的采集(command+A/command+C/command+V)到atom的页面中

(2)正则化删除前面的图标

  • 在atom页面中,通过command+F调出正则替换框
  • 通过输入:[^a-zA-Z0-9 \t]的方式,后点击replace all删除图标

(3)通过正则化对其进行排版的处理(换行处理)

(4)更改成为字典的形式(在英文单词前后添加引号,数字和英文)

(5)至此,成功转化为字典的形式,下一步对整个字典进行排序,获得top 30

工具:python&pycharm 

(6)提取top 30 字典中的value,形成新的列表(list)

2.对数据进行可视化处理并进行分析

使用工具:python & matplotlib & pycharm 

  • 条形图

  • 三维散点图

  • 二维散点图

综上可得分析:

  1. 互联网&IT领域(Apps,productivity software, mobile,Saas),商业领域(businesses productivity)占据所有行业的领先位置
  2. 从横向条形图中仍可以发现Saas软件服务创业量占据领军位置的同时,远超top30中其余行业创业数量许多,以此预判Saas“软件暨服务”理念会引领软件行业的应用模式。
  3.  由二维图,三维图可知,top30行业的创业公司数量大多在200-400范围内,与top5的创业公司数量差距较大,以此判断,top5以外的行业竞争激烈,需找寻突破口。

文章转自:探码科技

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.对数据进行采集并处理
    • (1)网站信息的采集(command+A/command+C/command+V)到atom的页面中
      • (2)正则化删除前面的图标
        • (3)通过正则化对其进行排版的处理(换行处理)
          • (4)更改成为字典的形式(在英文单词前后添加引号,数字和英文)
            • (5)至此,成功转化为字典的形式,下一步对整个字典进行排序,获得top 30
              • (6)提取top 30 字典中的value,形成新的列表(list)
              • 2.对数据进行可视化处理并进行分析
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档