专栏首页DT数据侠分析完10000家公司资料,我们找到了AI领域最火热创业方向

分析完10000家公司资料,我们找到了AI领域最火热创业方向

本文转载自:大数据文摘

作者:Rodrigo NaderFollow

编译:群青

我们都知道,最近几年AI创业几乎呈指数级增长。那么AI领域的投资规模到底有多少大?这些AI创业公司的规模如何?对他们来说最有前途的市场是哪些?

这些问题我们都可以从AngelList公开的数据中得到答案

▍关于AngelList

AngelList网站建于2010年,是全球最大的天使投资平台,连接起众多科技创业公司、投资人和创业企业求职者,目前已经有超过400万公司、800万投资者和至少100万求职者在他们的网站上注册。据不完全统计,10年间,通过该平台投资的企业市值超过2900亿美元,涵盖企业包括Uber、Airbnb、Twitter、Dropbox等。

▍数据提取及特征确定

首先,我们使用explosion.ai.研发的SenseToVec工具来确定用于抓取数据的关键词语。SenseToVec是一种神经网络模型,用其读取2015年Reddit上的所有评论,再使用word2vec和spaCy来建立语义地图。通过搜索一个词或短语,得到和该词或短语最相似的单词(甚至可以使用它来查找同义词)。比如输入“机器学习”,匹配提取出了:数据科学、NLP、计算机视觉……

对这些关键词语过滤后,我们使用更精确的关键词语在Angel上进行查询。

接下来使用Selenium和Beautiful Soup制作网络爬虫,创建一个驱动程序访问URL(https://angel.co/companies),点击搜索栏并输入特定的查询词。然后滚动列表中的每个公司并存储其数据。

Angel爬虫

因为网站限制了每次搜索只能获得400个公司,所以我们使用过滤器并增加查询数量,以确保得到几乎所有相关公司的信息。

删除重复信息后,获得CSV文件,其中包含10139组独立数据,特征包括:

  • ‘name’→公司名称
  • ‘joined’→公司加入Angel的时间
  • ‘type’→公司类型(创业公司,有限责任公司,孵化器…)
  • ‘location’→公司所在城市
  • ‘market’→公司活跃领域(电商,游戏…)
  • ‘pitch’→公司标语
  • ‘raised’→公司投资人的投资数额
  • ‘tech’→主要使用的编程语言(Python,Javascript…)

▍数据分析

首先进行清洗和预处理,包括格式化日期、正规化文本,以及将金额相关的字符串转换为浮点数字。

然后就是对这个包含10139个公司的数据集进行各种操作。

1、统计这些创业公司使用的编程语言

上图显示,在机器学习方面,AngelList上的创业公司更偏爱使用python,python的使用率达到93.5%。其次是javascript,使用率为3.94%。但是,我们只统计了AngelList头部技术公司,因此这没有包含其他重要的编程语言。

如果按年份统计数据,得到2010年-2019年这些编程语言使用情况的变化:

编程语言使用情况变迁

上图显示,Python的使用率显著上升。这也印证了,作为一种惊人的、高水准的通用语言,python拥有范围广泛的强大的库,并在数据科学和机器学习领域最为著名。

2、查看这些创业公司分布在哪些市场领域

10139个创业公司所在的市场分布

有一些比较常见的行业(比如b2b和saas)在其他市场大类别中也经常出现(如在大数据分析和大数据中),但还是可以在人工智能相关领域中做一些比较。

3、统计各个行业的投资额

根据市场来聚合数据并总结出融资,可以知道各个行业的投资额总共有多少:

各行业的总投资额

上图列出投资额最高的20个行业,其中酒店行业遥遥领先,达到100亿美元以上,排名第二的新闻行业达到40亿美元以上。但这不能说明这些行业获得投资的创业公司的数量最多。

比如,这其中投资规模最大的企业有(以十亿美元为单位):

  • Airbnb→10.3(酒店)
  • Netscape→4.2(新闻)
  • Nest→3.3(物联网)
  • Palantir→2.1(分析)
  • Grail→1.7(诊断)

这解释了为什么酒店行业的投资量巨大:一两个规模巨大的企业会对总投资量产生重大影响。

如果选取每个行业的平均投资额则可以获得不同的结果:

各行业的平均投资额

上图是平均投资额最多的10个行业,并不包含酒店行业。遥遥领先的是新闻行业,平均投资额达到20亿美元,其余的行业都在5亿美元以下。

4、分析不同投资额区间的企业分布数量

首先我们统计下每个行业的获投资企业的数量,然后对比投资额范围。例如,有多少移动广告公司获得了1到1000万美元的投资?

将投资范围分为5个区间,统计每个区间内,获得相应投资额的企业数量:

通过这个相对复杂的分析,投资者和创业者可以更深入了解与投资规模相关的市场行为。如果你的公司处在第一个阶段(种子轮),在哪个市场更容易获得融资?又哪些企业变成了融资数十亿美元的独角兽?

5、分析投资人对不同市场的兴趣变化

使用每个行业每年的投资额,可以看到2011年以来市场如何变化:

2011年以来的市场变化

6、分析不同阶段的创业企业的受欢迎程度

按创业公司所处的发展阶段来查看平均投资额:

上图显示,A轮阶段的平均投资低于种子轮公司。而企业发展越成熟,获得投资额约大。

7、2010年以来的的总投资(以百万美元为单位)以及创业公司数量

历年总投资额

可以看到,2012年开始,AngelList上的数据爆炸增长,风险投资显著增长。这也伴随着越来越多的创业公司在全球范围内出现。

下图显示了每年在AngelList上注册的创业公司数量。

历年创业公司数量

8、全球范围的创业公司分布情况

最后,我们使用Geopy定位提取坐标,建立一个分布在世界各地的创业公司集群地图。可以获得一个交互式的地图:

创业公司集群地图

这个定位地图包括了10000+个公司的位置。虽然样本较小,但仍然非常好的显示了不同国家的科技分布情况。

在这个交互式地图上,点击集群可以打开更小的集群,持续点击可以看到企业。点击单个企业可以获得他们的网站链接。(交互式地图获取方式见文末)

根据投资额进行加权,得到一个热力图。所以人工智能的钱都去哪里了呢?

热力图

9、这些创业公司的标语中最常出现的词语

根据创业公司标语得到的词云

以上对这个数据集的处理还不够全面。还可以从员工数量(反应企业规模)、企业年龄、标语(使用NLP进行分析)中获得更多信息。甚至还可以获得——创始人、联合创始人和投资者的联系信息。

网页抓取加上数据分析和机器学习,将变成了一个非常强大的工具!

PS:如果你想获得数据和notebook、地图,请前往作者的GitHub库:

https://github.com/rodrigosnader/angel-scraper

相关报道:

https://towardsdatascience.com/data-analysis-of-10-000-ai-startups-5ea7e957e90

注:内容仅为作者观点,不代表DT数据侠立场。

题图 | 站酷海洛

本文分享自微信公众号 - DT数据侠(DTdatahero)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 获2.2亿元B轮融资,软银为何选码隆科技作为在华投资首家AI企业?

    镁客网
  • 从世界互联网大会看医疗投资下一个风口与落地,这些点你get到了吗?

    12月5日中午,第四届世界互联网大会在乌镇互联网国际会展中心宣布闭幕。至此,这场为期三天,汇聚了80多个国家和地区的1500多位嘉宾的世界级大会正式落下帷幕。 ...

    企鹅号小编
  • AI在大健康生根发芽

    人的一生,健康是永恒的话题。2020世界人工智能健康云峰会圆满结束,会上中国工程院院士李兰娟的一席话,引发人们对AI健康医疗的关注。

    刘旷
  • 本周(4.2-4.8)美团27亿美元全资收购摩拜 | 投融资汇总

    镁客网
  • 寒冬来临?AI公司面临大考

    人工智能并不是一个新的概念,它实际上诞生于 20 世纪 50 年代。在这 60 年间,人工智能的发展并不是一帆风顺,而是起起落落,先后经历了 Pre-AI 时代...

    AI科技大本营
  • Uber推出交通数据共享平台,亚马逊拟1900万美元布局AI及云安全服务 | 大数据24小时

    数据猿导读 亚马逊拟1900万美元收购人工智能公司harvest.ai;Uber推出最新交通数据共享平台Movement;我国首个农村大数据应用平台公司宣布成立...

    数据猿
  • 早报:AI人才需求集中于一线城市,七成从业者月薪过万

    1、IDC:预计2018年全球物联网支出将达7725亿美元 TechWeb报道 12月11日消息,随着5G技术的逐渐成熟与商用的逐渐临近,物联网再次受到市场的...

    用户1335017
  • AI安防芯片的悲观主义者:芯片领域只有第一第二

    芯片领域有个二元法则:每一个细分领域只有前两名能够“健康”生存,第三、第四名就只能夹缝求生。

    AI掘金志
  • 《中美AI创投研究报告》发布,解读AI创投浪潮的几点真相

    无论中美,全球许多国家都对AI充满了憧憬与渴望。人们坚信,一个新的世界即将到来。人工智能是当前人类所面对的最为重要的技术社会变革,可谓是互联网诞生以来的第二次技...

    钱塘数据
  • 报告解读:AI创新、创业、创投浪潮十大真相

    AI推理、思考、联想等智力功能与人类大脑相去甚远,目前,AI的发展水平整体上只能算是处于“微智时代”。要想让机器成精,AI还需更上几层楼,恐怕要更待些时日。虽然...

    数据猿
  • 报告 | 中美AI创投现状与趋势

    量子位作为合作媒体方,为大家带来《2017年中美人工智能创投现状与趋势研究报告》及解读 ? 人工智能开启的微智时代 AI能否完成人类历史上的颠覆式创新,开启人类...

    量子位
  • AI硬件和软件谁最能淘金?七大领域AI价值全剖析

    新智元
  • 行业|中美人工智能创投现状与趋势研究报告

    人工智能能否完成人类历史上的颠覆式创新?开启人类新时代?60余年来人们对这个话题一直争论不休。

    fishexpert
  • RPA:资本寒冬中的融资聚宝盆

    彼时弘玑Cyclone、云扩科技还没融资;来也尚未发布与奥森科技合并+融资的消息;达观数据也没对外正式宣布RPA战略……

    叶锦鲤
  • 业界 | 高额融资「狂欢」背后的旷视科技

    机器之心
  • AI泡沫前,我们怎么办?中美两国人工智能产业发展全面解读

    ? AI泡沫前,我们怎么办?这是《中美两国人工智能产业发展全面解读》课题时候遇到的一个沉甸甸的问题。       无论中美,全球许多国家都对AI充满了...

    腾讯研究院
  • AI 泡沫前,我们怎么办?中美两国人工智能产业发展全面解读

    人工智能是当前人类所面对的最为重要的技术社会变革,可谓是互联网诞生以来的第二次技术社会形态在全球的萌芽。

    腾讯研究院
  • 投融资汇总|本周(12.29-1.5),自动驾驶领域完成开年首单

    本周硬科技领域投融资事件一共43起,人工智能领域发生20起融资事件和1起收购事件,占比49%;生物医药领域发生7起融资事件和2起收购事件,占比21%;航空航天和...

    镁客网
  • AI修复技术为何这么强?原来背后的技术是……

    要说今年哪项AI技术火,我告诉你,那就是AI修复技术。老照片往往记录着童年、青春的美好瞬间。但是伴随着岁月的流逝,照片变得模糊泛黄,而有一项技术则可以完美的将图...

    Python进阶者

扫码关注云+社区

领取腾讯云代金券