专栏首页DT数据侠创业者注意了!大数据教你如何在众筹网站上成功融资

创业者注意了!大数据教你如何在众筹网站上成功融资

有好点子,想创业,但没钱,怎么办?Kickstarter是美国著名的众筹网站,在这里可以帮有好点子的创业者实现梦想!本文数据侠抓取了Kickstarter的众筹数据,在进行数据可视化与分析后,得出了一些洞察结果,也许可以帮助到想要创业的朋友哟!

具备哪些特点,能够让一个初创项目最大可能获得成功?

▍项目概况

Kickstarter是最知名的众筹网站之一,在其平台上的筹款总额已经超过39亿美元。这个项目的目标是通过爬取Kickstarter数据并进行分析,来找出成功项目具备的特点。

与传统的融资方式(天使投资、小微贷款等)相反,Kickstarter上的投资人需要充分信任投资的项目,我说的项目不是那些有着可大规模盈利的商业模式,也不是说那些能带来高回报的项目。这些投资者其实是被项目方设置的“奖励”(Rewards)所吸引,它与投资者的投入额度等级有关,保证了投资者能从投入中获得相应等级的回馈。

在平台上开始一个项目的步骤很简单,下面我们也会具体深入研究如何让融资成功的机率最大化。

  • 创建一个项目
  • 设置最低融资目标
  • 设置“回报”的额度
  • 选择一个截止日期

值得注意的是,如果无法达到最低融资目标,项目需要把钱退回给用户个人。

▍爬取数据

在写爬虫脚本之前,需要搞清楚如何在不同项目页面中自动翻页,来爬取这20多项变量。为此我设置了三个主要的循环,第一个循环会浏览所有分类和次级分类,并得到每个次级分类的首页信息。我发现Kickstarter只允许次级分类的页面控制在200以内。

第二个循环使用从循环一得到的所有网址,并且加上一个网页编号。之后为每个页面提取出特定的项目网址,每个次级分类最多只有12个项目/网页。第三个循环会从所有项目页面中爬取需要的变量,比如预融资金额、创建日期、截止日期、创办者信息等。

第四个循环要更小一些,它从第三个循环得到的每个网页所对应的常见问题页面中爬取数据,来补充用于分析的变量。

在检查所有Kickstarter网页元素以及在 Scrapy Shell里测试我的XPath(在XML 文档中查找信息的语言)后,我发现,Kickstarter的网站基本是运行在JavaScript上的,但不幸的是Scrapy本身完全无视了JS元素。这导致我只收集到了15%的数据。在做了一点研究后,我加入了一个轻量的浏览器Scrapy Splash,它能帮助我处理JS网页,让Scrapy能读取网页元素。

另一个问题是Kickstarter会禁你的IP,最后我把爬取的间隔加到3秒,并且在另一台机器上运行我的爬虫。

▍数据清洗

在提取了所有需要的数据后,我需要在Python里进行处理,从而将数据清洗得到可以用于分析的数据。下面是5个主要的变化:

1 )将地址字符串转换成单独的城市,州字符串。

2 )将更新次数,回报水平,创办项目数和日期的字符串转化成整数。

3 )创建了众筹完成度的变量(已融资额/计划融资目标),作为我项目成功的指标。

4 )创建一个项目时长的变量,基于项目创办时间和截止时间。

5) 去掉丢失数据和零数据的变量。

▍数据分析

我首先看了一下成功机率的分布。

很明显我们有几个异常值,我使用基本的IQR(四分位数间距)方法来进行调整。我调整IQR的值,从而让有关的融资百分比可以被包含进来。下面是相关结果:

接下来就是提炼构成一个成功项目的主要特征。

1 )根据四分位数分布和融资比例得到的比较成功的项目类型:舞蹈、剧院和音乐

在次级分类方面,舞蹈和剧院类项目的次级细分类别之间区分不大。而音乐累项目,最好可以避开嘻哈和电子舞曲,因为这两个的平均融资度只在40%左右。

2)最理想的融资目标:在300到1700美元之间比较理想,更具体的,300美元或者400美元比较合适。

3) 项目时长:除了那种只有一天的项目外,比价理想的时长是一周,或者4周。因为1天,9天和15天的项目成功率更高。

4.) 项目落地的地点,佛蒙特州最好,怀俄明州最差。

5.) 评论和项目更新次数对融资完成度有最明显影响,它们对应的数值超过20时,都可以明显提高项目成功率。

▍未来可优化工作

  • 收集更多数据,至少200行/次级分类。
  • 设计更高效的scrapy代码,来尽可能减少爬取的用时。
  • 建一个模型来预测项目是否可能成功。

注:本文编译自纽约数据科学院文章Building a Successful Kickstarter Campaign,点击“阅读原文”查看。内容仅为作者观点,不代表DT数据侠立场。文中图片部分来自作者。

作者 | Tristan Dresbach

题图 | 站酷海洛

期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。

▍关于DT×NYCDSA

DT×NYCDSA是DT财经与纽约数据科学学院合作专栏。纽约数据科学学院(NYC Data Science Academy)是由一批活跃在全球的数据科学、大数据专家和SupStat Inc. 的成员共同组建的教育集团。

▍数据侠门派

本文数据侠Tristan Dresbach,前Target(塔基特百货)商业分析师,卡尔顿学院经济学学士,曾在剑桥大学和华东师范大学学习,2018年在纽约数据科学院学习数据科学课程。


那些你可能错过的干货

▍加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加DT君微信(dtcaijing003)并备注“数据社群”,合作请联系datahero@dtcj.com。

本文分享自微信公众号 - DT数据侠(DTdatahero)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 中国将成第一大数据资源国;银联家乐福合力开发大数据 | DT数读

    过去一周,国际、国内的大数据相关公司都有哪些值得关注的新闻?数据行业都有哪些新观点和新鲜事?DT君为你盘点解读。

    DT数据侠
  • 百度启动最大规模AI公开数据集计划;Uber承认数据遭窃 | DT数读

    过去一周,国际、国内的大数据相关公司都有哪些值得关注的新闻?数据行业都有哪些新观点和新鲜事?DT君为你盘点解读。

    DT数据侠
  • 首席数据官应该讲什么“基本法”?

    这是一个人人都谈大数据的时代,尤其对很多企业来说,数据已是议事日程上的当务之急。首席数据官(CDO)这一新兴职位就在这样一种背景下越发壮大。但问题是,首席数据官...

    DT数据侠
  • 如何避免大数据分析项目的失败

    导语 大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。大数据和分析项目也可能导致巨大的失败,导致浪费大量的...

    企鹅号小编
  • 报告 | 大数据引爆共享经济 — 2016年Q2大数据投融资分析报告

    根据不完全统计,2016年第二季度,中国大数据企业共计发生34起投融资事件,相比上个季度环比增长70%。从融资轮次来看,本月获融资的企业有2起为新三板募资,3起...

    数据猿
  • 大数据时代做企业高管应了解哪些知识

      在大数据战略合作协议签约仪式上,国家统计局局长马建堂讲了这样一席话:“一个大规模生产、分享和利用大数据的时代正在来临。谁拥有了大数据,谁就占领了制高点,取...

    小莹莹
  • 大数据24小时 | 三星“跟风”布局人工智能,5亿信息泄露让雅虎深陷“蝴蝶效应”

    <数据猿导读> 物流信息数据服务平台“快金数据”获启赋资本数千万元投资;广发银行推出大数据产品“企业通”;基于大数据的信息技术公司“精标科技”申请新三板挂牌上市...

    数据猿
  • 入门选手必备 | 大数据分析学习之路

    目录: 大数据分析的五个基本方面 如何选择适合的数据分析工具 如何区分三个大数据热门职业 从菜鸟成为数据科学家的 9步养成方案 从入门到精通—快速学会大数据分析...

    CDA数据分析师
  • 中国将成第一大数据资源国;银联家乐福合力开发大数据 | DT数读

    过去一周,国际、国内的大数据相关公司都有哪些值得关注的新闻?数据行业都有哪些新观点和新鲜事?DT君为你盘点解读。

    DT数据侠
  • 【干货】大数据与政府转型的关系

    本文长度为3500字,建议阅读7分钟 2016年7月7日清华大数据思享会公共管理大数据系列在清华数据创新基地(清数D-Lab)成功举办,本次思享会邀请拓尔思副总...

    数据派THU

扫码关注云+社区

领取腾讯云代金券