专栏首页数据猿烯牛数据创始人兼CEO李锦香:大数据助力一级市场量化投资

烯牛数据创始人兼CEO李锦香:大数据助力一级市场量化投资

数据猿导读

目前人工智能投顾主要集中在二级市场,因为一级市场数据不透明,大量企业信息以文本形式存在,数据抓取难,数据甄别难,所以一级市场很难用量化方式利用机器自动投资。

作者:李锦香

如今,随着社会不断发展,技术不断进步,国内外各大金融机构已经在大数据、人工智能、区块链等新技术上有很多尝试,智能客服、智能投顾等新金融形式也早已不新鲜。那么,这些前沿新科技遇到严肃谨慎的金融业,究竟是“黑科技”般的存在,还是技术宅们的另一场狂欢呢?

4月25日,由数据猿主办的《当金融遇上黑科技》线下主题沙龙活动在上海腾讯众创空间顺利举行。活动上,来自传统金融机构、金融科技领域新秀、大数据与人工智能专家等一众大咖汇聚一堂,畅聊了大数据、人工智能、区块链等“黑科技”与金融业的那些事!

以下是由数据猿精编整理发布的 烯牛数据创始人兼CEO李锦香 的精彩分享:

分享长度为1700字,建议阅读3分钟

今天要跟大家分享我们在一级市场中量化、投资的探索。刚才主持人说到量化投资,大家第一反应都是二级市场。一级市场到底能不能用量化的方式让机器自动投资,我觉得答案肯定是不行的。

主要是因为一级市场的数据极不透明,而且公司大量的信息是存在文本当中的,本身对信息提取就很困难,甄别就更难了。

我们希望通过大数据的方法,帮助一级市场的创业公司或投资人,进一步提升工作效率。这是我们的定位,或者说是在探索一级市场的量化投资。

我们公司2016年6月份成立,现在快一年了了。我以前做过VC,也做过管理咨询和百度的产品。我们技术团队有多年经验的CTO,也有数据科学家。

为什么我们想做这样的事?说实话,我在创业的时候没有想太多,主要是因为我2012年开始做投资,当时VC还是一个让很多人觉得陌生的事情。包括很多创业者找我融资的时候,我要给他讲天使轮和A轮有什么区别,当时很纯粹的大家从天使轮做起,然后A轮、B轮、C轮,之后该上市上市该倒闭倒闭了。现在融资也很复杂。天使轮之后有Pre­A,B轮之前有一个Pre­B。

在市场发生巨变的过程中,投资人以及投资机构的工作效率变得越来越低。但是他们的工作方式是一沉不变的,甚至越来越懒。因为围绕投资人的业态开始纷繁复杂起来,媒体也越来越多。

这个时候我就在想为什么不能用机器提升效率,比让投资经理做的常规任务:每天更新表格,筛选符合我们的项目。这个工作就可以让机器来做,所以我就有了烯牛数据。我们7月上线,11月拿到了天使轮,然后开放注册。

首先我们需要一个数据库。2015年你之前,是IT桔子独霸天下。但是从下半年开始,出现了大量和我们类似定位在一级市场的公司。有这样的变化,我认为很大程度是因为数据源增加了。2014~2015创业火了,大量的业态生产,随之而来的就是和创投有关的数据源增加。

我们底层数据库大概有20万家左右的创业公司。从新增量的角度来说,每天新增公司两三百家;从新闻角度说,每天新增的新闻条数大概六七百条。存量和增量上,2015、2016年探索数据库的公司大家做的是差不多的,有很多爬虫扒完做聚合,区别是应用场景不一样。

我们的核心技术是投前发现领域。我不鼓励用户只是把数据库用来搜公司名。我们希望将数据库应用在投资人早期找案子的过程中。大多数人在看项目的时候都会有自己关注的领域。比如现在大家关注的人工智能,能不能有产品可以提供这个领域的公司,多少家团队比较好,最好还可以看到业绩比较。

所以,我们在数据库的基础上做了一些所谓的量化分析,量化投资的探索。我们用标签体系做探索,共有两大类标签:一类是灰色的描述性标签;一类是评价性标签。这是我们烯牛的特点。

通过描述性标签可以知道这家公司的业态,同样可以看到类似业态的公司。通过评价性标签,我们可以知道这家公司团队是否优秀。

另外我们还有一个探索。有的人希望设定好关注的领域,机器可以直接搜索符合条件的公司,理论上不会错过任何一个好的项目。这是我们做的非常好的功能­­私人订制。当然这也是基于标签的。

我们还会对整个行业进行追踪。我们抓取了市面上近百个媒体源做了一个根据行业的自动分类。选择行业后,相关的新闻都能够及时的看到,有点像创业版的今日头条。

关于我们投前投资人找项目这块的产品设计,不光投资人在用这个产品,包括很多创业者也在用。很多人通过私人订制的功能监测自己的竞争对手。因此,应用市场不仅仅局限于投资人。

而投中推进就只局限于投资人,这是我们做的一个面向投资机构的项目管理功能。它最大的亮点就是一键录入。我们还有投后管理,它最大的特色就是追踪。往往很多投资人把钱投出去后就不太管这个项目了,这是很危险的。我们会有机器帮助追踪你投资的公司是不是有异动。这个功能未来会开放成一个更广泛适用于更多的人功能,这可以认为是类似创业版情报的东西。

另外还会有我们内部管理的模块。这个其实是统计,但又不仅仅是统计,因为核心还是基于大数据。来去对早期的非上市的公司,基于文本做各种各样的处理,表现的形式,很大的核心是标签。我们去评价它、描述它,我们在上面叠加一些功能,帮助大家做基于数据的发现和追踪。

本文分享自微信公众号 - 数据猿(datayuancn),作者:李锦香

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-04-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 天云数据副总经理李从武:大数据实践三部曲

    <数据猿导读> 2016中国信息大数据通信大数据大会在京召开,天云数据副总经理李从武在大会上发表了以“大数据实践三部曲”为主题的演讲。他主要格局整个大数据从平台...

    数据猿
  • 我奥篮球创始人林晓勇:连接每个篮球梦想,做中国篮球大数据变革的推动者

    <数据猿导读> 在数据猿、星河互联、球秘APP共同举办的《体育大数据·巅峰思享会》上,我奥篮球的创始人林晓勇表示,三到五年之后,中国篮球赛事大数据准备工作、基础...

    数据猿
  • 中国优步大数据负责人江天:优步交通大数据探索与应用

    <数据猿导读> 中国优步大数据负责人江天在中国信息通信大数据大会上发表了以“优步交通大数据探索与应用”为主题的演讲。他讲到,优步的大数据应用有两个方向:一是利用...

    数据猿
  • 怎样在初创公司里搭建稳定、可访问的数据基础架构

    数据是创立Asana的核心部分,并且每一个团队都依赖他们自己的方式。我们的负责增长的团队依靠事件数据来分析试验结果(对比试验)。我们做很多快速的实验–通常会有很...

    CSDN技术头条
  • 扎克伯格2017哈佛毕业演讲:自我价值让我们存在,使命感让我们所向披靡

    大数据文摘
  • [干货]金电联行:大数据在信用体系建设方面的探索和实践

    大数据文摘
  • 盲目崇拜数据,是因为还不曾真正了解数据

    我们正处于数据驱动的人工智能浪潮中,在折服于数据的强大力量的同时,有些同学会对数据望而生畏,盲目崇拜。本文将深入浅出地介绍数据收集、统计、利用的全过程,帮助大家...

    AI科技评论
  • 《大数据时代》作者维克托·迈尔-舍恩伯格:爆发式创新,云中大数据如何赋能下一轮经济增长

    5月18日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会在北京国家会议中心隆重举办。英国牛津大学教授、《大数据时代》作者Viktor Mayer-S...

    华章科技
  • Idea断点调试后面的代码不走

    有时候我们调试的时候可能需要走到某些行后面的代码不走了,比如我们会去删除数据库的数据然后我们不希望他去删除,当直接中断程序实际上是会去删除的,我们需要进行如下操...

    诺浅
  • 11.26 访问控制Directory

    访问控制 – Directory目录概要 核心配置文件内容 <Directory /data/wwwroot/111.com/admin/> ...

    运维小白

扫码关注云+社区

领取腾讯云代金券