《101大数据讲堂——IT领域篇》直播总结与资料整理

导读

主讲人:

梁威

北京大学硕士;团队入选政府引入高端人才百人计划;从事大数据、人工智能算法研究与软件研发近20年;创办大数据企业从0到估值数亿元。

本次分享核心议题:

如果各种软件的数据,都可以直接采集并融合应用,不需要原软件厂商的接口配合,会给我们的业务带来哪些新的可能?

全程视频回顾

疑问解答

Q

你们的技术是网络爬虫吗?

博为:不是。

1)网络爬虫是基于浏览器的情况,不能兼容Windows平台所有软件;对于浏览器嵌入组件或winform嵌入BS的情况无法处理.

2)网络爬虫不支持写入数据的操作,仅支持采集数据;

3)网络爬虫采集数据的范围有限,主要是针对表格,不支持采集所有数据;

4)网络爬虫的完整性不能保证;

博为的数据采集,支持windows平台的几乎所有程序的任意业务数据的完整采集,并提供回写功能。

Q

也用到了etl技术吧?

博为:有ETL技术, 数据采集在前,ETL在后。没有数据时,ETL无用武之地。

Q

针对加密了的数据,如何采集?

博为:数据即使在数据库加密,但在他自己的软件客户端是解密的,通过我们对WINDOWS机制的了解和分析,仍然可以拿到解密后的数据。

Q

项目实施完,投入应用一段时间后,某一业务系统升级,是否要重新实施?

博为:跟传统接口方式一样,大部分情况 下升级是不影响原有业务系统的。如果是影响到该业务的升级,则需要实施调整一下参数。

Q

实现原理?是怎么实现的?简单解释下

博为:我们是一个大的技术的融合,并不是某一个简单的算法,总的来说,我们是基于windows操作系统的底层和网络数据的分析、IO分析还原、软件应用还原、底层数据映射等等一系列的技术组合来实现的。

Q

通过分析系统交互的网络通信,可以在没有经同意或授权情况下就截取到数据包进行分析得到的数据,会不会涉到一些法律问题呢?

博为:博为公司所有的数据采集,都进行严格的审核,在没有经过同意和授权的情况下,是绝对不会为对方进行数据采集的。

Q

现在听下来,你们就是在做数据破解,解密工作,对一般软件可行,支付系统大部分做不到。

博为:支付功能能不能打通,能不能实现实时互通 这个问题要看具体的一个应用场景,我们也做过银医通之类的项目。

Q

小区停车场的系统识别到业主的车进入车库后,推送信息到业主家里的可视对讲系统。能实现这两种系统对接吗?

博为:如果这两个系统的客户端软件可以在windows操作系统上运行,则可以实现这两种系统的对接。

Q

对设备有什么要求?

博为:硬件要求有两块,采集后的数据存储,这个和通常存储一样,采集专用电脑,配置要求不高,具体要根据项目制定实施方案。

Q

如何抓取邮箱的邮件呢?

博为:通过IO仿真采集机器人智能采集。

Q

把数据采走后,放在哪里?

博为:看客户的应用

第一种分类:直接放数据库中,主流数据都支持;

第二种分类:通过接口 WebServise等方式与应用进行交换;

第三种分类:直接生成可视化报表,并支持客户对报表进行可视化自定义定制;

第四种分类:以上综合+定制开发。

Q

学大数据需要掌握什么基础知识?

博为:建议先掌握计算机基础入门知识,然后可以选择性的了解一门开发语言。最后是掌握某种大数据的核心技术。

Q

数据整合的准确度有多高的呢?误差大不大呢?

博为:需求明确、采集后的准确率是100%。

Q

你们是不是能复制数据?

博为:可以这么理解。

Q

关系型数据库的互操作能不能解决原外键之间的联系?

博为:跟数据库无关,跟业务相关。如果业务存在联系,就可以按业务逻辑进行关联。

Q

跨操作平台的采集是做不到的哇,客户端有手机版不?手机里安装了各种商城、银行app,也是数据孤岛

博为:很抱歉,目前只支持windows平台下运行的软件的数据采集。如果手机端的商城等软件可以在windows电脑上运行的话,那也是可以采集的。

Q

取出来了的数据,还要形成自己的数据库,在实施工期这么短的情况下,是如何快速形成的呢?

博为:我们的采集有一整套的支持体系,针对不同的行业有不同的行业方案模型,因此可以快速完成行业数据采集。

Q

就是显示到界面上的数据,也是在SQL数据查询语句过程中组织起来的,有些它并不一定是数据库中的真实的字段数据,如何识别和处理的?

博为:就目前所有的案例来说,实际上大家并不是真的需要数据库的内容,是一个习惯的思维方式。比方说性别:男和女,数据库中存的可能是0和1。对于客户来说,他可能希望的是M和F。那么采集工具在这个过程中,拿到男和女并对应转化为M和F就解决问题了。

Q

取得数据后能否再写回去,与其它系统进行的交互操作,如何实现?

博为:写回去的逻辑和采集的逻辑是一样的,只是我们的采集引擎可以根据业务逻辑。

Q

就以你们的数据采集方法 ,是可以做到在不知道界面操作情况下,是不是也可以截取并分析出哪些是关键数据?哪些是业务数据数据的呢?

博为:出于产品的架构设计和其它一些法律风险的考虑,我们暂不考虑承接此类业务的数据采集。

Q

你们公司的软件与BI有何异同?

博为:BI主要是一个报表功能,解决的是有数据的前提下,如何展示数据的问题;我们的软件不光解决数据到哪里去,还解决了数据从哪里来的问题。

Q

有能测试的数据吗?

博为:我们的产品经过严格的测试,并在多个项目的成功稳定持续运行,因此是不需要在客户现场测试的。采集的数据我们的实施工程师会根据要求进行核对,您只要在验收阶段检查数据的准确性即可。

Q

关键还有采集数据后,是保持了原来系统的数据关系 ,还是要新生成自己的数据之间的关系?

博为:采集完数据之后,重新生成了自己数据关系并保留了原有系统的业务逻辑关系。

博为直播一定只给大家带来干货

分享博为在产品研发和市场方面的心得

更多分享,敬请关注我们的公众号/微信群

—博为101异构数据采集技术—

无需软件厂商配合,Windows平台各种软件系统数据直接采集。

已成功采集1000余种行业软件系统数据,累积医疗、金融、政务、交通等多行业数据采集项目实施经验。

加入社群(行业微信群)

请添加管理人员

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171221A0GLG800?refer=cp_1026

扫码关注云+社区