首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解(NLP语料构造必备)

随着互联网和大数据的飞速发展,我们需要从海量信息中挖掘出有价值的信息,而在收集这些海量信息过程中,通常都会涉及到底层数据的抓取构建工作,比如多源知识库融合、知识图谱构建、计算引擎建立等。其中具有代表性的知识图谱应用包括谷歌公司的Knowledge Graph、Facebook推出的实体搜索服务(Graph Search)、百度公司的百度知心、搜狗公司的搜狗知立方等。这些应用的技术可能会有所区别,但相同的是它们在构建过程中都利用了Wikipedia、百度百科、互动百科等在线百科知识。所以本章将教大家分别爬取这三大在线百科。

02

大数据架构系列:预计算场景的数据一致性问题

结合 Wikipedia 和业界一些数据(仓)库产品对物化视图的定义,简单说明:物化视图是原始数据某个时刻快照的预计算结果,其中原始数据一般为表或者多张表的join,预计算过程一般是较为简单的sql查询,结果一般都会存储到新的表。可以将物化视图的生成过程抽象为Source、Transform、Sink,数据可以落地到Hdfs、Cos、Clickhouse、kudu等,用来减少数据的重复计算;另外某些场景需要在极短的时间内进行响应,如果直接查询原始数据,一般无法达到业务的需求,预计算后速度可以大大提升;在某些场景下物化视图也是数据资产,例如Cube(维度建模、kylin的概念)代表的业务模型,有时为了节省存储成本,只保留物化视图。

04
领券