专栏首页爬虫技术从数据仓库到百万标签库,产品经理如何用好大数据?
原创

从数据仓库到百万标签库,产品经理如何用好大数据?

大数据深度挖掘、大数据精准营销、大数据科研等是目前比较热门的大数据应用关键词,随着大数据发展,利用大数据做营销的手段越来越丰富,但也越来越难了。

很多企业通过大数据深度爬虫技术采集了各种数据集合,但是很多数据是不是标准化的,在使用的上很难完全爆发出它的价值,所以很多企业都采用“数据标签”的方式给每个数据库打上各种应用场景的标签,每个企业有自己的标签库,或者说是DMP吧,但毕竟不是每个企业的产品经理都可以有能力做到对几十万亿数据库建立标签的,原因很简单,主要是数据量太大、数据维多太多、数据集合太杂、数据库太多。关联穿透非常大,而且需要对数据库设计数据表熟悉。

因为一直研究大数据深度爬虫技术,通过技术3个月完成了9000万企业工商完整数据挖掘和存储、通过5个月的爬取建立完9000万的裁判文书数据库、专利库和商标库也是几千万还有其他土地数据库、医疗数据库等等数十亿的数据库,那么庞大的数据量,存储就是个问题,然后搜索查询又是问题,因为很多时候 不能单单查询一个数据,而是需要关联多种数据库去查询 找到各自特征的数据。那么需要实现大数据库的多种数据库的穿透关联就得使用标签库方法来实现,就是为每个数据库都打上各种标签,主要包括五大部分内容:标签库定位、标签体系、产品功能、平台架构

一、标签库定位

标签库以标签形式统一客户群数据的封装规范和操作风格,从而实现客户洞察知识的沉淀及共享,并通过产品化的形式实现目标客户群的快速生成和发布,提升营销渠道的客户群投放效率,标签库建设的目的就是为了营销,而不是为了分析。

企业的标签库跟广告产业的DMP是类似的,企业内部对自己的用户进行精准投放依赖的是标签库,广告产业DSP依赖的则是DMP。

二、标签体系

标签库的核心当然是标签体系,但每个企业打造的标签体系其实都不太一样,既有共性,也有个性。

共性主要体现在用户的一些基础属性,比如年龄、性别、职业、住址等等,个性是由于每个企业的产品特点、基础数据、目标受众都不太一样,比如运营商的标签会侧重通信消费、通信行为,而电商的标签则会侧重线上消费的各种特征。

三、标签库功能

标签体系是标签库的内涵,而标签库的功能决定了这些标签能否方便使用,酒香也怕巷子深。

标签库的核心功能包括标签创建、标签查询、客户群生成、客户群推送、标签元数据、调度管理这几项,其他的诸如标签编辑、标签停用、标签下线、标签评论、标签审批、标签推荐、安全管理等等,可以放到次优先级。很多看起来挺好的功能在运营初期一点价值都没有,你需要聚焦核心功能。

如何为数据库创建标签

标签创建一般要支持三种模式:简单模式,高级模式,导入模式

简单模式:面向业务人员,可以基于现成的模型宽表选择属性字段生成标签,如下图所示,但受限于开放的宽表的能力和业务人员的驱动力,在我们的实践中,这种简单模式并没有获得成功。

一直在研究大数据挖掘深度技术,后面讲不断给大家分享个人的心得和经验,目前因为各种数量太大,确实遇到如何把这些数据抽出来标准化、标签化。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python爬虫-2018那年我破解了天某查

    2017年我自己写代码开发了各种爬虫系统,喜欢破解各种网站验证码,cookie加密,采集数据被封ip技术,从事了5年多php和python技术研发工作,破解过天...

    孔雀
  • Python从事工商、专利、商标大数据遇到的坑!

    最近在从事数据聚合技术研发工作,刚开始我主要是聚合工商的企业数据源、专利网的数据源、裁判文书网的数据源,刚开始遇到不少的坑,各种验证码、各种封IP等限制。做数据...

    孔雀
  • python爬虫-selenium破解封IP+TensorFlow机器人AI技术破解网页加密

    python爬虫-selenium破解封IP+pytesseract破解验证码+AI破解网页加密

    孔雀
  • 001.html常用的基础知识点

    主要包括结构(Structure)、表现(Presentation)和行为(Behavior)三个方面。

    qubianzhong
  • 用户画像实践:神策标签生产引擎架构

    导读:用户画像是建立在数据基础之上的用户模型,是产品改进、精准营销等业务场景中不可或缺的重要基础。而构建用户画像的过程就是要给用户打上各种维度的标签,并基于标签...

    木东居士
  • 用HTML写一篇简单的日记

    在这篇文章之前,已经初步的了解了HTML是怎么创建了,接下来,我们要用创建的文件去写我们进入前端的第一个demo,当然了,如果你忘记了,我之前的文章里也有详细的...

    守护最温柔的金木
  • HTML中的容器标签

    什么是容器标签?在HTML开发中我们常常会使用一类标签作为容器放置一些内容,我们把这类标签称之为容器标签,可以作为容器标签的包括列表标签、表格标签、框架标签、布...

    一墨编程学习
  • 【融职培训】Web前端学习 第2章 网页重构2 常用的html标签

    上一节我们已经了解了html和css的基本概念,本节通过上一节的一个例子来说说HTML的语法.

    学习猿地
  • Web前端学习 第2章 网页重构2 常用的html标签

    上一节我们已经了解了html和css的基本概念,本节通过上一节的一个例子来说说HTML的语法.

    学习猿地
  • 学术资讯 | 优Tech分享-To B业务中的图像多标签识别

    现实生活中,人们通常会使用手机记录生活,拍摄并保存自己的所见所闻。因此,对相册中的照片场景及相关进行识别分类,帮助人们更快速整理照片成了一种不可或缺的需求。

    优图实验室

扫码关注云+社区

领取腾讯云代金券