首页
学习
活动
专区
工具
TVP
发布

数据之美

专栏作者
138
文章
390170
阅读量
63
订阅数
用户画像从入门到挖坑
背景 用户流量从搜索引擎为入口的增量时代到移动互联网普及人口红利不再的存量时代,这个变化对每个公司的获客成本,运营思路都产生了很大的影响,在流量日益枯竭,获客成本越来越高的时代,伴随着大数据、精细化运营、人工智能、机器学习等一大波新技术和概念的崛起、普及,它们之间有何关联?如今互联网产品又该如何运营、攻城略地?本文介绍的用户画像或许能带来一点思路。 1、用户画像的作用与意义 1.1 作用 用户画像承载了两个业务目标:一是如何准确的了解现有用户;二是如何在茫茫人海中通过广告营销获取类似画像特征的新用户。比如在
用户1177713
2018-02-24
3.8K0
巧用 Hive 模拟分布式 grep
grep 由于内置高效的字符串搜索算法,兼容各种风格的正则,且功能众多,有着 linux 下字符串处理三剑客之一的称号,但是到了如今的大数据/分布式时代,这种单机时代的工具显得有些廉颇老矣。。。 1、需求背景 我们经常会遇到需要在 hadoop 上查找原始日志,校对 ETL 数据的情况,往往很多同学直接用的老办法: hadoop fs -cat /M_track/$yesterday/* | grep ooxx | wc -l 这种情况下是要把分布在整个集群上的日志都拉到单机上 grep 然后 wc,这是一
用户1177713
2018-02-24
1.1K0
相似文档查找算法之 simHash 简介及其 java 实现
传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义 上来 说,要设计一个 hash 算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提供原始内容是否相等的信息外,还能额外提供不相等的 原始内容的差异程度的信息。 而 Google 的 simhash 算法产生的签名,可以满足上述要求。出人意料,这个算法并不深奥,其思想是非常清澈美妙的。
用户1177713
2018-02-24
4.9K0
关于腾讯的一道字符串匹配的面试题
Question:  假设两个字符串中所含有的字符和个数都相同我们就叫这两个字符串匹配,  比如:abcda和adabc,由于出现的字符个数都是相同,只是顺序不同,  所以这两个字符串是匹配的。要求高效! Answer: 假定字符串中都是ASCII字符。如下用一个数组来计数,前者加,后者减,全部为0则匹配。 static bool IsMatch(string s1, string s2) { if (s1 == null && s2 == null) return
用户1177713
2018-02-24
6340
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档