腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
我是攻城师
专栏作者
举报
492
文章
958116
阅读量
119
订阅数
订阅专栏
申请加入专栏
全部文章(492)
java(143)
其他(96)
编程算法(52)
es 2(50)
spark(47)
存储(39)
hadoop(31)
大数据(30)
lucene/solr(29)
数据库(27)
数据结构(26)
apache(25)
开源(23)
api(20)
sql(19)
github(19)
jdk(19)
jvm(18)
scala(17)
hive(16)
安全(16)
缓存(15)
搜索引擎(14)
linux(14)
分布式(14)
hbase(14)
oracle(11)
数据分析(11)
git(10)
mapreduce(10)
二叉树(10)
node.js(9)
maven(9)
机器学习(8)
json(8)
人工智能(8)
shell(8)
python(7)
spring(7)
hashmap(7)
容器镜像服务(6)
容器(6)
网络安全(6)
https(6)
javascript(5)
云数据库 SQL Server(5)
云数据库 Redis(5)
ide(5)
nginx(5)
yarn(5)
spring boot(5)
数据处理(5)
windows(5)
系统架构(5)
nat(5)
xml(4)
nosql(4)
eclipse(4)
opencv(4)
c++(3)
html(3)
jar(3)
游戏(3)
jdbc(3)
npm(3)
php(2)
ruby(2)
go(2)
servlet(2)
react(2)
mvc(2)
打包(2)
TDSQL MySQL 版(2)
网站(2)
http(2)
压力测试(2)
正则表达式(2)
yum(2)
numpy(2)
zookeeper(2)
gradle(2)
微信(2)
微服务(2)
数据挖掘(1)
swift(1)
c 语言(1)
perl(1)
.net(1)
bootstrap(1)
angularjs(1)
css(1)
ajax(1)
android(1)
单片机(1)
tomcat(1)
unix(1)
centos(1)
深度学习(1)
文件存储(1)
日志服务(1)
mongodb(1)
图像处理(1)
自动化(1)
黑客(1)
爬虫(1)
html5(1)
图像识别(1)
grep(1)
cdn(1)
tcp/ip(1)
flash(1)
kernel(1)
anaconda(1)
机器人(1)
数据可视化(1)
物联网(1)
安全漏洞(1)
云计算(1)
apple(1)
com(1)
google(1)
microsoft(1)
yahoo(1)
磁盘(1)
域名(1)
搜索文章
搜索
搜索
关闭
Lucene暴走之巧用内存倒排索引高效识别垃圾数据
大数据
机器人
编程算法
java
识别垃圾数据,在一些大数据项目中的ETL清洗时,非常常见,比如通过关键词 (1)过滤垃圾邮件 (2)识别yellow网站 (3)筛选海量简历招聘信息 (4)智能机器人问答测试 ........ 各个公司的业务规则都不一样,那么识别的算法和算法也不一样,这里提供一种思路,来高效快速的根据关键词规则识别垃圾数据。 下面看下需求: 业务定义一些主关键词若干少则几百个,多则几千个上万个,例如: Java代码 公司 机车厂 化纤厂 建设局 实业集团 中心店 桑拿中心
我是攻城师
2018-05-14
748
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档