前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >全文检索数据挖掘

全文检索数据挖掘

作者头像
sofu456
发布2019-07-09 14:04:29
7120
发布2019-07-09 14:04:29
举报
文章被收录于专栏:sofu456sofu456

1.全文索引

全文检索(Full-text Search):先建立索引,再对索引进行搜索的过程,搜索结果为匹配文本

一般过程:索引创建(Indexing)和搜索索引(Search)

  • 索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
  • 搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。
  • 停词(stop word):英文中没有任何意义的词,不创建索引

2.数据挖掘与数据仓库

数据挖掘(DM)

传统的数据库分析数据量太大后效率低,产生数据挖掘和数据仓库等新技术。数据挖掘功能:

1.自动预测趋势和行为

2.关联分析

3.聚类

4.概念描述

5.偏差检测

http://os.51cto.com/art/201012/238194.htm

数据挖掘之分词器

1.基于词典分词(目前主流的分词方法,解决70~80%的问题,二元以上分词后查找字典直到找不到为止):正向最大匹配、逆向最大匹配、双向最大匹配、最佳最大匹配

2.基于语义分词(还不成熟)

3.基于统计分词(优先高频词汇)

http://www.csdn.net/article/2014-09-11/2821642-data-mining-by-Lanceyan

数据仓库(DW)

数据仓库是一个环境,组成包括: 数据抽数据净化 数据载入 信息发布系统 操作型数据和外界数据 数据集市 报表,查询, EIS工具 OLAP 工具 数据挖掘工具 操纵平台 元数据 管理平台

3.网络爬虫

建立URL和分词元数据的键值对,提供全文检索URL

http://www.cnblogs.com/elaron/archive/2013/07/24/3213333.html

http://www.admin10000.com/document/5250.html

4.Lucene

开源的搜索引擎库,提供全文索引方法

反响索引:词-文章键值对 倒排索引:倒过来,文章作为key值

Lucene建立索引五大类: Document、Field、Analyzer(分词器)、IndexWriter、Directory

Lucene搜索: Query、Term、TermQuery、IndexSearcher、Hits

http://blog.csdn.net/ceclar123/article/details/10150839

http://www.cnblogs.com/xing901022/p/3933675.html

http://lucene.apache.org/core/4_2_1/core/overview-summary.html(lucene api)

词库素材

词库在网上很多如,QQ拼音、搜狗拼音等词库都已加密,可以找一些未加密的词库,导入lucene词库管理工具

5.Solr

Solr:基于Lucene建立的服务器,提供全文搜索服务

Nutch:Web搜索引擎

HadDoop:分布式服务框架

参考:

http://my.oschina.net/apdplat/blog/228615?p=1(word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估)

http://3dobe.com/archives/44/IK分词器原理与源码分析

http://www.th7.cn/Program/net/201212/117929.shtml(Lucene.net全文检索架构)

http://blog.csdn.net/liuweitoo/article/details/8124440(Lucene)

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2015年09月24日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.全文索引
  • 2.数据挖掘与数据仓库
  • 3.网络爬虫
  • 4.Lucene
  • 5.Solr
相关产品与服务
Elasticsearch Service
腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档