在Lucene或Solr中实现高亮的策略

景 最近要做个高亮的搜索需求,以前也搞过,所以没啥难度,只不过原来用的是Lucene,现在要换成Solr而已,在Lucene4.x的时候,散仙在以前的文章中也分析过如何在搜索的时候实现高亮,主要有三种方式,具体内容,请参考散仙以前的2篇文章: 第一:在Lucene4.3中实现高亮的方式 http://qindongliang.iteye.com/blog/1953409 第二:在Solr4.3中服务端高亮的方式 http://qindongliang.iteye.com/blog/2034270 二:方案探究 从整体来讲,主要有2种实现方式,第一就是前台展示数据时使用js高亮,第二就是服务端高亮后返回给前台 后端高亮的流程:

前端高亮的流程:

三:优劣分析 后端高亮: 性能:并发量大的情况下,可能对服务器的性能造成一定影响。 可靠性:高,在浏览器禁用js脚本情况下,仍可以正常显示 前端高亮: 性能:由客户端渲染,相对性能稍高 可靠性:低,在浏览器禁用js脚本情况下,高亮失效 四:注意事项 前台高亮时,需要把句子分词后的词组,返回给前台js,便于正则替换,关于把句子分词,可以用lucene也可以用solr,方式分别如下(代码显示比较乱,可以直接点击底部左下角阅读原文): 在Lucene中:

Java代码

  1. /***
  2. *
  3. * @param analyzer 分词器
  4. * @param text 分词句子
  5. * @throws Exception
  6. */
  7. public static void analyzer(Analyzer analyzer,String text)throws Exception{
  8. TokenStream ts = analyzer.tokenStream("name",text);
  9. CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);
  10. ts.reset();
  11. while(ts.incrementToken()){
  12. System.out.println(term.toString());
  13. }
  14. ts.end();
  15. ts.close();
  16. }
/***
	 * 
	 * @param analyzer 分词器
	 * @param text  分词句子
	 * @throws Exception
	 */
	public static void analyzer(Analyzer analyzer,String text)throws Exception{
		        TokenStream ts = analyzer.tokenStream("name",text);
		        CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);
		        ts.reset();
		        while(ts.incrementToken()){
		            System.out.println(term.toString());
		        }
		        ts.end();
		        ts.close();
	}

在solr中,方式1:

Java代码

  1. /***
  2. * 根据字段类型分词并打印分词结果
  3. * @param text
  4. */
  5. public static void showAnalysisType(String text)throws Exception{
  6. String fieldType="ik";//分词类型
  7. //调用服务
  8. FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
  9. //设置类型
  10. request.addFieldType(fieldType);
  11. //设置待分词的句子
  12. request.setFieldValue(text);
  13. //sc=private static HttpSolrClient sc=new HttpSolrClient("http://localhost:8983/solr/one");
  14. //得到结果
  15. FieldAnalysisResponse response =request.process(sc);
  16. //得到对应的Analysis
  17. Analysis as = response.getFieldTypeAnalysis(fieldType);
  18. List<String> results = new ArrayList<String>();
  19. //使用guava的库,将iteratro对象转换为List对象
  20. List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());
  21. //取某一个fitler的分词结果,因为一个fieldtype很有可能配置了多个filter,每一步经过
  22. //filter的结果都不一样,所以此处,要指定一个获取分词结果的filter,跟因为有关
  23. //所以散仙这里就写list.size-1了,注意此处的值,并不是固定的
  24. for(TokenInfo token:list.get(list.size()-1).getTokens()){
  25. //得到分词数据结果
  26. results.add(token.getText());
  27. }
  28. }
	/***
	 * 根据字段类型分词并打印分词结果
	 * @param text
	 */
	public static void showAnalysisType(String text)throws Exception{
	
		String fieldType="ik";//分词类型
		//调用服务
		FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
		//设置类型
		request.addFieldType(fieldType);
		//设置待分词的句子 
		request.setFieldValue(text);
		//sc=private static HttpSolrClient sc=new HttpSolrClient("http://localhost:8983/solr/one");
		//得到结果
	    FieldAnalysisResponse response =request.process(sc);
	    //得到对应的Analysis
	    Analysis as = response.getFieldTypeAnalysis(fieldType);
	    List<String> results = new ArrayList<String>();
	    //使用guava的库,将iteratro对象转换为List对象
        List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());
        //取某一个fitler的分词结果,因为一个fieldtype很有可能配置了多个filter,每一步经过
        //filter的结果都不一样,所以此处,要指定一个获取分词结果的filter,跟因为有关
        //所以散仙这里就写list.size-1了,注意此处的值,并不是固定的
	     for(TokenInfo token:list.get(list.size()-1).getTokens()){
	    	 //得到分词数据结果
	    	 results.add(token.getText());
	     }
	     
	}

在solr中,方式2:

Java代码

  1. /***
  2. * 根据字段名分词并打印分词结果
  3. * @param text
  4. */
  5. public static void showAnalysis(String text)throws Exception{
  6. //此处是字段名
  7. String fieldName="cpyName";
  8. //固定写法
  9. FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
  10. //添加field
  11. request.addFieldName(fieldName);
  12. //设置需要分词的句子
  13. request.setFieldValue(text);
  14. //请求solr服务得到结果
  15. FieldAnalysisResponse response =request.process(sc);
  16. //封装结果,返回,可能供其后续调用的业务处理
  17. List<String> results = new ArrayList<String>();
  18. //根据字段名获取结果
  19. Analysis as=response.getFieldNameAnalysis(fieldName);
  20. //使用guava工具包,转iterator为List
  21. List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());
  22. //打印分词结果
  23. for(TokenInfo token:list.get(list.size()-1).getTokens()){
  24. System.out.println(token.getText());
  25. }
  26. }
/***
	 * 根据字段名分词并打印分词结果
	 * @param text
	 */
	public static void showAnalysis(String text)throws Exception{
		 //此处是字段名
		 String fieldName="cpyName";
		 //固定写法
		 FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
		 //添加field
		 request.addFieldName(fieldName);
		 //设置需要分词的句子
		 request.setFieldValue(text);
		 //请求solr服务得到结果
	     FieldAnalysisResponse response =request.process(sc);
	     //封装结果,返回,可能供其后续调用的业务处理
	     List<String> results = new ArrayList<String>();
	     //根据字段名获取结果 
	     Analysis as=response.getFieldNameAnalysis(fieldName);
	     //使用guava工具包,转iterator为List
	     List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());
	     //打印分词结果
	     for(TokenInfo token:list.get(list.size()-1).getTokens()){
	    	 System.out.println(token.getText());
	     }
	     
	}

原文发布于微信公众号 - 我是攻城师(woshigcs)

原文发表时间:2015-07-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏乐沙弥的世界

替代变量与SQL*Plus环境设置

scott@ORCL> select * from emp where empno=7788;

782
来自专栏成长道路

Jcseg分词器的实现详解

1.之前的项目一直都是用的ik分词器,但是最近的一个项目项目大佬说ik好像很长时间都没更新,版本太老旧,故而用了新的jcseg的分词器,于是也上网找了一些资料,...

2950
来自专栏【转载】DRF+Vue+Mysql_生鲜超市系统

五、商品列表页

在goods文件夹下面新建view_base.py,为了区分django和django rest framework的view

2160
来自专栏MasiMaro 的技术博文

windows 下文件的高级操作

本文主要说明在Windows下操作文件的高级方法,比如直接读写磁盘,文件的异步操作,而文件普通的读写方式在网上可以找到一大堆资料,在这也就不再进行专门的说明。

2503
来自专栏菩提树下的杨过

Spring Security笔记:登录尝试次数限制

今天在前面一节的基础之上,再增加一点新内容,默认情况下Spring Security不会对登录错误的尝试次数做限制,也就是说允许暴力尝试,这显然不够安全,下面的...

4695
来自专栏我的小碗汤

19 个很有用的 ElasticSearch 查询语句 篇一

为了演示不同类型的 ElasticSearch 的查询,我们将使用书文档信息的集合(有以下字段:title(标题), authors(作者), summary(...

2.4K5
来自专栏jeremy的技术点滴

SSM项目脚手架

4814
来自专栏风中追风

redis 实现分布式锁的演进

比如说:每分钟要执行关闭未支付订单的定时任务,在集群的环境下,如果不做处理,每台服务器都会去执行这个定时任务,显然每个时间段的定时任务只需要执行一次,并不需要每...

7286
来自专栏linux驱动个人学习

android 休眠唤醒机制分析(一) — wake_lock【转】

Android的休眠唤醒主要基于wake_lock机制,只要系统中存在任一有效的wake_lock,系统就不能进入深度休眠,但可以进行设备的浅度休眠操作。wak...

1733
来自专栏Phoenix的Android之旅

Dagger2 Android应用:@Scope和@Subcomponent

这部分会介绍Dagger2中比较莫名的概念,同样也不涉及Android的具体代码。 Dagger2使用中的核心技巧包括@Subcomponent和@Scope,...

1032

扫码关注云+社区

领取腾讯云代金券