专栏首页python3使用python操作solr

使用python操作solr

Python:2.7

solr:5.1

使用Java的同学可以使用solrj操作solr,但是python就没有太好的操作solr的模块了。虽然也能找到几个,例如solrpy,但是由于年久失修,基本不能使用。

如果是对solr进行查询操作,其实非常简单,只需要完成一次get请求就可以了,最初接触python时,就是在浏览器里进行查询操作。

既然没有太好用的模块,就自己摸索着写一个吧,只需能完成工作中的特定工作内容就可以了。

对solr索引的添加,删除,可以发送post请求。post的内容呢,是xml格式的。例如<add><doc><field name="id">4</field></doc></add>  将这段内容post到

solr服务器,服务器那边就会进行新增处理了,但是这个时候你还无法搜索到,因为还缺少一个<commit/>,把这个<commit/>也post过去后,服务器才会让之前的更新生效,delete也一样的简单,看源码就了解了。

你的core的地址如果是这样的:http://localhost:8080:/solr/user  那么我们最终访问的网址是http://localhost:8080:/solr/user/update/ 

我这里调用addDoc时,是每三万条提交一次,如果每个doc都提交,那么每次都需要进行http连接,很浪费性能的,但是呢,这里也有一个隐患,那就是tomcat服务器一次最大能够处理的post请求如果小于我们实际提交的请求,就会出错。这里说的能处理的最大请求不是指doc的数量,而是post到服务器的数据的大小。这和浏览器对url的长度有限制一样,其实服务器对post请求的实际传输数据的大小也是有限制的。具体的限制可以进行配置,不过我没有在自己的tomcat配置里找到,希望它永远不会超过那个默认配置。。。。。

[python] view plain copy

  1. #coding=utf-8
  2. '''''
  3. Created on 2015-10-9
  4. Solr5.1亲测可行
  5. @author: kwsy2015
  6. '''
  7. import urllib2  
  8. from xml.sax.saxutils import escape, quoteattr  
  9. class MySolrPy():  
  10. def __init__(self,solrurl):  
  11. self.solrurl = solrurl+'/update/'
  12. print self.solrurl  
  13. self.docs = []  
  14. self.size = 0
  15. #添加新的文档    
  16. def add(self,doc):  
  17. self.docs.append(doc)  
  18. self.size += 1
  19. if self.size>=30000:  
  20. print self.size  
  21. self.commit()       
  22. self.docs = []  
  23. self.size = 0
  24. #提交数据        
  25. def _commit(self,data):  
  26.         requestAdd = urllib2.Request(  
  27.                           url=self.solrurl,  
  28.                           headers={'Content-type':'text/xml; charset=utf-8'},  
  29.                           )  
  30.         requestCommit = urllib2.Request(  
  31.                           url=self.solrurl,  
  32.                           headers={'Content-type':'text/xml'},  
  33.                           )  
  34.         opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())  
  35.         responseAdd = opener.open(requestAdd,data)  
  36.         responseCommit = opener.open(requestCommit,'<commit/>')  
  37. #根据指定的id删除索引  
  38. def delDoc(self,id):  
  39.         lst = [u'<delete><id>']  
  40.         lst.append('%s' % (escape(unicode(id))))  
  41.         lst.append(u'</id></delete>')  
  42.         data = ''.join(lst)  
  43. self._commit(data)  
  44. #删除所有数据   
  45. def delAll(self):  
  46.         delCommond = '<delete><query>*:*</query></delete>'
  47. self._commit(delCommond)  
  48. #用于新增索引时提交数据   
  49. def commit(self):  
  50.         lst = [u'<add>']  
  51. for doc in self.docs:  
  52.             newdoc = self.packagingDoc(lst, doc)  
  53.         lst.append(u'</add>')  
  54.         data = ''.join(lst).encode('utf-8')  
  55. self._commit(data)  
  56. #包装数据
  57. def packagingDoc(self,lst, doc):  
  58.         lst.append(u'<doc>')  
  59. for k,v in doc.items():      
  60.             lst.append('<field name=%s>%s</field>' % (  
  61.                     (quoteattr(k),  
  62.                     escape(unicode(v)))))  
  63.         lst.append('</doc>')  

使用的例子

[python] view plain copy

  1. #coding=utf-8
  2. '''''
  3. Created on 2015-10-9
  4. @author: kwsy2015
  5. '''
  6. import pymongo  
  7. from bson import ObjectId  
  8. from pymongo import MongoClient  
  9. from WebUser.MySolrPy import MySolrPy  
  10. #连接数据库
  11. client = MongoClient('localhost', 27017)  
  12. #获得一个database
  13. db = client.webuser  
  14. #获得一个collection
  15. coll = db.userinfo  
  16. count = 0
  17. docs = coll.find()  
  18. msp =  MySolrPy('http://localhost:8080/solr/emailSolr')  
  19. msp.delDoc(3)  
  20. for doc in docs:  
  21.     count += 1
  22.     bean = {  
  23. 'id':count,  
  24. 'email_ik':doc['emailLink'],  
  25. 'email_s':doc['email'],  
  26. 'namen_s':doc['name'],  
  27. 'passwordn_s':doc['password'],  
  28. 'webnamen_s':doc['webname']            
  29.             }  
  30.     msp.add(bean)  
  31. if count>100000:  
  32. break
  33. msp.commit()  
  34. print 'ok'

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Django(三):HttpReques

      当一个请求连接进来时,django会创建一个HttpRequest对象来封装和保存所有请求相关的信息,并且会根据请求路由载入匹配的视图函数。每个请求的视图函...

    py3study
  • Python3结合Sciter编写桌面

    但由于是同一个进程,如果你做了很耗时的操作,比如下载一张图片之类的IO操作......

    py3study
  • python post传输文件脚本

    ps:背景,无法ssh相互访问机器(一般中间有堡垒机阻拦)的情况下,但是使用域名可以进行访问的情况下 可以使用http协议进行文件的上传。

    py3study
  • python pyqt5 QCalendar

    setDateRange() setMinimumDate() setMaxmumDate() setSelectedDate()

    用户5760343
  • 工厂设计模式在自动化中的引用(二)

    工厂设计模式在自动化中的引用(一)中介绍了利用工厂设计模式,整合selenium2和appium,写在一个框架中,可以实现对web应用程序,移动应用程序...

    无涯WuYa
  • PyQt 5信号与槽的几种高级玩法

    在Qt中,每一个QObject对象和PyQt中所有继承自QWidget的控件(这些都是QObject的子对象)都支持信号与槽机制。当信号发射时,连接的槽函数将会...

    博文视点Broadview
  • python服务端多进程压测工具

    本文描述一个python实现的多进程压测工具,这个压测工具的特点如下: 多进程 在大多数情况下,压测一般适用于IO密集型场景(如访问接口并等待返回),在这种场景...

    用户1225216
  • python pyqt5 QToolBar

    import sys from PyQt5.QtCore import * from PyQt5.QtGui import * from PyQt5.Qt...

    用户5760343
  • 第三天:创建型模式--建造者模式

    创建一个由多个部分构成的对象,而且它的构成需要一步接一步地完成,只有当各个部分都创建好后,这个对象才算创建完成。

    喵叔
  • 11 Python 基础: 知识巩固,实现一个简易学生管理系统

    首先,我们定义了一个LoginModule类,此为登录模块,主要功能就是定义账号属性【用户名,密码】,然后定义一个登录login方法实现验证用户名和密码是否正确...

    小Gy

扫码关注云+社区

领取腾讯云代金券