首页
学习
活动
专区
工具
TVP
发布

我是攻城师

专栏作者
492
文章
963069
阅读量
119
订阅数
18个高效使用Google搜索的技巧
如果把浩瀚的互联网资源比喻成是一个图书馆,那么google搜索引擎毫无疑问是这个图书馆的导航中心,通过google可以轻而易举得检索到绝大多数你需要的资料,然而大多数人可能并没有充分发挥谷歌搜索的潜力。
我是攻城师
2019-04-28
4.2K0
如何在Elasticsearch里面使用索引别名
在elasticsearch里面给index起一个aliases(别名)能非常优雅的解决两个索引无缝切换的问题,这个功能在某些场景下非常使用。 比如电商的核心商品索引库,除了实时增量数据外,每天都要重建一遍索引,避免index里面的数据和db里面的数据不一致,因为index分shard了,所以要一个一个的shard做全量替换,直到所有的shard替换完毕,才能宣布重建成功。整个过程其实还是风险挺大的,虽然每次只替换一个shard把风险量降到最低,但如果第3个或第4个shard重建有问题,有可能要回滚整个索引
我是攻城师
2018-05-15
8.6K3
Elasticsearch如何检索数据
我们都知道Elasticsearch是一个全文检索引擎,那么它是如何实现快速的检索呢? 传统的数据库给每个字段都存储成一个单个值,对于全文检索而言,这样的存储是低效的。举个例子,我有一个大文本字段,存到数据库里面只能是一个值,如果想要检索这个大文本字段里面的任何一个词,数据库如何实现? 只能通过like模糊查询来实现,先不说性能低,这对于一个搜索引擎是远远不够的。 针对上面数据库的不足,所以才出现了Lucene这种全文检索框架而它的核心就在于采用了倒排索引(Inverted Index)的数据结构,不同于数
我是攻城师
2018-05-15
9910
关于Elasticsearch里面聚合group的坑
原来知道Elasticsearch在分组聚合时有一些坑但没有细究,今天又看了遍顺便做个笔记和大家分享一下。 我们都知道Elasticsearch是一个分布式的搜索引擎,每个索引都可以有多个分片,用来将一份大索引的数据切分成多个小的物理索引,解决单个索引数据量过大导致的性能问题,另外每个shard还可以配置多个副本,来保证高可靠以及更好的抗并发的能力。 将一个索引切分成多个shard,大多数时候是没有问题的,但是在es里面如果索引被切分成多个shard,在使用group进行聚合时,可能会出现问题,这个在官网文
我是攻城师
2018-05-14
2.5K0
ElasticSearch+Solr几个case笔记
(一) 最大能索引字符串的长度 关于能索引最大的字符串长度,其实在Elasticsearch和Solr中都是由底层的Lucene决定的 (1)不分词+索引的字符串最大长度为32766字节 (2)分词+索引一般不会出现长度越界问题 (3)不索引的字符串虽然没有长度最大限制,但是不建议使用搜索引擎存储大量文本 (二)设置超出一定长度的字段,不索引 其实这个功能,也是由底层Lucene提供的,关于它的应用场景举个例子,大部分情况下,不分词的字段可能经常会被用来聚合,过滤,排序,分组,但是如果这个不分词的字段非常长
我是攻城师
2018-05-14
9570
Lucene/Solr/ElasticSearch搜索问题案例分析
最近收集的两个搜索的case,如下: 案例一: 使用 A关键词:“中国诚通控股公司”搜索,不能搜到 B结果“中国诚通控股集团有限公司” 从关键词字面上看,确实不应该出现这种问题,因为A的关键词完全被B包含,如果说搜索B,搜不到A到还可以接受,因为 在关键词越长的情况下,term之间是AND的关系,这样返回结果集就越少,这一点从Google或者其他电商的搜索都可以得到测试确认, 看到这种问题,一般情况下,都跟分词有关系,然后拿到Solr中, 先使用IK最细粒度分词测试两个关键词的分词
我是攻城师
2018-05-14
7630
ElasticSerach基本概念
基本概念: 学习es必须得了解一些它的基本概念,对学会学好es起着至关重要的作用。 近实时: es是一个近实时的搜索引擎,这意味着它会有轻微的延迟(正常情况上是1秒),从你添加一个文档知道它 能被搜索出来,这是由它的底层框架Lucene决定的。 集群: 一个集群通常由1台或多台节点组成,它们一起协作,横跨所有的节点,提供了统一的索引和搜索能力 一个集群必须有一个唯一的名字,默认是elasticsearch,这个名字标识是重要的,因为一个节点只能在一个集群中服务 在他们启动的时候,会
我是攻城师
2018-05-14
7480
海量可视化日志分析平台之ELK搭建
ELK是什么? E=ElasticSearch ,一款基于的Lucene的分布式搜索引擎,我们熟悉的github,就是由ElastiSearch提供的搜索,据传已经有10TB+的数据量。 L=LogStash , 一款分布式日志收集系统,支持多输入源,并内置一些过滤操作,支持多输入元 K=Kibana , 一款配合ElasticSearch的web可视化界面,内置非常各种查询,聚合操作,并拥有漂亮的图形化展示功能 为什么要用ELK? 在实际应用中,我们的日志是非常重要的,它通常会记录一些比较重
我是攻城师
2018-05-14
1.3K0
ElasticSearch入门之风花雪月(五)
以前经常有人问散仙,如何学好搜索? 其实这个问题很具有代表性,你可以归纳为一类问题? 其实,散仙在以前博客的中,也有总结过,回复微信后台回复关键词10查看。 本篇散仙要介绍的内容,是关于如何用Luke查看ElasticSearch的索引,那么为什么会写如此一篇文章呢? 相信学过或了解过全文检索的朋友们,都知道,搜索的核心的就是倒排索引,之所以我们能够使用Google在互联网的海量的数据中,通过关键词快速定位到我们想要的数据,就是因为倒排索引在这里起了非常大的作用,在搜索中索引通常是不可见的,我
我是攻城师
2018-05-11
8710
ElasticSearch命令执行漏洞:通过perl进行反弹shell
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二最流行的企业搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。目前网络公开部署Elasticsearch大概有数万台服务器,内部网络部署就不计其数了。Elasticsearch用了两个危险性的脚本MVEL和Groovy。2014年5月MVEL爆出来命
我是攻城师
2018-05-11
2.7K0
李彦宏谈百度与Google的区别:用户生产内容
1、百度与Google的差异 提问:我想问两个问题:一是百度和Google在发展战略上,或者具体的产品策略上有什么差异?第二,我想问一下360和搜狗等,会不会对百度有影响? 李彦宏:百度和Google的差异可以分为两个阶段来说。早期在PC阶段我们主要做的东西是UGC,User Generated Content,就是用户生产内容。这个和美国意义上的搜索不太一样,我们在发展过程当中不是被动地索引网上已经有的内容,而是在针对中国的用户、中国的互联网网民来创造内容。比如百度贴吧,全球最大的中文社区,每天有活跃用户
我是攻城师
2018-05-11
7430
360为什么要花亿元巨资买一个域名?
2月3日,域名投资圈传言360巨资收购了域名360.com,引起一番猜测。而在次日,也就是4号,360证实了媒体的传言,确实从达沃丰手中收购了360.com,但没有对外透露具体金额。不过,坊间盛传的收
我是攻城师
2018-05-11
1.8K0
ElasticSearch入门介绍之安装部署(二)
散仙,在上篇文章对ElasticSearch整体入门作了个介绍,那么本篇我们来看下,如何安装,部署es,以及如何安装es的几个比较常用的插件. es的安装和部署,是非常简单方便的,至少这一点散仙在es和solr之间,能够很明显的体现出来,solr的安装是需要依赖servlet容器,比如jetty,或者tomcat等,在下载完毕后,需要拷贝solr的安装部分到web容器里,然后稍作配置,即可启动访问,提供检索服务,当然solr也是非常简单易学的。 es目前最新的版本是1.4.2,散仙使用的版本是1.
我是攻城师
2018-05-11
5500
ElasticSearch入门介绍之会当凌绝顶(一)
ElasticSearch也是一款非常优秀的开源的全文检索框架,以大名鼎鼎的Apache Lucene为基础,高度封装了更丰富,易用的API,同时与Apache Solr一样,提供了非常强大的分布式集群功能! 有不懂ElasticSearch(下文简称es)是干啥的朋友,可以点此链接在百科上先大致了解下。 下面进入正题,本篇散仙先从宏观上介绍es的一些概念和特性,让大家能够对es整体有个认识,后续,散仙会写一些怎么安装,部署,调优,使用,集群等 es和lucene,solr一样,都是无模式的基
我是攻城师
2018-05-11
5750
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档