电子邮件的ElasticSearchAnalyzer和Tokenzer的问题?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (1)
  • 关注 (0)
  • 查看 (42)

假设有五个电子邮件地址存储在“Email”字段下:

1. {"email": "john.doe@gmail.com"}
2. {"email": "john.doe@gmail.com, john.doe@outlook.com"}
3. {"email": "hello-john.doe@outlook.com"}
4. {"email": "john.doe@outlook.com}
5. {"email": "john@yahoo.com"}

我想完成以下搜索场景:

搜索->接收

“John.Doe@gmail.com”->1,2

“John.Doe@outlook.com”->2,4

“john@yahoo.com”->5

“John.Doe”->1,2,3,4

“约翰”->1,2,3,4,5

“gmail.com”->1,2

“outlook.com”->2,3,4

提问于
用户回答回答于

映射:

PUT /test
{
  "settings": {
    "analysis": {
      "filter": {
        "email": {
          "type": "pattern_capture",
          "preserve_original": 1,
          "patterns": [
            "([^@]+)",
            "(\\p{L}+)",
            "(\\d+)",
            "@(.+)",
            "([^-@]+)"
          ]
        }
      },
      "analyzer": {
        "email": {
          "tokenizer": "uax_url_email",
          "filter": [
            "email",
            "lowercase",
            "unique"
          ]
        }
      }
    }
  },
  "mappings": {
    "emails": {
      "properties": {
        "email": {
          "type": "string",
          "analyzer": "email"
        }
      }
    }
  }
}

试验数据:

POST /test/emails/_bulk
{"index":{"_id":"1"}}
{"email": "john.doe@gmail.com"}
{"index":{"_id":"2"}}
{"email": "john.doe@gmail.com, john.doe@outlook.com"}
{"index":{"_id":"3"}}
{"email": "hello-john.doe@outlook.com"}
{"index":{"_id":"4"}}
{"email": "john.doe@outlook.com"}
{"index":{"_id":"5"}}
{"email": "john@yahoo.com"}

要使用的查询:

GET /test/emails/_search
{
  "query": {
    "term": {
      "email": "john.doe@gmail.com"
    }
  }
}

热门问答

云通信创建群组,文档中说群组名最长30字符,但是11个汉字报错提示,群组名太长,该怎么解决?

嗨喽你好摩羯座
推荐
您好,这个问题要看你采用的是什么编码; 1、在 GB 2312 编码或 GBK 编码中,一个汉字字符存储需要2个字节。 2、在UTF-8编码中,一个英文字母字符存储需要1个字节,一个汉字字符储存需要3到4个字节。 3、在UTF-16编码中,一个英文字母字符或一个汉字字符存储都需要...... 展开详请

使用 API 加固后为什么 apk 体积变大了好多?

推荐

加固增强了对抗性,修改了加密压缩算法,并且新增的文件都是加固必须的文件。

cdn支持http2回源吗?

嗨喽你好摩羯座
推荐

webim在移动端的兼容性怎么样呢?

嗨喽你好摩羯座
推荐
您好,确认下您的问题: 这里的兼容性是移动端的小程序还是web ? 1、web;Web 支持 IE 7+ ( Windows XP / Vista 除外),Chrome 7+,FireFox 3.6+,Opera 12+ 和 Safari 6+ 支持 2、小程序,支持 平台支持S...... 展开详请

请问一下 php怎么上传图片到腾讯云cos并返回图片路径 啊 ?

你可以直接调用COS的接口进行上传。 PUT Object接口进行上传。接口文档:https://cloud.tencent.com/document/product/436/7749 路径就是你上传的图片文件名和你的域名拼接。 比如: PUT /picture.jpg HTTP...... 展开详请

使用CDN之后出现一些列问题?

更新源站内容需要马上生效的话,需要做刷新操作 https://console.cloud.tencent.com/cdn/refresh 设置为A记录后,请求直接到源站,可能因为刚刚设置了A记录,解析还是有缓存,导致仍然解析到CDN了,可以ping测下域名,看解析到的ip是源站还...... 展开详请

扫码关注云+社区

领取腾讯云代金券