我一直在努力从HTML格式的域名和页面标题中解析出公司名称。假设我的域名是:
http://thisismycompany.com
页面标题为:
This is an example page title | My Company
我的假设是,当我匹配其中最长的通用子字符串时,经过小写并删除除字母数字之外的所有字符后,这很可能是公司名称。
因此,最长的公用子字符串()将返回mycompany。如何将此子字符串与原始页面标题进行匹配,以便检索空格和大写字符的正确位置。
我有一个包含"pages“的ElasticSearch数据库。
class Page
field :domain_id
field :page_id
field :title
field :description
field :filetype
field :content
end
每个页面都有一个域名ID。我希望能够提高来自特定领域的所有查询的结果。因此,如果它与静态设置的X的domain_id匹配,那么它在我们返回的每个搜索结果中都会更相关。
其次,我希望boost基于文本(可以是多个单词)与标题或描述匹配,而不是匹配内容。
我目前在Tire g