首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

同义词搜索是如何做到的?

前面几个章节我们使用到了 Lucene 的中文分词器 HanLPAnalyzer,它并不是 Lucene 自带的中文分词器。Lucene 确实自带了一些中文分词器,但是效果比较弱,在生产实践中多用第三方中文分词器。分词的效果直接影响到搜索的效果,比如默认的 HanLPAnalyser 对「北京大学」这个短语的处理是当成完整的一个词,搜索「北京」这个词汇就不一定能匹配到包含「北京大学」的文章。对语句的处理还需要过滤掉停用词,除掉诸于「的」、「他」、「是」等这样的辅助型词汇。如果是英文还需要注意消除时态对单词形式的影响,比如「drive」和「driven」、「take」和「taked」等。还有更加高级的领域例如同义词、近音词等处理同样也是分词器需要考虑的范畴。

02

【NLP】自然语言处理中词性、短语、短语关系标签的具体含义列表

ROOT:要处理文本的语句 IP:简单从句 NP:名词短语 VP:动词短语 PU:断句符,通常是句号、问号、感叹号等标点符号 LCP:方位词短语 PP:介词短语 CP:由‘的’构成的表示修饰性关系的短语 DNP:由‘的’构成的表示所属关系的短语 ADVP:副词短语 ADJP:形容词短语 DP:限定词短语 QP:量词短语 NN:常用名词 NR:固有名词 NT:时间名词 PN:代词 VV:动词 VC:是 CC:表示连词 VE:有 VA:表语形容词 AS:内容标记(如:了) VRD:动补复合词 CD: 表示基数词 DT: determiner 表示限定词 EX: existential there 存在句 FW: foreign word 外来词 IN: preposition or conjunction, subordinating 介词或从属连词 JJ: adjective or numeral, ordinal 形容词或序数词 JJR: adjective, comparative 形容词比较级 JJS: adjective, superlative 形容词最高级 LS: list item marker 列表标识 MD: modal auxiliary 情态助动词 PDT: pre-determiner 前位限定词 POS: genitive marker 所有格标记 PRP: pronoun, personal 人称代词 RB: adverb 副词 RBR: adverb, comparative 副词比较级 RBS: adverb, superlative 副词最高级 RP: particle 小品词 SYM: symbol 符号 TO:”to” as preposition or infinitive marker 作为介词或不定式标记 WDT: WH-determiner WH限定词 WP: WH-pronoun WH代词 WP$: WH-pronoun, possessive WH所有格代词 WRB:Wh-adverb WH副词

01

矩阵式WAF部署——破解信任危机的新思路

传统安全建设思路要求将网络按照安全等级划分,形成不同属性的安全域,如外网接入域、核心交换域、对外发布域、办公终端域及安全管理域等,并基于各个安全域的安全等级来制定相应的域间隔离与访问控制策略。通常根据不同强度要求的安全策略,所选用和部署的安全产品也会有针对性。例如外网接入域的边界,除了常规的防火墙之外,还会选择DDoS清洗系统、入侵防御系统等;在核心交换域,依据其流量全面的特点,部署全栈的流量分析和资产治理类系统;在安全管理域,部署集中管理和事件审计类平台;而在对外发布域的边界,则会选择更加深入和有针对性的细粒度防护产品,例如Web应用防火墙,即WAF产品,也是我们今天讨论的重点。

06
领券