我试图建立和新的模型,可以命名实体在“职务说明”。
这些实体是:
我准备了数据集,对它们进行了注释,并训练了一个spacy V2.0模型。这种型号在所有标签上都表现良好(在70到90年代之间),除了“很好的拥有”。这要么是错误的分类,要么根本没有预测。因此,我试图抓住那些具有良好技能的句子,并“根据某些启发,手动重新分类”。
然而,其中也有一些复杂的因素。例如:
所需技能:具备python方面的知识,c++必须具备matlab的相关知识才能具备相关技能:具备V5知识者优先考虑
在上面的例子中,技能从所需的技能到matlab这个词都是强制性的,并且从好到好:直到CATIA V5,所有的一切都必须是好的。在某些职位描述中,订单也有可能发生变化(先提到Nicetohave,然后是必修技能)
或者也有可能是先给出强制性的技能,然后是好的拥有,然后是强制性的。还有更多类似的组合。
那么,我该如何处理这种情况呢?我愿意接受任何想法和建议。
发布于 2021-06-20 14:40:45
假设在枚举开始时几乎总是有明确的标记,即“必需的技能”或“很好地拥有”(或这两者的任何变体),我建议尝试添加自定义特性,例如:
获取这些特性的值需要一个预处理步骤,其中提取和/或标记标记,可能使用一些简单的字符串匹配(假设标记的变体不多)。
https://datascience.stackexchange.com/questions/96867
复制