在最近的一篇研究论文中,我计划做以下几件事,我恳请你提供建议。
我得到了几千份招聘广告。我现在想分析一下,这些招聘广告是如何以及是否包括以前在另一篇研究论文中被指定为个人“类别”的“内容”的。为了使事情更精确,大约有15个现有的类别,每个类别都包含解释2-4句话的描述。
现在,我想了解的是,哪些招聘广告以及多少招聘广告涵盖了这15个类别中的每一个方面。结果可能是,例如,作业广告1包含与类别2、5、8的描述相匹配(或接近)的内容,但遗漏了允许引用其余类别的内容。
如果您有任何参考或建议如何处理这项任务,请告诉我。我怀疑最好的方法是有监督的学习方法。
最好的
斯波兹。
发布于 2018-10-07 15:26:30
就数据理解而言,我首先建议采用一种无监督的方法。比如你可以..。
在非超维数据挖掘之后,您可以根据经典的方法(例如,单词模型袋)或使用神经网络(=监督)来进行文本分类。
https://datascience.stackexchange.com/questions/39302
复制相似问题