谁能告诉我关于自然语言处理器的特征生成器是什么?
发布于 2010-10-03 11:40:56
如果我没看错的话,我相信这句话中的“特征生成”指的是从你的文本中提取特征的过程。不涉及太多细节,这基本上是获取您认为对预测/分类任务有用的数据维度,并将其放入向量表示中。
例如,假设我们试图创建一个分类器来确定一封电子邮件是否为垃圾邮件。我们可以提取诸如CONTAINS_WORD_NIGERIA或IS_FROM_PERSON_IN_CONTACT_LIST之类的特征。或者,如果我们遵循上面的引述,我们可能会使用html标记(如PERCENT_OF_WORDS_IN_HREF_TAG )来实现特定的功能。正如您可能想象的那样,当进行特征工程时,您可以走得太远,真正的挑战在于优化您的功能集,以便在看不见的数据上给您带来良好的结果。
https://stackoverflow.com/questions/3837157
复制相似问题