我正在尝试使用CoNLL-2003 NER (英语)数据集,并试图为其使用预先培训过的嵌入。我正在使用SENNA预先训练过的嵌入。现在,我的词汇表中有大约20k个单词,其中只有9.5千个单词可以嵌入。我目前的方法是用零初始化一个20k X embedding_size数组,并初始化9.5k单词,这些单词的嵌入是我所知道的,并使所有的嵌入都是可学习的。
我的问题是,
此代码的目的是阅读test.txt中的句子,并检查test_oov.txt中的每个单词是否有一个例句是test.txt。congressmanthis is an irrelevant sentence而test_oov.txt但是,当test_oov.txt输入每行有多个单词时,它就不能工作了。当这个词只是一个词的时候