我有一个带有标记数据的文档,格式为Hi here's my [KEYWORD phone number], let me know when you wanna hangout: [PHONE 7802708523我想基于一组这些类型的标记文档训练一个模型,然后使用我的模型来标记新文档。这在NLTK中是可能的吗?我已经研究过和脚本,但这些脚本的标记和语料库是有限的,而我的数据集有自定义标记。
我一直在获取ValueError:“包含多个元素的数组的真值是不明确的。在拟合以前被分割成火车和测试集的数据时,请使用a.any()或a.all()”。如何解决此错误?我已经通过使用shape属性和打印每个X、y列和测试集的头来检查我的数据是否被正确分割。
data -是由一个“文本”列和六个标签列组成的DataFrame。方法flatten()似乎解决了这个问题,因为它返回折叠成