我正在使用CountVectorizer从sklearn进行文本标记(2克),并创建一个术语文档矩阵。如何以标点符号作为边界将文本标记为2克?例如,输入的句子是“这是示例,带有标点符号”。下面是我的当前代码:df = pd.DataFrame({'title':['thisis example, with punctuation'
我目前正在做一个使用tensorflow和tflearn的情绪分析项目。我有一个社交媒体帖子的数据集,这些帖子是以CSV文件的形式提供给我的,我正在尝试将它们转换为用于训练的向量。这是我第一次尝试手动做这样的事情,我通常会导入已经经过预处理的数据集。1)# with open()posts = pd.<e