我是Mallet的新手,我尝试使用mallet简单的标签/CRF,并尝试使用短语--我尝试在mallet站点上查找文档,并查看用户档案--没有任何帮助。
我试过用锤子做简单的标记,它的效果很好。下面是我的数据的样子(Pls注意到,在培训之间有一条新的行来表示它们是不同的集合)
培训样本数据:
where STOPWORD
is STOPWORD
chicago CITY
<---Newline---->
Sunnyvale CITY
<---Newline---->
Chicago CITY
<---Newline---->
Washington CITY
import numpy as np
from flask import Flask, request, jsonify, render_template
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.linear_model import LogisticRegression
from flask_bootstrap import Bootstr
NLTK3.0:
使用如下的CFG配置(非终端团队有4个值,1个值,有2个单词(斯里兰卡)。
当我生成可能的世代列表时,我可以看到结果中出现了这两个字。但是,当我试图用这两个字的语法来解析一个输入句子时,它不会解析。
import nltk
from nltk.parse import generate
from nltk.grammar import Nonterminal
cfg = nltk.CFG.fromstring("""
root -> who_player has the most runs
who_player -> who
who_p
https://medium.com/machine-learning-intuition/document-classification-part-3-detection-algorithm-support-vector-machines-gradient-descent-282316b0838e 在上面的示例中,分别为训练语料库和测试语料库生成tfidf。它不应该一起生成,因为当训练和测试分开处理时,idf将不同于它们一起处理时的idf?谢谢。 # Vectorize the training data
X_train = vectorizer.fit_transform(train_c
我有一个文件,里面有这样的行
ted 1-1 1.0 politicians do not have permission to do what needs to be
done.
राजनीतिज्ञों के पास जो कार्य करना चाहिए, वह करने कि अनुमति नहीं है.
我必须编写一个程序,它逐行读取文件,并给出只包含印地语部分的文件中的输出。在这里,第一个单词表示最后两个片段的来源。另外,最后两句话是相互翻译的。基本上,我试图创建一个平行语料库的文件。
我想把这样的2-3个单词短语(i.e.features)保存在我的dfm中,它的PMI值大于短语*中单词数的3倍。
PMI定义为:pmi(短语)=log(p(短语)/Product(p(Word)
与p(短语):短语的概率基于其相对频率乘积(p( word ):短语中每个词的概率的乘积。
到目前为止,我使用了以下代码,但是PMI值似乎不正确,但我无法找到问题所在:
#creating dummy data
id <- c(1:5)
text <- c("positiveemoticon my name is positiveemoticon positiveemoticon
我有我的临时名单,我想用它从文本中删除特定的短语:
#dummy text
df2 <- c("hi my name is Ann and code code all the time! However not after that I would like")
mystopwords <- c("hi", "code code", "not after that")
我使用这个选项:
myDfm <- df2 %>%
tokens(remove_punct = TRUE, remove
我想为同义词和反义词创建一个数据库,但我不确定如何使表之间的关系更好的性能,以及我应该创建哪个索引。
一开始我想:
table name: synonymous
id (int) primary key
name (varchar) text index
syn_group_id (int)
ant_group_id (int)
所以所有同义词都会有相同的syn_group_id,但这不可能,因为所有的单词都不共享相同的同义词,反义词也是如此。所以我完全不知道该怎么做。