我用刮刮爬行了几个欺凌论坛,并将结果作为字典使用。
我现在要做的是提取一个句子的关键字,例如He harassed me in the chat,这将给出关键字Harassed和chat,并将这些关键字与我的单词字典进行比较,并为它的相关性分配一个值(在这种情况下,这显然会提供接近1.0的高值,因为它与欺凌非常相关)。
我已经把关键词提取下来了,所以现在我只需要知道如何进行比较。
我看过使用pandas、scikit和nltk的情况,但它们似乎对多个字段的字典最有效,而我只有一袋单词。
有什么NLP库可以帮我吗?如果不这样做,最好的办法是什么?
这与信息提取有关。在实际数据中,文档是以符号/编号项形式编写的。例如,
How to create a website:
- Get A DNS
- Get a Hosting
- Deploy wordpress or some site ...
以上是结构化数据的示例。再举一个例子,内容是半结构化的,
While sandeep was going to home there was a road on the way he saw a
- Car
- 2 wheeler
- cart
and he carefully crossed the road
我有一组句子,它们是使用句子编码器编码成向量的,我想找出与输入查询最相似的句子。 搜索功能如下所示: def semantic_search(cleaned_query, data, vectors):
query_vec = get_features(cleaned_query)[0].ravel()
res = []
for i, d in enumerate(data):
qvec = vectors[i].ravel()
sim = cosine_similarity(query_vec, qvec)
if si
我想从我的数据库中删除类似的数据。现在我可以从我的数据库中删除重复的数据并保留一个。
$sql = "UPDATE `clf_ads` SET `enabled`= '0' WHERE adid NOT IN (SELECT * FROM (SELECT MAX(adid) FROM clf_ads GROUP BY adtitle) x)";
if ($conn->query($sql) === TRUE) {
echo "Record deleted successfully";
} else {
echo "Error de
Stanford提供了NERs来检测POS标签和NERs。但是当我试图分析的时候,我正面临一个问题。这句话如下:
Joseph E. Seagram & Sons, INC said on Thursday that it is merging its two United States based wine companies
下面是我的代码
st = StanfordNERTagger('./stanford- ner/classifiers/english.all.3class.distsim.crf.ser.gz',
我想简单地匹配字段的值,我不关心分数(它总是返回一个匹配)。我不想让elasticsearch给我打分,这可能会导致我的表现变差……或者我错了,我不应该在意?
如下所示的简单查询:
GET /testing/test/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"name": {
"query": "My name h