首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >NLP短文标记法

NLP短文标记法
EN

Stack Overflow用户
提问于 2017-07-03 10:55:47
回答 1查看 61关注 0票数 0

我正在为一所教育机构做一个评估简短回答问题的项目。下面是我需要做的事情:

老师有一个样本答案(我们事先知道)。样本答案有3-4个关键词。学生输入答案。应用程序应按以下方式评估学生的答案:

  • 这些关键词的上下文意义应该存在于答案中,与样本答案中的关系相同/相似。
  • 学生应该使用关键词的同义词。
  • 这些同义词之间的关系也应该是恰当的。
  • 学生不允许使用相同的关键字(如果他们在回答中使用关键字,则没有分数)。
  • 答案不超过2-3句.

有人能指导我什么是好的方法吗?找一些起点来完成这件事。我很熟悉NLP的基础知识,但没有使用很多可用的工具。

EN

回答 1

Stack Overflow用户

发布于 2017-07-05 18:12:33

有一个名为“计算机辅助语言学习”(通常简称)的应用语言学分支学科,我不太熟悉,但可能有一些你想要利用的洞察力。它更多的是关于自动评分等,例如,非英语母语学生的论文,但我怀疑你可能会想要熟悉呼叫研究。

这是一个非常困难的问题,而不是一个普遍解决的问题。最后,你会想要一个人在循环中--也就是说,系统分配分数,教练需要检查他们是否同意。两者都不够好,对语言和知识的理解也不够清楚,所以你可以自动得到一个完整而准确的文本含义图。

考虑到这一点,我会从尽可能多的老师答案的实际例子开始,并尽可能地纠正和错误学生的答案。您需要有某种金本位数据,原因有二:了解您的系统运行得有多好(评估)和了解什么才是正确和错误的答案(洞察力)。没有实际的例子,就不太可能有一个有效的系统;使用实际的例子,它仍然会很困难,但是现在您知道自己做得有多好了。

作为第一步,不要做任何花哨的事情,而是做一种tf.idf加权字包模型。用余弦距离来比较老师/学生的答案,看看你如何能够根据余弦距离预测对错。当然,这并不完美,但它将为您提供一个比较其他结果的良好基准。

接下来,您可以尝试用某种tf.idf ( word2vec,W2V)系统替换word2vec包中的单词。W2V帮助解决了一些同义词问题,但是您需要大量的特定体裁的文本来使它正常工作,我怀疑这个应用程序会有足够的内容。

从这里开始,我将开始使用解析器,并尝试使用单词之间的关系来获得预期的意义。不过,这条路走得很远。先拿到数据。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44883822

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档