首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >分析德国汽车讨论论坛帖子的工具和技巧

分析德国汽车讨论论坛帖子的工具和技巧
EN

Data Science用户
提问于 2018-07-02 10:35:01
回答 1查看 44关注 0票数 0

我为德国汽车在线讨论论坛工作,有点像“汽车的StackOverflow”,如果你愿意的话。

我们希望用我们的高质量内容来训练一个使用TensorFlow的模型,以便能够评估我们的用户在我们的平台上发布的新内容的质量。

我们的最终目标是能够链接到我们讨论论坛上的一个问题的最佳答案。

我们(两个后端Java开发人员和我自己,一个是JavaScript前端web开发人员)对数据科学和机器学习领域非常陌生,目前正在阅读谷歌的教程,并试图找出从哪里开始。

您建议在这个项目中使用哪些工具和技术?

我们如何才能培养一个适合我们需要的模式?

是否有任何教程演示如何训练一个使用德语文本作为输入的模型?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-07-02 10:58:57

你可以采用不同的方法:

让我说几句,

  1. 您可以使用像空间性nltk这样的库从查询中提取关键字或标记,这两种语言都支持德语。然后采用基于查询优化:优步的页面排序方法。
  2. 您可以使用基于注意力的seq2seq模型,在该模型中,输入作为问题提供,而答案作为输出提供。更像你如何训练聊天机器人和语言翻译模型。这是众所周知的神经机器翻译。Tensorflow有一个开源实现。nmt

第二种方法是可行的,因为它有很多例子。但是尝试使用spacy和nltk来根据德语进行标记,也尝试使用德语单词嵌入:示例,它包含对代表每个德语单词的大型语料库的预先训练的权重。

希望这能有所帮助。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/33875

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档