我不确定如何处理以下问题,我正在寻求一些指导:
我有一个文件,其中包含一个随机广告标题在每一行。我需要做的是对、智能手机、或中的每一个标题进行分类,这取决于广告是否销售手机。
很抱歉,这个文件不是英文的,但是这里有一个屏幕截图,显示了一点:完整的文件在这里
我遇到的问题:
到目前为止我所想的:
因此,由于文件中的每个广告标题的格式都不同,所以我在寻找如何这样做的一些想法,因为我找不到从标题中提取产品模型的方法,以便与FonoAPI数据库进行比较,也无法访问包含大量模型的大DB,直接在文件中查找它们。
发布于 2019-07-07 19:00:33
我的答案不是很精确,更像我想提出的想法(因为我喜欢这个问题,并且很乐意得到文件,似乎不可能从你的链接中得到它)。
首先,由于所有NLP问题,您需要确保所有文本都以相同的方式格式化。
得到一个手机模型数据库。我会尝试得到一个有手机品牌的数据库。然后去一个销售网站做网络抓取。这样你就能得到很多型号的手机。
我会尝试使用一些NLP模式,如LDA,但采用另一种格式化的方式(比如在gb和手机品牌之后超越限制的词语)。我们可以希望所有的电话都接近这些话)。
这可能是愚蠢的想法,但我想分享(我不能评论:D)。
https://stackoverflow.com/questions/56894649
复制相似问题