文章/答案/技术大牛

发布

社区首页 >问答首页 >选择包含智能手机及其他数据的信息的条目。

问选择包含智能手机及其他数据的信息的条目。
EN

Stack Overflow用户

提问于 2019-07-04 22:12:24

回答 1查看 39关注 0票数 1

我不确定如何处理以下问题，我正在寻求一些指导：

我有一个文件，其中包含一个随机广告标题在每一行。我需要做的是对、智能手机、或中的每一个标题进行分类，这取决于广告是否销售手机。

很抱歉，这个文件不是英文的，但是这里有一个屏幕截图，显示了一点：完整的文件在这里

我遇到的问题：

一些广告标题与智能手机有关，但它们实际上并不是在销售手机，而是与之相关的东西(acessory)。例如:为Iphone销售手机外壳的广告
有些广告标题甚至没有手机品牌，但只有型号。例如：“白色小米混合2s全球64 4g”或"J7 Pro 64 4g 4G J730“。
如果有一种方法从标题中提取出确切的手机模型，那就太好了，但由于每个广告标题的格式不同，我无法找到这样做的方法。
通常，品牌生产各种各样的产品，而智能手机只是一种产品。因此，当我过滤品牌名称时，它通常会返回与智能手机无关的广告(平板电脑、电视、充电器等)。需要进行更多的过滤
即使我被允许使用它，我也找不到一些包含所有智能手机型号列表的DB，或者我不知道如何从它们中检索信息。

到目前为止我所想的：

如果我能够访问拥有大量智能手机型号的DataBase，我可以直接搜索文件中的每个型号名称(例如，“iPhone5s”或"Moto G6")。
我尝试使用FonoAPI https://fonoapi.freshpixl.com (这是一个智能手机数据库，用于查询使用java、php等的手机的数据)来搜索某个特定品牌的智能手机型号，但该api每次只返回100个结果。因此，为了使用它，我需要从标题中提取产品模型名，以便检查它是否在FonoAPI DB中列出。

因此，由于文件中的每个广告标题的格式都不同，所以我在寻找如何这样做的一些想法，因为我找不到从标题中提取产品模型的方法，以便与FonoAPI数据库进行比较，也无法访问包含大量模型的大DB，直接在文件中查找它们。

dataset

data-science

java

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-07 19:00:33

我的答案不是很精确，更像我想提出的想法(因为我喜欢这个问题，并且很乐意得到文件，似乎不可能从你的链接中得到它)。

首先，由于所有NLP问题，您需要确保所有文本都以相同的方式格式化。

得到一个手机模型数据库。我会尝试得到一个有手机品牌的数据库。然后去一个销售网站做网络抓取。这样你就能得到很多型号的手机。

我会尝试使用一些NLP模式，如LDA，但采用另一种格式化的方式(比如在gb和手机品牌之后超越限制的词语)。我们可以希望所有的电话都接近这些话)。

这可能是愚蠢的想法，但我想分享(我不能评论:D)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56894649

复制

相似问题

问选择包含智能手机及其他数据的信息的条目。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问选择包含智能手机及其他数据的信息的条目。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问选择包含智能手机及其他数据的信息的条目。
EN