首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >选择包含智能手机及其他数据的信息的条目。

选择包含智能手机及其他数据的信息的条目。
EN

Stack Overflow用户
提问于 2019-07-04 22:12:24
回答 1查看 39关注 0票数 1

我不确定如何处理以下问题,我正在寻求一些指导:

我有一个文件,其中包含一个随机广告标题在每一行。我需要做的是对、智能手机、或中的每一个标题进行分类,这取决于广告是否销售手机。

很抱歉,这个文件不是英文的,但是这里有一个屏幕截图,显示了一点:完整的文件在这里

我遇到的问题:

  • 一些广告标题与智能手机有关,但它们实际上并不是在销售手机,而是与之相关的东西(acessory)。例如:为Iphone销售手机外壳的广告
  • 有些广告标题甚至没有手机品牌,但只有型号。例如:“白色小米混合2s全球64 4g”或"J7 Pro 64 4g 4G J730“。
  • 如果有一种方法从标题中提取出确切的手机模型,那就太好了,但由于每个广告标题的格式不同,我无法找到这样做的方法。
  • 通常,品牌生产各种各样的产品,而智能手机只是一种产品。因此,当我过滤品牌名称时,它通常会返回与智能手机无关的广告(平板电脑、电视、充电器等)。需要进行更多的过滤
  • 即使我被允许使用它,我也找不到一些包含所有智能手机型号列表的DB,或者我不知道如何从它们中检索信息。

到目前为止我所想的:

  • 如果我能够访问拥有大量智能手机型号的DataBase,我可以直接搜索文件中的每个型号名称(例如,“iPhone5s”或"Moto G6")。
  • 我尝试使用FonoAPI https://fonoapi.freshpixl.com (这是一个智能手机数据库,用于查询使用java、php等的手机的数据)来搜索某个特定品牌的智能手机型号,但该api每次只返回100个结果。因此,为了使用它,我需要从标题中提取产品模型名,以便检查它是否在FonoAPI DB中列出。

因此,由于文件中的每个广告标题的格式都不同,所以我在寻找如何这样做的一些想法,因为我找不到从标题中提取产品模型的方法,以便与FonoAPI数据库进行比较,也无法访问包含大量模型的大DB,直接在文件中查找它们。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-07 19:00:33

我的答案不是很精确,更像我想提出的想法(因为我喜欢这个问题,并且很乐意得到文件,似乎不可能从你的链接中得到它)。

首先,由于所有NLP问题,您需要确保所有文本都以相同的方式格式化。

得到一个手机模型数据库。我会尝试得到一个有手机品牌的数据库。然后去一个销售网站做网络抓取。这样你就能得到很多型号的手机。

我会尝试使用一些NLP模式,如LDA,但采用另一种格式化的方式(比如在gb和手机品牌之后超越限制的词语)。我们可以希望所有的电话都接近这些话)。

这可能是愚蠢的想法,但我想分享(我不能评论:D)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56894649

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档