我正在建造一个工业分类器。即根据一家公司的描述将公司划分为行业。每家公司只能有一个行业。
我把2000家公司分配给了15个行业。然后我根据公司的描述训练了几个模型。他们的表现都非常糟糕。
所以我想得到更多的数据(用学习曲线来表示),也就是更多的公司。但是正确的分类是很困难的。因此,我决定尝试一个简单的相似计算。
对于每一个行业,我选择最适合这个行业的词。然后,我计算了每个行业和一个新公司之间的相似性,并选择了最适合的公司。
对我测试的这三个行业来说,效果很好。但我不确定这样做是否有意义。我认为相似性方法很好,因为:
有人能告诉我这种做法是否合理吗?其他所有的分类系统都是用某种模型来建立的,所以我不确定。
编辑:我想建立一个行业分类器,可以分类“所有”现有的公司。我指的是符合NACE行业的公司(NACE是欧盟使用的行业标准分类系统)
我使用的2000家公司都是武断的。它们并不代表NACE的所有行业。我最终得到的15个行业大多是基于NACE的。然而,我把其中一些组合在一起。此外,我还根据某些公司最常见的关键词组成了一些行业(有时这是非常明显的)。例如:“约会公司”,比如Tinder)。
公司的描述直接来自公司(主要是从他们的网站分析)。
我试图将这些公司聚在一起,但我没有找到任何基于NACE的集群组合。
是的,我已经过滤了停止词(并应用了其他规范化,例如只保留文本字符和词干)。
关于客观性(感谢@skiddles):我认为这实际上是另一个支持相似性的论点。如果我提取所有用于描述NACE规范中的行业的关键字,我最终(看起来)至少有一个公认的标准。
所以,我相信,我的问题应该是:我有20个行业。每个行业都用100个不同的词来描述。我得到了一家有描述的新公司。这个公司的描述可以在对行业的描述中找到。我应该根据相似程度将公司划分为行业,还是使用分类模型?
发布于 2018-11-17 16:58:33
这是一个有趣的方法。然而,对我来说,它提出了一些可能影响该方法有效性的问题:
这并不重要,但是你有多自信别人会把相同的标签应用于你标记的2000实例中的每一个?这是否是这些模特表现不佳的原因之一?
最终,要回答你的问题,没有理由不能用领域知识来告诉你的关键词,但当你进入“相似但不同”的行业时,你似乎会很挣扎。您使用此方法获得的良好结果可能只是说明您创建了标签和行业关键词,这很可能是您想要实现的。
从防御的角度来看,你的分类器只代表你的观点。从长远来看,为了获得客观性,你最好放弃一点表现。由于纵向和横向的一体化,以及利用控股公司管理多元化业务的实践,公司分类比较困难。如果你能把你的意见排除在这个过程之外,它可能会“更好”。如果有人不同意你的模式,他们只是不同意你。如果他们不同意更传统的ML模型,他们就是不同意描述的冷静的相似性。
HTH
发布于 2018-11-18 11:34:32
我将把更大的问题留给更有智慧的人,但在数据科学方面,你的问题因为你所说的原因而走在正确的轨道上。
余弦相似度是分类稀疏信息集的一种很好的方法。
单词是一种稀疏的信息。
这似乎是标记摘要数据。因此,针对摘要数据的单个或少数术语在稀疏的情况下是稀疏的。
这样做不止几次,您将很难在这里找到一个比余弦相似更好的模型。
https://datascience.stackexchange.com/questions/41356
复制相似问题