首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

实践一个完整的数据挖掘项目

跟着博主的脚步,每天进步一点点

如何去实践一个完整的数据挖掘项目

机器学习项目

1 抽象成数学问题(明确问题)

2 获取数据

3 特征预处理与特征选择

4 训练模型与调优

5 模型诊断

6 模型融合(非必须)

7 上线运行

大部分机器学习项目死在第1步和第2步,平时我们说的机器学习,指的是3、4、5这3步,实践中,其实最难的是业务理解这一步,业务理解OK了,后面的一切都有章可循。

NLP项目

1 获取语料

已有语料:业务部门、公司积累大量的文本数据

网上下载、抓取语料:可以通过爬虫自己去抓取一些数据,然后进行加工。

2 语料预处理

语料预处理大概会占到整个50%-70%的工作量,通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。

四大方面

特征工程

做完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。把中文分词的字符串转换成数字,有两种常用的表示模型分别是词袋模型和词向量。

词袋模型(Bag of Word, BOW),即不考虑词语原本在句子中的顺序,统计词频这只是最基本的方式,TF-IDF 是词袋模型的一个经典用法。

词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。还有 Google 团队的 Word2Vec,其主要包含两个模型:跳字模型(Skip-Gram)和连续词袋模型(Continuous Bag of Words,简称 CBOW),Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外,还有一些词向量的表示方式,如 Doc2Vec、WordRank 和 FastText 等。

特征选择

构造好的特征向量,是要选择合适的、表达能力强的特征。文本特征一般都是词语,具有语义信息,使用特征选择能够找出一个特征子集,其仍然可以保留语义信息;但通过特征提取找到的特征子空间,将会丢失部分语义信息。所以特征选择是一个很有挑战的过程,更多的依赖于经验和专业知识,并且有很多现成的算法来进行特征的选择

模型训练

在特征向量选择好之后,接下来就是训练模型,对于不同的应用需求,我们使用不同的模型,传统的有监督和无监督等机器学习模型, 如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型;深度学习模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。这些模型在后续的分类、聚类、神经序列、情感分析等示例中都会用到。

在模型训练时需要注意的几个点:

注意过拟合、欠拟合问题,不断提高模型的泛化能力

对于神经网络,注意梯度消失和梯度爆炸问题。

评价指标

训练好的模型,上线之前要对模型进行必要的评估,目的让模型对语料具备较好的泛化能力。具体有以下这些指标可以参考。(错误率、精度、准确率、精确度、召回率、F1 衡量。)

错误率:是分类错误的样本数占样本总数的比例。

精度:是分类正确的样本数占样本总数的比例。

准确率:是针对我们预测结果而言的,它表示的是预测为正的样例中有多少是真正的正样例。

精确度:是分类正确的样本数占样本总数的比例。

召回率:是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确。

F1 衡量:表达出对查准率/查全率的不同偏好。

模型上线应用

模型线上应用,线下训练模型,然后将模型做线上部署,发布成接口服务以供业务系统使用。

The End

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191002A0HC3D00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券