首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

机器学习(19)——特征工程数据收集数据清洗数据不平衡特征转换增维降维特征选择

前言:特征工程是机器学习的重点,他直接影响着模型的好坏。 数据收集 在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需 要的数据: 业务的实现需要哪些数据? 基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。 数据可用性评估 在获取数据的过程中,首先需要考虑的是这个数据获取的成本; 获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数 据的可信度情况。 数据源 用户行为日志数据:记录的用户在系统上所有操作所留下来的日志行为数据 业务数据: 商

05

JTB | CNN实现“可视化”蛋白质-多肽结合特征来预测其结合位点

今天给大家介绍南太平洋大学Wafaa Wardah等人在Journal of theoretical biology上发表的文章“Predictingprotein-peptide binding sites with a Deep Convolutional Neural Network”。蛋白质-多肽结合位点的预测在疾病预防和药物研发领域都具有举足轻重的地位,然而现有的预测方法在实际预测时并没有表现出非常好的效果,特别是在敏感度方面甚至还没有达到50%。作者在文章中提出了一种使用CNN框架处理“可视化”蛋白质特征数据来预测蛋白质-多肽结合位点的方法,作者创新性地引入“滑动窗口法”将初始蛋白质特征数据转换为可以“可视化”的矩阵信息,然后将其输入CNN框架进行训练,最后经过一个全连接网络输出预测结果,并且在CNN框架中还嵌入了贝叶斯优化的方法来处理超参数,使模型在测试集上取得了极好的效果。

02
领券