首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

机器学习(19)——特征工程数据收集数据清洗数据不平衡特征转换增维降维特征选择

前言:特征工程是机器学习的重点,他直接影响着模型的好坏。 数据收集 在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需 要的数据: 业务的实现需要哪些数据? 基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。 数据可用性评估 在获取数据的过程中,首先需要考虑的是这个数据获取的成本; 获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数 据的可信度情况。 数据源 用户行为日志数据:记录的用户在系统上所有操作所留下来的日志行为数据 业务数据: 商

05

数据库面试题【十五、优化查询过程中的数据访问】

访问数据太多导致查询性能下降 确定应用程序是否在检索大量超过需要的数据,可能是太多行或列 确认MySQL服务器是否在分析大量不必要的数据行 避免犯如下SQL语句错误 查询不需要的数据。解决办法:使用limit解决 多表关联返回全部列。解决办法:指定列名 总是返回全部列。解决办法:避免使用SELECT * 重复查询相同的数据。解决办法:可以缓存数据,下次直接读取缓存 是否在扫描额外的记录。解决办法: 使用explain进行分析,如果发现查询需要扫描大量的数据,但只返回少数的行,可以通过如下技巧去优化: 使用索引覆盖扫描,把所有的列都放到索引中,这样存储引擎不需要回表获取对应行就可以返回结果。 改变数据库和表的结构,修改数据表范式 重写SQL语句,让优化器可以以更优的方式执行查询。

02
领券