首页
学习
活动
专区
工具
TVP
发布

素质云笔记

素质云笔记/Recorder... Research Area:多模态+计算机视觉舆情
专栏作者
416
文章
1113261
阅读量
108
订阅数
sklearn中多种编码方式——category_encoders(one-hot多种用法)
离散型编码的Python库,里面封装了十几种(包括文中的所有方法)对于离散型特征的编码方法,接口接近于Sklearn通用接口,非常实用 可以使用多种不同的编码技术把类别变量转换为数值型变量,并且符合sklearn模式的转换。
悟乙己
2021-12-07
2.9K0
R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)
大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。
悟乙己
2019-05-28
20.3K0
R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)
由于业务中接触的数据量很大,于是不得不转战开始寻求数据操作的效率。于是,data.table这个包就可以很好的满足对大数据量的数据操作的需求。
悟乙己
2019-05-28
7K0
R学习笔记(4): 使用外部数据
鉴于内存的非持久性和容量限制,一个有效的数据处理工具必须能够使用外部数据:能够从外部获取大量的数据,也能够将处理结果保存。R中提供了一系列的函数进行外部数据处理,从外部数据的类型可以分为文件、数据库、网络等;其中文件操作还可以区分为导入/导出操作和流式操作。
悟乙己
2019-05-27
1.8K0
R语言︱异常值检验、离群点分析、异常值处理
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51210793
悟乙己
2019-05-27
4.9K0
练习题︱基于今日头条开源数据(二)——两款Apriori算法实践
在R语言里面有非常好的package,可见我之前的博客: R语言实现关联规则与推荐算法(学习笔记) 该packages能够实现以下一些可视化:
悟乙己
2019-05-26
8260
转︱机器学习算法线上部署方法
我们经常会碰到一个问题:用了复杂的GBDT或者xgboost大大提升了模型效果,可是在上线的时候又犯难了,工程师说这个模型太复杂了,我没法上线,满足不了工程的要求,你帮我转换成LR吧,直接套用一个公式就好了,速度飞速,肯定满足工程要求。这个时候你又屁颠屁颠用回了LR,重新训练了一下模型,心里默骂千百遍:工程能力真弱。
悟乙己
2019-05-26
1.1K0
python︱大规模数据存储与读取、并行计算:Dask库简述
本文介绍了利用Dask和Kaleido库进行大数据处理和分析的应用案例,包括处理40TB数据集、进行特征工程、建立机器学习模型和评估模型性能。同时,本文还介绍了如何使用Dask进行分布式计算和并行计算,以及使用Kaleido进行特征选择和降维。
悟乙己
2018-01-02
6K0
LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn(一)
本文介绍了自然语言处理中的文本相似度计算方法和应用场景,并详细阐述了基于LSH(Locality-Sensitive Hashing)方法、基于树的方法(如随机森林、梯度提升树等)和基于图的方法(如k-Nearest Neighbors,k-NN)等应用场景。同时,文章还对未来的研究方向进行了展望,包括模型性能的评价、适用领域的拓展、计算效率的提升等。
悟乙己
2018-01-02
2.2K0
结构化数据转换方式之一:box-cox转换
本文介绍了结构化数据转换方式之一:box-cox转换,包括原理、应用和优势等方面的内容。Box-Cox转换可以保证线性回归模型的残差满足正态性、独立性等假设前提,从而提高了线性回归模型估计的准确性和稳定性。
悟乙己
2018-01-02
2.1K0
NLP+词法系列(二)︱中文分词技术简述、深度学习分词实践(CIPS2016、超多案例)
本文主要探讨了中文分词技术在信息检索领域的应用,包括搜索引擎、文本挖掘、推荐系统等。作者详细分析了中文分词的算法,包括基于字符串匹配的分词方法、基于统计的分词方法和基于词性标注的分词方法。同时,作者还讨论了分词技术在搜索引擎、文本挖掘、推荐系统等领域的应用,并提出了相关的优化建议。
悟乙己
2018-01-02
4.4K0
R+中文︱中文文本处理杂货柜——chinese.misc
本文介绍了R语言中的各种包及其特点,包括base、datasets、tools、utils、stats、grDevices、datasets、graphics、methods、merge和tests包。这些包涵盖了从基础数据结构、输入输出、统计分析、绘图、数据处理、机器学习、模型测试等多个方面。通过这些包,用户可以方便地使用R语言进行数据处理、分析和建模等工作。
悟乙己
2018-01-02
2.7K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档