首页
学习
活动
专区
工具
TVP
发布

宏伦工作室

专栏作者
29
文章
39556
阅读量
29
订阅数
深度有趣 | 05 自编码器图像去噪
自编码器(AutoEncoder)是深度学习中的一类无监督学习模型,由encoder和decoder两部分组成
张宏伦
2018-12-13
7530
深度有趣 | 03 高端又一般的词云
以《西游记》为例,可以看到结果中会出现各种双字、三字和四字等,但很多并不是合理的词语
张宏伦
2018-10-25
7890
深度有趣 | 01-02 前言和准备工作
用 Python 做一些有意思的案例和应用,内容和领域不限,可以包括数据分析、自然语言理解、计算机视觉,等等等等
张宏伦
2018-10-25
6210
基于凝聚度和自由度的非监督词库生成
中文分词是中文文本自然语言处理的第一步,然而分词效果的好坏取决于所使用的语料词库和分词模型。主流的分词模型比较固定,而好的语料词库往往很难获得,并且大多需要人工标注。这里介绍一种基于词频、凝聚度和自由度的非监督词库生成方法,什么是非监督呢?输入一大段文本,通过定义好的模型和算法,即可自动生成词库,不需要更多的工作,听起来是不是还不错? 参考文章:互联网时代的社会语言学:基于SNS的文本数据挖掘,点击阅读原文即可查看。访问我的个人网站查看更详细的内容,包括所使用的测试文本和代码。 获取所有的备选词语 假设对于
张宏伦
2018-06-07
1.8K0
用R语言实现对不平衡数据的四种处理方法
在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现? 在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较强。 本文会介绍处理非平衡分类数据集的一些要点,并主要集中于非平衡二分类问题的处理。一如既往,我会尽量精简地叙述,在
张宏伦
2018-06-07
1.2K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档