腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

宏伦工作室

专栏作者

29

文章

39556

阅读量

29

订阅数

深度有趣 | 05 自编码器图像去噪

自编码器（AutoEncoder）是深度学习中的一类无监督学习模型，由encoder和decoder两部分组成

2018-12-13

7530

深度有趣 | 03 高端又一般的词云

以《西游记》为例，可以看到结果中会出现各种双字、三字和四字等，但很多并不是合理的词语

2018-10-25

7890

深度有趣 | 01-02 前言和准备工作

用 Python 做一些有意思的案例和应用，内容和领域不限，可以包括数据分析、自然语言理解、计算机视觉，等等等等

2018-10-25

6210

基于凝聚度和自由度的非监督词库生成

中文分词是中文文本自然语言处理的第一步，然而分词效果的好坏取决于所使用的语料词库和分词模型。主流的分词模型比较固定，而好的语料词库往往很难获得，并且大多需要人工标注。这里介绍一种基于词频、凝聚度和自由度的非监督词库生成方法，什么是非监督呢？输入一大段文本，通过定义好的模型和算法，即可自动生成词库，不需要更多的工作，听起来是不是还不错？参考文章：互联网时代的社会语言学：基于SNS的文本数据挖掘，点击阅读原文即可查看。访问我的个人网站查看更详细的内容，包括所使用的测试文本和代码。获取所有的备选词语假设对于

2018-06-07

1.8K0

用R语言实现对不平衡数据的四种处理方法

在对不平衡的分类数据集进行建模时，机器学习算法可能并不稳定，其预测结果甚至可能是有偏的，而预测精度此时也变得带有误导性。那么，这种结果是为何发生的呢？到底是什么因素影响了这些算法的表现？在不平衡的数据中，任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此，机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集？本文会介绍一些相关方法，它们并不复杂只是技巧性比较强。本文会介绍处理非平衡分类数据集的一些要点，并主要集中于非平衡二分类问题的处理。一如既往，我会尽量精简地叙述，在

2018-06-07

1.2K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态