【原】python中文文本挖掘资料集合

这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加:

1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98

非常全的网址,讲了各个库,还有github代码地址

2.http://blog.csdn.net/abcjennifer/article/details/23615947

Rachel Zhang的文章,运用的各种算法,可以测出准确率

3.http://www.ibm.com/developerworks/cn/data/library/bd-natural-language/

利用python、scikit和文本分析来实现行为分析

4.http://developer.51cto.com/art/201507/485276.htm

一个完整的介绍分词,从导入数据集到最后结果

5.http://www.tuicool.com/articles/U3uiiu

一个简单的例子,jieba分词

6.http://scikit-learn.org/stable/modules/feature_extraction.html

官网上对文本分析的介绍

7.http://ju.outofmemory.cn/entry/74958

scikit文本特征提取

8.http://blog.csdn.net/lsldd/article/details/41520953

一个博主写的,简单的分词

9.http://zhuanlan.zhihu.com/textmining-experience/19630762

知乎上的文本分析专栏

10.http://www.clips.ua.ac.be/pages/pattern-en#sentiment

pattern包得用法

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯大数据的专栏

TDW千台Spark千亿节点对相似度计算

相似度计算在信息检索、数据挖掘等领域有着广泛的应用,是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得...

39710
来自专栏软件开发 -- 分享 互助 成长

SQL中查询优化的主要策略

为了能提高查询效率按优先级主要有一下策略: 1、尽可能早的执行选择操作(最基本的一条) 2、把笛卡尔积和随后的选择操作合并成F连接运算 3、同时计算一连串的选择...

2059
来自专栏IT派

开源 | 基于Python的人脸识别:识别准确率高达99.38%!

该库使用 dlib 顶尖的深度学习人脸识别技术构建,在户外脸部检测数据库基准(Labeled Faces in the Wild benchmark)上的准确率...

6347
来自专栏AI研习社

一文详解如何用 R 语言绘制热图

AI 研习社按:作为目前最常见的一种可视化手段,热图因其丰富的色彩变化和生动饱满的信息表达被广泛应用于各种大数据分析场景。同时,专用于大数据统计分析、绘图和可视...

5226
来自专栏WOLFRAM

Mathematica 11.2 中文版现已发布!

1463
来自专栏祝威廉

谷歌BigQuery ML VS StreamingPro MLSQL

今天看到了一篇 AI前线的文章谷歌BigQuery ML正式上岗,只会用SQL也能玩转机器学习!。正好自己也在力推 StreamingPro的MLSQL。 今...

1753
来自专栏不止思考

网络中的「动态路由算法」,你了解吗?

在计算机网络中,路由器的一个很重要责任就是要在端对端的节点中找出一条最佳路径出来,通过自己与相邻节点之间的信息,来计算出从自己位置到目的节点之间的最佳线路,这种...

2045
来自专栏AI研习社

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

今天的深度学习应用程序包括复杂的多阶段预处理数据流水线,其中包括主要在 CPU 上执行的计算密集型步骤。例如,在 CPU 上执行诸如从磁盘加载数据、解码、剪裁、...

2292
来自专栏尾尾部落

mac OS 安装XGBoost

XGBoost是一种基于决策树(CART)的分布式的高效的梯度提升算法,它可被应用到分类、回归、排序等任务中,与一般的GBDT算法相比,XGBoost主要有以下...

1684
来自专栏VRPinea

AMD正式发布Compressonator 3.0,为用户带来三款新功能

1507

扫码关注云+社区

领取腾讯云代金券