数据挖掘

186 篇文章
31 人订阅

全部文章

机器学习和大数据挖掘

scala中spark运行内存不足

发现其原因竟然是运行的时候默认的内存不足以支撑海量数据,可以用 bash spark-submit --help 中查看到自己代码的运行内存,即:

7530
机器学习和大数据挖掘

筛法求素数质数

埃拉托斯特尼筛法 ,简称 埃氏筛 或 爱氏筛 ,是一种由希腊数学家 埃拉托斯特尼 所提出的一种简单 检定素数 的算法。要得到自然数n以内的全部素数,必须把不大于...

8830
机器学习和大数据挖掘

python编译、运行、反编译pyc文件

为了加密 .py 文件,以前一般使用打包成 exe ,但是最近发现可以将其编译成二进制文件 pyc ,虽然反编译难度不大,但是也需要一些水平

14910
机器学习和大数据挖掘

【机器学习】算法原理详细推导与实现(二):逻辑回归

我们可能会遇到一些分类问题,例如想要划分 鸢尾花 的种类,尝试基于一些特征来判断鸢尾花的品种,或者判断上一篇文章中的房子,在6个月之后能否被卖掉,答案是 是 或...

9520
机器学习和大数据挖掘

【机器学习】算法原理详细推导与实现(一):线性回归

今天我们这里要讲第一个有监督学习算法,他可以用于一个回归任务,这个算法叫做 线性回归

7930
机器学习和大数据挖掘

爬虫之抓js教程

前面学习了如何在 get 的时候想服务器发送多变的请求数据,从而达到搜索的效果,而实际上 搜索是简单的登陆 !所以本文将要介绍如何向百度服务器发送 post 数...

13240
机器学习和大数据挖掘

【机器学习】算法原理详细推导与实现(三):朴素贝叶斯

在上一篇算法中,逻辑回归作为一种二分类的分类器,一般的回归模型也是是判别模型,也就根据特征值来求结果概率。形式化表示为 \(p(y|x;\theta)\),在参...

11830
机器学习和大数据挖掘

爬虫之抓包教程

在初学的爬虫过程中,很多人还不知道如何抓包,怎样子抓包才能获取到所需要的信息。为了纪念【宏彦获水】成语初次面世,特地用【百度搜索】写下一篇作者常用工具的抓包教程...

13210
机器学习和大数据挖掘

window安装jekyll

10630
机器学习和大数据挖掘

Amazon验证码机器算法识别

在破解Amazon的验证码的时候,利用机器学习得到验证码破解精度超过70%,主要是训练样本不够,如果在足够的样本下达到90%是非常有可能的。 update后,...

10040
机器学习和大数据挖掘

selenium之xpath定位和input文本

6740
机器学习和大数据挖掘

python3百度指数抓取 前言:代码在我的github上面:

哥那么叼的人怎么会被他吓到,于是乎花了零零碎碎加起来大约2天半搞定,在此鄙视一下土福

8730
机器学习和大数据挖掘

git下载自己项目到本地

64050
机器学习和大数据挖掘

Golang_test

10360
机器学习和大数据挖掘

Amazon后台登陆以及跟卖

亚马逊模拟登陆,这里使用的是selenium来登陆,并判断是否登陆成功,以及是否有验证码,并破解验证码登陆。

8520
机器学习和大数据挖掘

python selenium下载电子书

有人推荐书籍《御伽草纸》,网上找了很久都找不到下载,估计是被Amazon版权了,但是在网易云阅读看到有书,所以就写个代码下载下来。

9120
机器学习和大数据挖掘

Amazon后台模拟登陆

本文基于python3.4的selenium库打开浏览器,并将浏览器中的登陆cookie保存到本地,那么下次登陆就可以直接利用cookie了:

20530
机器学习和大数据挖掘

微信小程序开发测试

微信小程序 在2017-01-09正式上线,本着跟上时代潮流的精神,写一份教程来看看

13130
机器学习和大数据挖掘

python3倒叙字符串

9550
机器学习和大数据挖掘

Amazon关键词抓取 python之lxml(xpath)

6920

扫码关注云+社区

领取腾讯云代金券