首页
学习
活动
专区
工具
TVP
发布

海仔技术驿站

专栏成员
290
文章
325855
阅读量
31
订阅数
Python爬虫之scrapy中间件的使用
但在scrapy默认的情况下 两种中间件都在middlewares.py一个文件中
海仔
2020-09-28
8220
Python爬虫之scrapy构造并发送请求
在爬虫文件的parse方法中,提取详情页增加之前callback指定的parse_detail函数:
海仔
2020-09-28
1.4K0
Python爬虫之scrapy的入门使用
命令:     sudo apt-get install scrapy 或者:     pip/pip3 install scrapy
海仔
2020-09-28
9170
Python爬虫之mongodb和python交互
pymongo 提供了mongdb和python交互的所有方法 安装方式: pip install pymongo
海仔
2020-09-23
7580
Python爬虫之数据提取-selenium的介绍
selenium的介绍 知识点: 了解 selenium的工作原理 了解 selenium以及chromedriver的安装 掌握 标签对象click点击以及send_keys输入 ---- 1. selenium运行效果展示 Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。我们可以使用selenium很
海仔
2020-09-16
1.5K0
Python爬虫之JS的解析
毫无疑问,参数肯定是js生成的,那么如何获取这些参数的规律呢?通过下面的学习来了解
海仔
2020-09-16
2.1K0
Python人工智能经典算法之聚类算法
5.3 Boosting【**】 1.boosting集成原理 随着学习的积累从弱到强 2.实现过程 1.初始化训练数据权重,初始权重是相等的 2.通过这个学习器,计算错误率 3.计算这个学习期的投票权重 4.对每个样本进行重新赋权 5.重复前面1-4 6.对构建后的最后的学习器进加权投票 3.bagging集成与boosting集成的区别: 数据方面:
海仔
2020-09-01
8070
Python人工智能经典算法之决策树
4.2 决策树分类原理【*****】 1.信息增益 信息增益 = entroy(前) - entroy(后) 注意:信息增益越大,我们优先选择这个属性进行计算 信息增益优先选择属性总类别比较多的进行划分 2.信息增益率 维持了一个分离信息度量,通过这个分离信息度量当分母,进行限制 3.基尼增益 1.基尼值: 从数据集D中随机抽取两个样本,其类别标记不一致的概率
海仔
2020-09-01
6410
Python人工智能经典算法之逻辑回归
2.6 api介绍【**】 1.梯度下降法 sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='invscaling', eta0=0.01) 参数: 1.loss -- 损失 (最小二乘) 2.learning_rate -- 学习率
海仔
2020-09-01
5030
Python人工智能经典算法之线性回归
1.9 k近邻算法总结[**] 优点: 1.简单有效 2.重新训练代价底 3.适合类域交叉样本 4.适合大样本自动分类 缺点: 1.惰性学习 2.类别评分不是规格化 3.输出可解释性不强 4.对不均衡的样本不擅长 样本不均衡:收集到的数据每个类别占比严重失衡 5.计算量较大 1.10 交叉验证和网格搜索[****] 1
海仔
2020-09-01
5070
Python人工智能经典算法之K-近邻算法
1.K-近邻算法 1.1 K-近邻算法简介 1.定义: 就是通过你的"邻居"来判断你属于哪个类别 2.如何计算你到你的"邻居"的距离 一般时候,都是使用欧氏距离 1.2 k近邻算法api初步使用 1.sklearn 优势: 1.文档多,且规范, 2.包含的算法多 3.实现起来容易 2.sklearn中包含内容 分类、聚类、回归 特征工程
海仔
2020-09-01
4740
Python人工智能经典算法之机器学习第三篇
5.2 基本数据操作 1.索引操作 1.直接 -- 先列后行 2.loc -- 先行后列,索引值 3.iloc -- 先行后列,索引值的下标 4.ix -- 先行后列,混合索引 2.赋值操作 1.对象[""] 2.对象.close 3.排序 1.dataframe 对象.sort_values() by -- 按照什么
海仔
2020-09-01
4540
Python人工智能经典算法之机器学习第二篇
3.3 常见图形绘制[*] 1.折线图 -- plt.plot 变化 2.散点图 -- plt.scatter() 分布规律 3.柱状图 -- plt.bar 统计、对比 4.直方图 -- plt.hist() 统计,分布 5.饼图 -- plt.pie() 占比 4 Numpy 4.1 Numpy优势 1.定义 开源的Python科学计算库, 用于
海仔
2020-09-01
1.3K0
Python人工智能经典算法之机器学习第一篇
1.机器学习概述 1.1 人工智能概述 1.人工智能起源 图灵测试 达特茅斯会议 2.人工智能三个阶段 1980年代是正式成形期 1990-2010年代是蓬勃发展期 2012年之后是深度学习期 3.人工智能、机器学习和深度学习 机器学习是人工智能的一个实现途径 深度学习是机器学习的一个方法发展而来 4.主要分支介绍 1.计算机视觉
海仔
2020-09-01
4500
Python自动化运维之Keepalived
1 集群基础 1.1 集群简介【了解】 1.1.1 集群分类 高扩展集群 基于资源横向扩展的一种方式, 将一个业务中的某个服务,以组件的形式单独部署,实现整个业务的横向扩展, 特点:所有主机共同支撑同一个业务的运行。 高可用集群 ***** 场景:核心业务 特点: 核心业务以克隆或者复制的形式双机部署,共同支撑一个业务的正常运行。 高性能集群 场景:大规模的计算场景 特点: 基于高扩展集群和高可用集群的基
海仔
2020-09-01
1.1K0
Python自动化运维之LVS
1 集群基础 1.1 集群简介 1.1.1 集群基础 场景需求 满足不了用户需求 集群:资源扩展的解决方案 解决方案 三轴扩展 x轴: 复制或者克隆的方式 y轴: 配置升级或者资源增强的方式 z轴: 通过业务梳理和资源整合的方式,实现细节单独部署的一种扩展方式 访问效果 浏览器 - dns解析 - 反向代理 - 负载均衡 - web应用 - 数据库 - 存储 1.1.2 集群类型 类型简介 高扩展集群 LB 共同支撑一个业务
海仔
2020-09-01
8910
Python自动化运维之iptables和安全概述
1 安全知识体系 1.1 安全概述【了解】 1.1.1 安全现状 1.1.2 安全体系 底层硬件 买质量合格的设备 基础环境 版本合适,基本系统优化 应用环境 软件版本、配置参数、等 业务环境 项目和软件之间的配置、部门间的规范执行 运营维护 功能迭代方案、网站维护 1.1.3 安全措施 1.2 防火墙基础【了解】 1.2.1 防火墙简介 分类: 功能: 主机、网络 实现: 软件、硬件 细节: 包过滤、应用网关、应用状态、复合型
海仔
2020-08-22
1.1K0
Python基础之面向对象-继承
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lT55tDWt-1597499184900)(02-面向对象-继承.assets/1.png)]
海仔
2020-08-17
3660
Python基础之面向对象基础知识
手洗:找盆 - 放水 - 加洗衣粉 - 浸泡 - 搓洗 - 拧干水 - 倒水 - 漂洗N次 - 拧干 - 晾晒。
海仔
2020-08-17
3950
Python基础之模块_包
Python 模块(Module),是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句。
海仔
2020-08-17
4750
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档