首页
学习
活动
专区
工具
TVP
发布

马拉松程序员的专栏

专栏作者
91
文章
83309
阅读量
11
订阅数
从实践中理解Java的反射
话接上回,到新公司也有一个月了,慢慢开始接手和熟悉项目,也开始分配给我一些二次开发的内容。这也是大多数入职到新公司后,从熟悉到接手项目的常规流程。这个时候,你就能发现,这个职位是不是招你来填坑的,以及当前项目的前辈们的代码质量咋样,你有没有在这里发现一点亮眼的代码。
马拉松程序员
2024-04-17
460
梦回8年前,重启tomcat
最近好久没更新了,因为年后换了一份新工作,各方面还都需要适应下,不光是生活节奏,上下班时间,重要的是还有所做的项目。新公司是一个做自研B端产品的小公司,主要做面向传统企业和金融企业管理公司现金流的产品。
马拉松程序员
2024-03-25
580
数据分类:新闻信息自动分类
数据下载完成后,解压后的文件名news_sohusite_xml.smarty.dat(迷你版),文件编码是用的GBK。
马拉松程序员
2023-09-21
2880
数据分析:分类算法和评估
分类是在一群已经知道类型的样本中,训练一种分类器,让其能够对某种未知的样本进行分类。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。
马拉松程序员
2023-09-14
2910
数据分析:文本分类
本章节中所涉及的知识点偏向于机器学习的范畴,那么机器学习和数据分析有什么区别呢。简单来讲,数据分析是少量数据采样分析而机器学习是海量数据全部分析。比较好的理解一点是,数据分析会总结过去已经发生的事情,而机器学习是为了预测未来发生的事情。这两者也是有相辅相成的关系。我们可以通过机器学习预测的结果,进行数据分析,得到一个相对准确的结论,辅助人们进行决策判断等等。
马拉松程序员
2023-09-02
2860
数据清洗:文本规范化
前面章节初步学习数据的采集和一些快速的数据分析方法,如果需要更加深入去做数据分析,那么会使用到更加丰富的知识。自然语言处理(NLP)的其中一个方向就是文本处理。后面两章节将讲解基础的文本分类的知识点,学习完成入门知识点后将在实践中开始数据分析之旅。
马拉松程序员
2023-09-02
6370
数据获取:认识Scrapy
本节介绍一个普通流程的爬虫框架——Scrapy,它提供了一个通用性的开发规范,帮助开发者做好了通用性的功能,只需要自定义发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容。在最后的实战项目中,我们将会使用Scrapy来做数据采集并进行深度的数据分析和可视化。
马拉松程序员
2023-09-02
1880
数据可视化:认识WordCloud
wordcloud是优秀的词云展示的第三方库,我们可以借助wordcloud轻松实现词云图。使用Wordcloud之前需要先了解它的以下几个特点:
马拉松程序员
2023-09-02
3590
数据可视化:认识Matplotlib
数据经过NumPy和Pandas的计算,最终得到了我们想要的数据结论,但是这些数据结论并不直观,所以想要把数据分析的结论做到可视化,让任何其他人看起来毫无压力,那么Matplotlib将派上用场。
马拉松程序员
2023-09-02
1720
数据可视化:认识Pandas
Pandas是一个强大的分析结构化数据的工具集,它的使用基础是Numpy,用于数据挖掘和数据分析,同时也具有数据清洗功能。
马拉松程序员
2023-09-02
2120
数据可视化:认识Numpy
NumPy是一个开源的Python数据分析和科学计算库,全称为“Numerical Python”,主要用于数组计算。NumPy是作为数据分析必备库之一,是从事数据分析行业人员必要了解和学习的一个库,下面我们就来一起了解下NumPy。
马拉松程序员
2023-09-02
2110
数据存储:MySql数据库的基本使用
数据库,顾名思义,就是存放数据的仓库,它是按照一定的数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机硬盘中、有组织的、可共享的、统一管理的大量数据的集合。
马拉松程序员
2023-09-02
2210
数据存储:excel文件存放数据
前文中说到,数据分析就是像是做饭一样,在数据获取的内容好比收集食材,通常情况下,食材装备好后是需要有容器存放,有一些是需要立马做饭使用的,就放在盆中,还有一些今天用不上,下次需要的先放到冰箱中。同样,数据也是如此,尤其是爬虫获取的数据,通常是需要保存到本地中,方便下次直接使用。
马拉松程序员
2023-09-02
3380
数据获取:​如何让爬虫更健壮
在昨天的demo中的代码还有一个问题就是,假如某个地方出错了怎么办,可能是网络掉线了,可能是某一次请求被拦截了,那么会造成程序直接停掉了。数据量小的爬虫还可以找到错误,重新启动,如果是数据量大的,重跑会造成时间、空间等资源的浪费。所以我们还需要对这个爬虫进行一些改造,增加一些异常处理,使其更加强大。
马拉松程序员
2023-09-02
1510
数据获取:​如何写一个基础爬虫
写好一个爬虫最基本的是做好页面分析,找到链接和规律,这样在写爬虫的时候就可以有方向和目的性。接下来,我们就以爬虫最常用的豆瓣评分TOP250的内容作为爬虫的demo,以此来学习使用相关知识。
马拉松程序员
2023-09-02
2500
数据获取:​网页解析之BeautifulSoup
Beautiful Soup也有很多版本,不过Beautiful Soup3已经停止更新了,目前最新的都是Beautiful Soup4,而且也已经移植到bs4库中,我们安装bs4库后就可以直接使用。安装库使用pip安装,安装命令:
马拉松程序员
2023-09-02
1680
数据获取:​网页解析之lxml
lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath(XML Path Language)解析方式。XPath,它是一门在XML文档中查找信息的语言,具有自身的语法,是用来确定XML文档中某部分位置的语言,最初是用来搜寻XML文档的,当然也适用于HTML文档的搜索。通俗点讲就是lxml可以根据XPath表示的位置来确定HTML页面中的内容,从而实现找到我们需要的内容。
马拉松程序员
2023-09-02
2020
数据获取:认识HTML代码
一个网页通常是由HTML元素、CSS样式和JavaScript脚本组成,但是对于数据采集来说,有用的只有HTML元素。通俗一点讲,网页就是一个房子,html就是简单的毛坯,CSS就是给房子来个精装修,Js脚本就是给房子通上了水电。要是把房子的精装修拆除,房子也可以用,就是有点难看,网页也是一样,把CSS样式拿走,内容还在,但是就不太美观。一个网页的大体结构如下:
马拉松程序员
2023-09-02
1250
数据获取:初识Requests
谈及到Python爬虫,必不可少的就是requests模块。前面内容中我们也讲到Python有丰富多彩的第三方模块,那么requests就是其中一个,requests模块是一个常用的访问网络的模块。使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(requests的本质也是对urllib3进行了封装)
马拉松程序员
2023-02-24
8141
数据获取:去菜市场采购还是自己去地里挖?
数据分析就是像是做饭一样,正所谓“巧妇难为无米之炊”。数据分析的前提就是数据的获取,只有把食材准备好,经过我们的加工,可以呈现出一道色香味俱全的美味菜肴。所以数据获取是整个数据分析的中流砥柱,数据质量的高低直接导致最终的结果是否准确。
马拉松程序员
2023-02-24
2550
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档