小明的博客

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

若非平稳序列经过差分后能显示出平稳序列的性质，我们就可以称这个非平稳序列为差分平稳序列，而ARIMA模型拟合就相当于给差分平稳序列使用ARMA模型进行拟合。
 一般情况下ARIMA模型记为ARIMA(p,d,q)，其中p、d、q分别为ARMA模型的阶数，d为差分阶数，d=0时，ARIMA模型就是ARMA模型：

非平稳时间序列

在R中，一个object可以是任何可以赋值给变量的东西（数据结构、函数、甚至是graph），一个object有两个重要的东西叫mode和class，前者决定这个object的存储方式(numeric,character，logical)，后者决定函数如何处理这个object。虽然有object的概念，但是R本身仍然是一种自顶向下式的编程方式，大部分功能都是通过各式各样的函数来实现的。

R基础

贝叶斯估计是贝叶斯学派估计未知参数的主要方法，与频率学派相比，贝叶斯学派最主要的观点就是未知量是一个随机变量，在进行抽样分布之前，未知量有自己的分布函数，即所谓的先验分布。而贝叶斯估计也就是通过引入未知量的先验分布来将先验信息和传统频率学派的总体信息和样本信息结合起来，得到一个未知量的后验分布，然后对未知量进行统计推断。

贝叶斯估计

含义：对一个观察序列(Observed Series)，选择一个与其实际过程相吻合的模型结构

平稳时间序列建模

书上这里是直接写成了矩阵形式，稍微有一点抽象，这里就不做说明了。
 于是可以得到残差的平均值为0，接下来求解多元线性回归模型的离差形式。

多元线性回归

王燕老师的书上的符号和我们老师讲课的符号有一些出入，虽然在写的过程中有意识地去使用赵老师上课用的符号但难免会有所疏漏，这里将两本书上符号的对应关系列一下:

线性平稳时间序列

HTML 指的是超文本标记语言 (Hyper Text Markup Language)
HTML 不是一种编程语言，而是一种标记语言 (markup language)
标记语言是一套标记标签 (markup tag)
HTML 使用标记标签来描述网页

html

markdown换行有两种方式:
段内换行是两个空格加上一个回车
这是一个段内换行

Markdown语法规范

谷歌发明的名为PageRank的网页排名算法使得搜索结果的相关性有了质的飞跃，这一算法被公认为是文献检索中最大的贡献之一，并且被很多大学列为信息检索课程（Information Retrieval）的内容。这篇文章主要是在阅读吴军老师的《数学之美》后来对谷歌的搜索引擎做一个介绍。

PageRank

Fitness calculation →Reproduction→Mutation→Fitness calculation
 达尔文的进化论讲的是什么？在一个自然存在的生物种群中，生物生存的自然环境会对生物进行选择，在选择上存下来的个体有更大的机会去将自己的基因传递给下一代，传递过程中会发生基因的变异（mulate）和杂交（crossover）来保证基因在传递过程中的多样性和稳定性。
 

遗传算法

这个脚本的主要实现的是一个文件夹中文件的移动和重命名操作，主要借助Python的os库以及shutil库，在平时博客的配置或者资源的迁移中比较经常用到。

Python脚本

Hexo生成的初始博客是支持标签外挂和插入图片的，但是原生的markdown渲染器hexo-renderer-markdowed对于复杂的公式支持并不友好，因此不得不卸载掉原生的markdown渲染方法，本着优化公式显示的原则进行新的渲染的寻找，最终找到的几种解决方案有:

博客的公式渲染问题

外挂标签文档
 文档里的标签外挂需要下载额外的插件，由于那个插件拖慢生成速度我给关闭掉了，感觉也不太会用复杂的标签，也可以尝试在引入某个特定标签，这个有空再折腾吧。

常用命令

PyCaret是Python中的低代码机器学习开发平台，能够自动完成机器学习的整个工作流。


PyCaret

本次爬虫主要爬取的是4k壁纸网的美女壁纸，该网页的结构相对比较简单，这次爬虫的主要目的学会使用bs进行解析，另外是关于当爬取的数据是非文本数据时数据的解析问题。

最终完成代码:
import requests
import time
#import _thread
# 爬虫结果输出路径
out_dir = './pictures/'
root_url = 'https://www.4kbizhi.com/meinv/'
headers = {
    'Connection': 'keep-alive',

爬取壁纸


一般来说读写数据常常涉及的两种数据类型是文本数据与二进制数据(图片、语音），Python中对于这两大类数据的操作主要使用其内置的两种数据类型——字符串与字节数组：
字节数组: 8 比特整数组成的序列，用于存储二进制数据。
字符串: Unicode 字符组成的序列，用于存储文本数据

Python数据结构


 这样的数据集存在几个列的内容完全一致，因此我们希望实现的一个功能就是将这几个列的值合成一个列，得到形如下图的数据形式:
 

Pd实战

文本模糊匹配主要是指对两段文本含义相近程度的计算，当我们需要处理的数据集比较多样或者是未标准化的脏数据时，通过模糊匹配主要实现的是去除重复值的操作。
 高级的模糊匹配涉及到的是自然语言处理的一部分内容，这里所说的模糊匹配则是一种相对比较简单的匹配方式,例如两个相近的表达方式(‘underground’ ‘subway’),一些可能出现的拼写错误和较小的语法错误或句法偏移(‘apple’ ‘appel’)以及一些并列词语位置的颠倒之类的等等一些不会涉及到语义分析的一些内容。

文本模糊匹配

网页抓包主要指的是对网页的跟踪，包括网页的访问时间、访问者的IP地址、访问者的浏览器等信息。在爬虫的过程中，我们看到的网页可能并非是一次就加载出来的，有的网页也可能会分好几步加载，因此跟踪网页的整个加载过程，只有完全掌握了网页抓包的操作，才能得到存放我们需要数据的页面。
 网页抓包主要借助的是浏览器的开发者工具，接下来就按照我将使用本博客来对开发者工具进行介绍。
 在博客的初始页面打开开发者工具，可以看到如下界面：
 

网页抓包

爬虫的第一步是向网页发起模拟请求，一般来说模拟请求的可以借助Python中的urllib模块以及requests模块，其中requests模块是对urllib模块的一个封装，从实用性的角度出发，一般来说我们更建议使用requests模块

网页下载

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了小明的博客专栏，为你提供了小明的博客的相关文章，致力于帮助开发者快速成长与发展。

小明的博客

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐