网络爬虫又称为网络蜘蛛,是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。简单来说,网络爬虫就是一段程序,它模拟人类访问互联网的形式,不停地从网络上抓取我们需要的数据。我们可以定制各种各样的爬虫,来满足不同的需求,如果法律允许,你可以采集在网页上看到的、任何你想要获得的数据。
今天给大家最近蛮火的 Hexo 静态博客框架,熟悉明月的都知道明月最近几天一直都在折腾研究 Hexo 静态博客框架的博客站——『明月登楼 Hexo 博客』(hexo.imydl.tech),其实这个博客明月很早就有了(可参考「开始体验 Hexo 纯静态化博客平台」一文),至今都快 8 个多月了,期间被搁置了一段时间没有搭理过,最近又仔细深入的研究折腾了一番收获不少,今天就给大家来讲讲这个 Hexo 静态博客框架。
Hexo 是一个快速、简洁且高效的博客框架。Hexo 使用 Markdown(或其他渲染引擎)解析文章,在几秒内,即可利用靓丽的主题生成静态网页。
网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。
一.http www端口: http协议www服务的默认端口是:80 加密的www服务,http默认端口:443(网银,支付的时候) 二.用户访问网站基本流程: 第一步:客户端用户从浏览器输入www.baidu.com网站网址后回车,系统会查询本地host文件及DNS 缓存信息,查找是否存在网址对应的IP解析记录。如果有就直接获取到IP地址,然后访问网站,一般第一次请求时,DNS缓存是没有解析记录的。 第二步:如果客户端没有DNS缓存或者hosts没有对应的www.baidu.com网站网址的域名解析记录,
我的答案:伪静态并不是有些老板说的为了加密用的。伪静态其实是使用php写的网页。大概是控制器加接口的语法不方便收录,和所谓的SEO优化,需要一个静态页面。这就是伪静态。
我同学老张因为职业需要,出差十分频繁,好不容易找到个女朋友还要长时间分隔两地,面对着漫长的出差和时差的困扰。每当夜深人静,他们都心痒难耐,希望能找到一种特殊的方式来维系他们的感情,让爱意不受地理距离的束缚,纪念他们为爱奔赴的激情时刻。
好学、乐学、博学、恒学、会学和用学,学以致用。一起学习成长的很多同好以及我自己,都是同样喜欢折腾的人。
一提到SQL语句就想到了期末数据库考试的时候,那俩监考老师,哎,不说了,还好咱们数据库老师大发慈悲
在 Typecho 和 Hexo 之间选择一个适合自己的博客平台(框架)首先的了解它们之间的区别,不同的博客平台(框架)部署、配置、运行方式可能都会有不小的差异化,甚至会改变你的博客使用习惯,所以我们先从这两个博客平台(框架)的区别来分析一下。
运行 gitbook -V 查看版本信息,安装 gitbook 出现下面的错误,是因为 node 版本太高了,安装低版本的 node
本周,我和大家聊下Jamstack。Jamstack并非一个具体的技术,而是一个概念。
这两天心血来潮,忽然想折腾一个属于自己的博客,也就是这一系列的缘由。而最终也总算是折腾出来了,要不你就不会看到这篇文章了
这两天明月一直在折腾学习 Hexo 博客框架的部署和搭建,目前基本已经成型了(hexo.imydl.tech),通过这几天的不断折腾对比,发现 Hexo 还是很有些独特的特色的,单从其“小清新”风格来看去跟 WordPress 对比取舍有点儿过分了,但是跟 Typecho 对比取舍一番还是可以的。所以结合自己这两天使用 Hexo 的感受和 Typecho 博客的感受总结出来[个人博客如何选择 Typecho 和 Hexo ?]这篇文章来。
此问题的解决方法是:修改根目录下的配置文件_config.yml,修改deploy节点。原因是没有配置正确的git仓库地址。
软件架构 C/S(Client/Server) 客户端/服务器端 在用户本地有客户端程序,在远程由服务器端程序(例如QQ,迅雷) 优点:用户体验好 缺点:开发,安装,部署,维护等十分麻烦 B/S(Browser/Server) 浏览器/服务器端 只需要一个浏览器,用户就可以通过URL访问不同服务器端程序 优点:开发,安装,部署,维护等十分更简单 缺点: 如果应用过大,用户体验可能受到影响 对硬件要求高 B/S架构 资源分类 静态资源 使用静态网页开发技术发布的资源 特点: 所有用户访问,得到的页面完全一致
Web 也就是 www,是 World Wide Web 的缩写,也叫做万维网,是目前最流行、最方便的 Internet 信息服务。
Pages 功能一直以来呼声都非常之高,现在终于不负各位 OSCers 众望,码云 Pages 功能闪亮登场! 码云 Pages 是一个免费的静态网页托管服务,您可以使用码云 Pages 托管博客、项目官网等静态网页。如果您使用过 Github Pages 那么您会很快上手使用码云的Pages服务。 码云Pages目前仅支持公有项目使用,私有项目会在下一版提供,敬请期待。 使用前须知 1、Pages 默认的根文件是 index.html 2、静态网页的样式可以自己写,也可以拿一些静态模版来修改,Page
使用工具介绍 码云 Pages:码云 Pages 是一个免费的静态网页托管服务,您可以使用码云 Pages 托管博客、项目官网等静态网页。这样就不用购买服务器和域名了,如果您使用过 Github Pages 那么您会很快上手使用码云的Pages服务。这里使用码云上的Pages 而不是用Github Pages,主要原因就是在国内没有VPN的话。。。你懂得!还有就是支持国产! 链接:https://git.oschina.net/ Hexo:Hexo 是一个快速、简洁且高效的博客框架。Hexo 使用 Mark
现实生活中,为了增强搜索引擎的关联性,都会将页面作为静态,但有时为了显示一些特殊信息,使用动态的脚本展现速度更快,为了突破了静态页面的局限性展示内容,于是就有了伪静态这项技术,那什么是伪静态?服务器伪静态如何配置?
上篇文章讲了如何在 Github 一键部署静态网页。但是,username.github.io 这样的域名也太难看了,放在简历上多少有点影响观感。
Hexo是一个基于Node.js的静态博客程序,可以方便的生成静态网页托管在Github和Heroku上。并且有很多人为其制作了很多优秀的主题(theme),你可以根据自己的喜好进行设置。主题的设置将在后面的章节中介绍。
很多开源项目托管平台都支持为托管的项目建立主页,但主页的维护方式都没有码云这么酷。大多数托管平台无非是开放一个FTP或类似服务,用户把制作好的网页或脚本上传了事,而在码云用户通过创建特殊名称的 Git 版本库或在 Git 库中建立特别的分支实现对主页的维护。
WEB-INF是Java的Web应用的安全目录。所谓安全就是客户端无法访问,只有服务端可以访问的目录。
在了解静态化之前,我们需要先了解什么叫静态网页,静态网页是服务器上面真实存在的页面,它不需要编译,用户就可以直接访问这样的网页,后缀一般为.html或者是.HTM。如果我们把这个网页上传到我们的服务器
在本节中,我们将探讨PageRank算法,其实这是一个老生常谈的概念或者算法,在这里我们重新温故下这个经典算法。这是一种使用Web Graph中的链接结构按重要性对网页进行排名的方法,这也是Google普及的网络搜索常用算法。 在讨论PageRank之前,让我们先将Web概念化为图,然后尝试使用图论语言来研究其结构。
1. 动态网页技术主要分为客户端动态网页技术和 服务器端动态网页技术 两种。
前言:因为本人正在着手维护个人的博客,所以把自己的制作过程记录下来,分享过程中的方法与问题!
以上分析可知,我们要学习动态资源,必须要先学习静态资源。静态资源三剑客,各自的作用:
JSP处理过程 就像其他普通的网页一样,您的浏览器发送一个HTTP请求给服务器。 Web服务器识别出这是一个对JSP网页的请求,并且将该请求传递给JSP引擎。通过使用URL或者.jsp文件来完成。 JSP引擎从磁盘中载入JSP文件,然后将它们转化为servlet。这种转化只是简单地将所有模板文本改用println()语句,并且将所有的JSP元素转化成Java代码。 JSP引擎将servlet编译成可执行类,并且将原始请求传递给servlet引擎。 Web服务器的某组件将会调用servlet引擎,然后载入并执行servlet类。在执行过程中,servlet产生HTML格式的输出并将其内嵌于HTTP response中上交给Web服务器。 Web服务器以静态HTML网页的形式将HTTP response返回到您的浏览器中。 Web浏览器处理HTTP response中动态产生的HTML网页,就好像在处理静态网页一样。 JSP页面只有在首次访问的时候需要编译生成Servlet字节码,所以首次加载的速度会稍慢(可以忽略)
Vercel 从前叫做 ZEIT,是前端团队的最佳工作流,将静态、Jamstack 部署、无服务器功能、全局 CDN 等整合在一起。他们与 Magic Labs 合作,使用 Vercel + Next.js 开发和发布 Jamstack 应用的最简单方法,以及使用 Magic 形成自然协同作用的向应用添加身份验证的最简单方法。其致力于将基于 Jamstack 的高性能的强大应用开发转变为主流。
这一篇主要是用于用到web端开发的同学,不需要后端服务器,不需要数据库服务器,不需要文件服务器,那么为什么还要专门搞个服务器部署前端的静态网站呢?
在毕业设计中,用Java写下了第一个爬虫。2019年工作之后,从Python的requests原生爬虫库,学到分布式爬虫框架Scrapy,写了60个左右爬虫。然后写了十几篇有关于爬虫的文章。但大多都是围绕着程序设计、功能模块的角度写的,今天就从数据的角度出发,来看看爬虫程序是如何开发的。
准备工作: Hexo : 基于Node的一个静态博客框架,可以方便生成静态网页托管在github上 node,js : 用来生成静态页面。 Node.js官网下载 git :本地数据提交至github github : 博客的远程仓库,备份数据 安装: 安装Node.js 安装Hexo 终端中输入 : npm install -g hexo 终端cd到一个选定的目录 执行 hexo init 安装npm npm install 开启hexo服务器 hexo s , 浏览器中打开网址: ht
云开发提供了一项静态网页托管的业务(云开发静态托管), 你可以将你的静态资源(HTML、CSS、JavaScript、字体等)上传到云端, 由腾讯云对象储存和边缘CDN进行分开.你可以将它理解成类似 Github Page 的业务.
网站(Website),是指在互联网上,根据一定的规则,使用HTML、PHP等代码语言制作的用于展示特定内容的相关网页的集合,有可供管理人员操作的后台及用户使用的前台。简单地说,Website是一种通讯工具,就像布告栏一样,人们可以通过Website来发布自己想要公开的资讯,或者利用Website来提供相关的网络服务。人们可以通过网页浏览器来访问Website,获取自己需要的资讯或者享受网络服务。
前几天在Python星耀群【维哥】问了一个Python自动化办公处理的问题,一起来看看吧。
这些开源项目都是优秀的静态网页构建工具,适合各种需求和技术栈。它们提供了简单易上手、可定制化、多语言支持等关键功能,并且具有快速构建、自动优化前端性能、SEO 友好等特点。无论您是个人博客还是企业门户,使用这些工具来构建静态网站都会带来高效且愉悦的经历。
相信每一个人都有一个自己博客的梦想,有些朋友可能在上大学,没有钱,空有技术,但是不想买花钱买服务器搭网站,今晚,我来教大家怎么免费搭一个博客.
相信不少人最听说过 Github 部署网站,但是我翻找了很多文章基本以实操为主,在 Setting 点一下就没了。
一开始图书文件夹下为空,我们使用命令行工具,就会自动创建README.md和SUMMARY.md;
我们为什么要了解网络爬虫? 因为当今从事科学研究等,需要大量的数据,但是这些数据公开的又非常的少,大量的数据都在大公司的手中。我们这些普通人本身并没有那么多数据,但是我们又需要大量的数据。那么,这时我们就需要用到网络爬虫了。
广义上来说,JSP引擎是用来管理和运行Web应用程序的软件,而安装了JSP引擎的计算机就是Web服务器。
在HTML入门教程学习之前,我们有必要跟大家讲一下网站开发的一些知识。了解这些知识,对你以后网站开发之路如何走、该学习些什么,是非常有用的。同时也避免你走太多的弯路。
即静态网页,指已经装载好内容HTML页面,无需经过请求服务器数据和编译过程,直接加载到客户浏览器上显示出来。通俗的说就是生成独立的HTML页面,且不与服务器进行数据交互。
Jekyll、Hugo、Hexo 是简单的博客形态的静态站点生产机器。它有一个模版目录,其中包含原始文本格式的文档,通过 Markdown 以及 Liquid 转化成一个完整的可发布的静态网站,你可以发布在任何你喜爱的服务器上。Jekyll、Hugo、Hexo 也可以运行在 码云(Gitee.com) Pages 上,也就是说,你可以使用码云的服务来搭建你的仓库页面、博客或者网站,而且是完全免费的。
领取专属 10元无门槛券
手把手带您无忧上云