def request_jd(keyword):
url = "https://search.jd.com/Search"
params = {
"keyword": keyword
}
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
}
response = requests.get(url=url, params=params, headers=headers)
response.text 获取str类型的响应内容
response.content 获取bytes类型的响应内容
response.json() 获取json格式数据
请求行(request line)
请求头(headers)
请求体(body)
params
(严格来说不算是请求体)
实际请求的时候会变成URL的一部分, 所以说post请求也可以用params
urlencode和urldecode
请求头中指定的编码格式只对请求体是有效的, 不对params有效. 所以urlencode来保证URL不会发生编码问题.
from urllib.parse import quote, unquote
print(quote("鼠标"))
print(unquote("%E9%BC%A0%E6%A0%87"))
data
携带额外的请求信息.
静态页面
纯粹的HTML文件, 简单地说当前的页面文件就存储在服务端, 我们请求的静态页面实际上就是请求对方服务器中的文件. 通过返回不同的HTML文件来完成不同请求的显示效果.
最常见的就是各大企业网站
动态页面
动态页面是指除了HTML以外, 通过ajax
在不直接刷新页面的前提下, 完成了和服务端的数据交互. 并通过javascript
回调函数完成对页面内容的修改, ajax
和服务端交互的数据格式通常为json
浏览商品 视频网站的瀑布流
Ajax
asynchronous JavaScript-XML 异步javascript和xml的缩写
在不直接刷新页面的前提下, 完成了和服务端的数据交互. 并通过javascript
回调函数完成对页面内容的修改, ajax
和服务端交互的数据格式通常为json
.
json
js对象标记法, 用来表示对象关系
js中的对象: {a: 1, b: null}
import json
test_dict = {
"a": 1,
"b": ["1", 2, None],
"c": {"d": 1}
}
# json格式数据其实是个字符串
# 将python字典转变为json数据格式
json_data = json.dumps(test_dict)
print(type(json_data), json_data)
# 将json数据格式转变为字典
print(json.loads(json_data))
html和js决定了显示的内容, css决定了怎么显示.
HTML(HyperTextMarkup Language 超文本标记语言)
HTML的作用
定义网页的内容的含义和结构.
tag(标签)
<标签名>
<html>
表示当前是一个HTML文档对象
<head>
提供一些基础信息
# 通过meta标签来表示当前页面的编码格式
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<body>
纯内容
element(元素)
<标签名> xxxxxxxxxx</标签名>
CSS(Cascading Style Sheets 层叠样式表)
能对网页中的元素位置的排版进行像素级别的控制. 页面的渲染主要就是通过css
来完成的.
JavaScript
通过<script></script>
包裹, 主要完成数据的交互和对DOM树(HTML是一个结构化的数据文件, DOM就是将结构化的数据转变成对象)的修改.