Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >C++ socket网络爬虫(1)

C++ socket网络爬虫(1)

作者头像
magicsoar
发布于 2018-02-06 02:44:27
发布于 2018-02-06 02:44:27
2.7K00
代码可运行
举报
文章被收录于专栏:magicsoarmagicsoar
运行总次数:0
代码可运行

C++写的socket网络爬虫,代码会在最后一次讲解中提供给大家,同时我也会在写的同时不断的对代码进行完善与修改

我首先向大家讲解如何将网页中的内容,文本,图片等下载到电脑中。

我会教大家如何将百度首页上的这个百度标志图片(http://www.baidu.com/img/bdlogo.gif)抓取下载到电脑中。

程序的部分代码如下,讲解在代码的下面,下载链接在最后给出,

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
int main()
{

    string url = "www.baidu.com";
    string name = "/img/bdlogo.gif";
    int port = 80;
    int client_socket = makeSocket(url,port);//1
    string request = "GET " + name + " HTTP/1.1\r\nHost:" + url + "\r\nConnection:Close\r\n\r\n";//2
    
    if (send(client_socket, request.c_str(), request.size(), 0) == SOCKET_ERROR)//3
    {
        cout << "send error" << endl;
    }
    
    fstream file;
    string fileName = FileName(name);//4
    file.open(fileName, ios::out | ios::binary);//5
    
    char buf[1024];
    ::memset(buf, 0, sizeof(buf));//6
    int n = 0;
    n = recv(client_socket, buf, sizeof(buf)-sizeof(char), 0);//3
    char* cpos = strstr(buf, "\r\n\r\n");//7
    file.write(cpos + strlen("\r\n\r\n"), n - (cpos - buf) - strlen("\r\n\r\n"));//7
    while ((n = recv(client_socket, buf, sizeof(buf)-sizeof(char), 0)) > 0)//7
    {
        try
        {
            file.write(buf, n);
        }
        catch (...)
        {
            cerr << "ERROR" << endl;
        }
    }
    file.close();
    closesocket(client_socket);
    system("pause");
    return 0;
}

一、main函数

1、makeSocket(url,port)

int makeSocket(string host,int port)函数是我自己编写的,接受两个参数,一个是域名或主机名,第二个是所使用的端口号,返回一个用于创建socket的int型数据,将在这一页的二.makeSocket中进行讲解

2、string request = "GET " + name + " HTTP/1.1\r\nHost:" + url + "\r\nConnection:Close\r\n\r\n";

这个是http的请求报头,有很多的信息,这里只对这句话中使用到的进行讲解

GET 请求获取Request-URI所标识的资源;

name 所标识的资源;

HTTP/1.1 表示请求的HTTP协议版本;

Host:url  指定被请求资源的Internet主机和端口号,通常从HTTP URL中提取出来的,

比如 我们在浏览器中输入http://baidu.com/index.html浏览器发送的请求消息中,就会包含Host请求报头域,如下: Host:www.baidu.com

此处使用缺省端口号80,若指定了端口号,则变成:Host:www.baidu.com:port

Connection:Close Connection字段用于设定是否使用长连接,在http1.1中默认是使用长连接的,即Connection的值为Keep-alive,如果不想使用长连接则需要明确指出connection的值为close

Connection:Close表明当前正在使用的tcp链接在请求处理完毕后会被断掉。以后client再进行新的请求时就必须创建新的tcp链接了,即必须从新创建socket

更多关于http协议的内容可以查考http://blog.csdn.net/gueter/article/details/1524447 HTTP协议详解

注意最后一定要以一个单独的\r\n作为结束标志

3.send/recv

send用于向服务端发送消息

recv/send函数原型如下

代码语言:js
AI代码解释
复制
int recv(SOCKET s,char FAR * buf,int len,int flags)/int send(SOCKET s,const char FAR * buf,int len,int flags);

第一个参数表示代表对方的socket,

第二个参数为接收读取的信息的字符串

第三个参数为该字符串的大小

第四个参数可以用来控制读写操作

详情可以参照http://www.cnblogs.com/magicsoar/p/3587351.html 中的讲解1

4 FileName(name)

自己编写的string FileName(string dir)函数,由于windows中文件的名字中不允许含有/

所以FileName函数用于将dir中的所有/替换为_

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
string FileName(string dir)
{
    string search = "/";
    int pos = 0;
    while ((pos = dir.find(search, pos)) != string::npos) {
        dir.replace(pos, search.size(), "_");
        pos++;
    }
    return dir;
}

如string FileName(“img/bdlogo.gif”)返回_img_bdlogo.gif

5 file.open(fileName, ios::out | ios::binary)r45

ios::out以输出方式打开文件,如果文件不存在这创建新的文件

ios::binary以二进制模式进行I/O操作,这里使用二进制模式是为了正确的处理图片的下载

6 ::memset(buf, 0, sizeof(buf));

函数原型为void *memset(void *s, int ch, size n);

函数解释:将s所指的内存中前n个字节 (typedef unsigned int size_t)用 ch 替换并返回 s 。

memset:作用是在一段内存块中填充某个给定的值,它是对较大的结构体和数组进行清零操作的一种较快方法

7 在接收和解释请求消息后,服务器返回一个HTTP响应消息。

HTTP响应也是由三个部分组成,分别是:状态行、消息报头、响应正文

响应正文就是服务器返回的资源的内容,所以我们需要跳过状态行与消息报头部分。

消息报头与相应正文之间可以用\r\n\r\n进行区分,当第一次发现接收到的字符串数组中含有\r\n\r\n时,则将\r\n\r\n前的内容全部忽略,将剩下的内容写到文件中去

strstr(*str1, *str2)实现从字符串str1中查找是否有字符串str2,如果有,从str1中的str2位置起,返回str1中str2起始位置的指针,如果没有,返回null。

由于一次最多可以接受1024个字符,而\r\n极有可能位于中间位置,所有我们要将1024个char中位于\r\n之后的数据写到文件中。

二.makeSocket函数

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
int makeSocket(string host,int port)
{
    WSADATA inet_WsaData;//1
    WSAStartup(MAKEWORD(2, 0), &inet_WsaData);//1
    if (LOBYTE(inet_WsaData.wVersion) != 2 || HIBYTE(inet_WsaData.wVersion) != 0)//1
    {
        WSACleanup();
        return -1;
    }
    int tcp_socket = socket(AF_INET, SOCK_STREAM, 0);//1
    struct hostent * hp = ::gethostbyname(host.c_str());//2
    struct sockaddr_in saddr;
    saddr.sin_family = AF_INET;
    saddr.sin_port = htons(port);
    memcpy(&saddr.sin_addr, hp->h_addr, 4);//3
    if (connect(tcp_socket, (const struct sockaddr *)&saddr, sizeof(saddr)) == -1)//1
    {
        cerr << "error in connect" << endl;
    }
    return tcp_socket;
}

1 见http://www.cnblogs.com/magicsoar/p/3585129.html windows下的C++ socket服务器(3)中讲解

2 struct hostent * hp = ::gethostbyname(host.c_str());

gethostbyname()返回对应于给定主机名的包含主机名字和地址信息的hostent结构指针

hostent结构体的定义如下

代码语言:js
AI代码解释
复制
struct  hostent { 
        char    FAR * h_name;           /* official name of host */     
        char    FAR * FAR * h_aliases;  /* alias list */     
        short   h_addrtype;             /* host address type */     
        short   h_length;               /* length of address */     
        char    FAR * FAR * h_addr_list; /* list of addresses */     
#define h_addr  h_addr_list[0]          /* address, for backward compat */     
};

hostent->h_name表示的是主机的规范名。例如www.baidu.com的规范名其实是www.a.shifen.com。(关于www.a.shifen.com还有一段故事http://www.zhihu.com/question/20100901) hostent->h_aliases表示的是主机的别名.www.google.com就是google他自己的别名。有的时候,有的主机可能有好几个别名,这些,其实都是为了易于用户记忆而为自己的网站多取的名字。 hostent->h_addrtype表示的是主机ip地址的类型,到底是ipv4(AF_INET),还是pv6(AF_INET6) hostent->h_length表示的是主机ip地址的长度

hostent->h_addr_list表示的是主机的ip地址

#define h_addr h_addr_list[0]

3 memcpy(&saddr.sin_addr, hp->h_addr, 4);

由于 hp->h_addr是char*类型,不能直接赋值给saddr.sin_addr

所以我们使用了memcpy函数

函数原型如下

代码语言:js
AI代码解释
复制
void *memcpy(void *dest, const void *src, size_t n);

从源src所指的内存地址的起始位置开始拷贝n个字节到目标dest所指的内存地址的起始位置中。

程序的下载地址

http://files.cnblogs.com/magicsoar/Webcrawler1.rar

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
k8s实践(十三):kubectl插件管理工具krew
kubectl 是 Kubernetes 的命令行工具(CLI),是 Kubernetes 用户和管理员必备的管理
loong576
2019/11/23
5.4K0
k8s实践(十三):kubectl插件管理工具krew
Kubecost | Kubernetes 开支监控和管理🤑🤑🤑
昨天浏览 Kubectl 插件的时候发现了 Kubecost,一看惊为天人啊,这个功能对于运营团队和 PM 团队领导来说太重要了。直接把监控数据换算成钱,而且明确告诉你钱花在哪个 namespace、哪个应用、哪个标签、哪个 deployment下,明确告诉你那些钱花得值、哪些钱浪费了,有哪些办法可以减少浪费… 真的都是实打实的「降本」功能。
东风微鸣
2022/04/22
1.7K0
Kubecost | Kubernetes 开支监控和管理🤑🤑🤑
K8S 实用工具之三 - 图形化 UI Lens
如果你的工作机(前置机、跳板机、操作机、堡垒机…)是 Windows 桌面环境。那么我强烈推荐你使用这个 K8S 实用工具:图形化 UI Lens[1]。
东风微鸣
2022/04/22
3.6K0
K8S 实用工具之三 - 图形化 UI Lens
在 k8s(kubernetes)中使用 Loki 进行日志监控
在 k8s(kubernetes)中使用 Loki 进行日志监控 安装helm环境 [root@hello ~/yaml]# [root@hello ~/yaml]# curl https://baltocdn.com/helm/signing.asc | sudo apt-key add - [root@hello ~/yaml]# sudo apt-get install apt-transport-https --yes [root@hello ~/yaml]# echo "deb https:
小陈运维
2021/12/14
1.3K0
让 K8s 更简单!8 款你不得不知的 AI 工具 - Part 2
链接|https://itnext.io/ai-and-kubernetes-open-source-tools-powered-by-ai-for-kubernetes-59d0fc29213e
我的小碗汤
2024/04/02
2820
让 K8s 更简单!8 款你不得不知的 AI 工具 - Part 2
通过kubectl命令行查看K8S集群花费成本
如果你是像我们一样使用Kubernetes的工程师,那么kubectl是你的忠实伴侣。这就是kubecost团队构建一个新的CLI与Kubernetes成本数据交互的原因。今天,我们宣布kubectl cost(https://github.com/kubecost/kubectl-cost)发布,一个直接适合您工作流程的开源扩展。
用户5166556
2023/03/18
4420
通过kubectl命令行查看K8S集群花费成本
K8s :通过 kubectl 插件 rakkess 查看集群 RBAC授权信息
出其东门,有女如云。虽则如云,匪我思存。缟衣綦巾,聊乐我员。——《郑风·出其东门》
山河已无恙
2024/03/25
1650
K8s :通过 kubectl 插件 rakkess 查看集群 RBAC授权信息
(3 / 3)CentOS搭建K8s微服务20条
k8s第三方资源监控资源展示平台、Prometheus(数据收集)、Grafana(数据展示)
老张的哲学
2023/01/09
5530
使用 Loki 进行日志监控和报警
对于生产环境以及一个有追求的运维人员来说,哪怕是毫秒级别的宕机也是不能容忍的。对基础设施及应用进行适当的日志记录和监控非常有助于解决问题,还可以帮助优化成本和资源,以及帮助检测以后可能会发生的一些问题。前面我们介绍了使用 EFK 技术栈来收集和监控日志,本文我们将使用更加轻量级的 Grafana Loki 来实现日志的监控和报警,一般来说 Grafana Loki 包括3个主要的组件:Promtail、Loki 和 Grafana(简称 PLG),最为关键的是如果你熟悉使用 Prometheus 的话,对于 Loki 的使用也完全没问题,因为他们的使用方法基本一致的,如果是在 Kubernetes 集群中自动发现的还具有相同的 Label 标签。
我是阳明
2020/06/15
10.3K0
使用 Loki 进行日志监控和报警
5个实用工具,提升Kubernetes生产力
Kubernetes 是一个强大的容器编排平台,用于自动化复杂应用程序的部署、管理和扩展。它通常带有kubectl客户端工具,允许用户使用 CLI(命令行界面)与 Kubernetes 集群进行交互。
灵雀云
2022/11/29
6110
5个实用工具,提升Kubernetes生产力
在 EKS 中实现基于 Promtail + Loki + Grafana 容器日志解决方案
如果今天谈论到要部署一套日志系统,相信用户首先会想到的就是经典的ELK架构,或者现在被称为Elastic Stack。Elastic Stack架构为Elasticsearch + Logstash + Kibana + Beats的组合,其中,Beats负责日志的采集, Logstash负责做日志的聚合和处理,Elasticsearch作为日志的存储和搜索系统,Kibana作为可视化前端展示,整体架构如下图所示:
我是阳明
2021/06/25
2.8K0
在 EKS 中实现基于 Promtail + Loki + Grafana 容器日志解决方案
K8S 实用工具之一 - 如何合并多个 kubeconfig?
K8S 集群规模,有的公司倾向于少量大规模 K8S 集群,也有的公司会倾向于大量小规模的 K8S 集群。
东风微鸣
2022/04/22
1.1K0
.NET Core + K8S + Loki 玩转日志聚合
最近在了解日志聚合系统,正好前几天看到一篇文章《用了日志系统新贵Loki,ELK突然不香了!》,所以就决定动手体验一下。本文就带大家快速了解下Loki,并简单介绍.NET Core如何集成Loki。
圣杰
2020/07/28
1.4K0
.NET Core + K8S + Loki  玩转日志聚合
PLG 实现 Kubernetes Pod 日志收集和展示
之前写过一篇 关于 Fluentd设计了一套日志架构用于实现 Kubernetes Pod 日志收集 文章,鉴于EFK已经不是现在的主流日志架构,研究了另外一套更加主流的日志系统 promtail + loki + Grafana 。
后端云
2021/12/08
1.7K1
PLG 实现 Kubernetes Pod 日志收集和展示
K8S 实用工具之二 - 终端 UI K9S
•第一篇:《K8S 实用工具之一 - 如何合并多个 kubeconfig?[1]》
东风微鸣
2022/04/22
2.1K0
K8S 实用工具之二 - 终端 UI K9S
K8S:通过 kubectl 插件 ketall 查看所有API对象资源
出其东门,有女如云。虽则如云,匪我思存。缟衣綦巾,聊乐我员。——《郑风·出其东门》
山河已无恙
2023/08/21
3690
K8S:通过 kubectl 插件 ketall  查看所有API对象资源
多集群实现 PLG 日志收集
Loki 的部署方式有很多种也非常灵活,有微服务部署模式,就是每个组件单独部署,也可以单进程部署。单模块部署相对比较复杂, 每个模块可以单独启动, 不同的模块间通过gRPC服务互相配合提供服务.
operator开发工程师
2023/11/16
5040
多集群实现 PLG 日志收集
使用loki和grafana展示ingress-nginx的日志
在kubernetes中,对于日志的收集,使用最多的是FEK, 不过有时候,FEK在架构上会略显重, ES的查询及全文检索功能其实使用的不是很多.LoKi做为日志架构的新面孔, 由grafana开源, 使用了与Prometheus同样的label理念, 同时摒弃了全文检索的能力, 因此比较轻便, 非常具有潜力。
没有故事的陈师傅
2021/01/04
2.5K0
使用loki和grafana展示ingress-nginx的日志
kubernetes(十六) k8s 弹性伸缩
常规的做法是给集群资源预留保障集群可用,通常20%左右。这种方式看似没什么问题,但放到Kubernetes中,就会发现如下2个问题。
alexhuiwang
2020/09/23
3.6K0
kubernetes(十六) k8s 弹性伸缩
使用 Loki 收集 Traefik 日志
前面我们介绍了 Loki 的实现架构以及 Promtail 的相关配置,本文我们将来介绍如何安装 Loki,并为 Traefik 的日志设置一个可视化的 Dashboard。
我是阳明
2021/05/17
1.5K0
使用 Loki 收集 Traefik 日志
推荐阅读
相关推荐
k8s实践(十三):kubectl插件管理工具krew
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验