专栏首页Python攻城狮百度=“百家号站内搜索”?

百度=“百家号站内搜索”?

如果你经常关注热点新闻,那么你一定知道前段时间有篇文章《搜索引擎百度已死》引起很大争议,做为一名吃瓜群众,我也想理性探讨下,其实这篇文章我很早之前就想写了,但是每次开始执笔,就会有别的事情耽误,因为我日常也不经常“fq”,所以使用百度也成了和我息息相关的事,今天我们就理性去探讨下这个问题。

搜索公众号最近一个月关于“搜索引擎百度已死”的文章,按阅读量去排序,前几篇都是10w+的阅读量,由此可见广大网民对于此事关注度还是蛮高的。

我随机挑选了几个关键词(滴滴、流浪地球、裁员)在百度进行搜索

  • 滴滴

百度搜索“滴滴”结果

  • 裁员
  • 流浪地球

图中标注的全是百家号发布的内容,为了避免结果的偶然性,三个关键词的搜索结果显然不具备代表性,也不能客观的认为“百度搜索结果的首页,充斥着大量来自百家号的内容。”

所以我们增加样本,通过增加样本集来增加结果的准确性。

流程图

Chrome浏览器右键检查查看network这些老生常谈的话这里就不啰嗦了,因为我们主要是想采集信息类的结果,所以我选择了去采集百度资讯的新闻。

  • 数据采集
import time
import datetime
import re
import random
import requests

from bs4 import BeautifulSoup
from urllib.parse import urlparse

zx_url = "https://www.baidu.com/s?ie=utf-8"

word = '滴滴'

my_headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
        }

data = {'rtt': 1, 'bsst': 1, 'cl': '2', 'tn': 'news', 'word': word}

r = requests.get(url=zx_url, params=data, headers=my_headers)


soup = BeautifulSoup(zx_html, 'html.parser')
soup_content = soup.find('div', id='content_left')

result_list = soup_content.find_all('div', class_='result')
now = datetime.datetime.now()
current_time = now.strftime("%Y-%m-%d 08:00:00")
ystd_day = now - datetime.timedelta(days=50)


for result in result_list:
    title = result.find('h3', attrs={'class': 'c-title'}).get_text().strip()    # 去除空格
    href = result.find('a').get("href")
    re_time = result.find('p', attrs={'class': 'c-author'}).get_text().\
        replace('\n', '').replace('\t', '').replace(' ', '').replace('\xa0', '')    # 去除多余字符

    d_time = datetime.datetime.strptime(re_time[-16:], '%Y年%m月%d日%H:%M')
    print('title: %s; href:%s; d_time:%s;' % (title, href, d_time))
  • 这里采用Python的urllib的子模块urlparse去解析链接,判断是否为百家号的内容
res = urlparse(href)
http_res = res.scheme + '://' + res.netloc

代码略去了部门对数据库读写的操作

部分日志

其实日志已经暴露了一切,秉持一贯严谨的态度,对结果进行了统计,关键词的数量有200个,每个关键词采集前5页的链接,因为此次关键词是随机的,所以搜索部分关键词,只有1-2页的结果,最终采集链接条数6038条,其中百家号的文章共2888条,占比47.8%,结果仁者见仁智者见智。

方可成在《搜索引擎百度已死》后又写了一篇文章,其中一段话我十分赞同:

搜索引擎其实是信息社会的基础设施。一家市场占有率大约70%的搜索引擎,掌握的几乎就是全社会的信息入口。中国人能接触到怎样的信息,是真实还是虚假,优质还是低劣,很大程度上会被它决定。

所以,我们才会对百度搜索成为百家号站内搜索颇有意见,我挺怀念早期的百度、早期的贴吧、早期的微博、早期的抖音,不过在商业化面前谈不动情怀。

最后以人民网三评百度结尾:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python网络爬虫(三)- 爬虫进阶1.爬虫进阶cookielib2.具体代码操作

    注解:这里使用urllib2.HTTPHandler()访问https网页得到的html代码。

    意气相许的许
  • Javascript(2)-js进阶

    备注:如果父元素进行了relative/absolute定位,offsetTop/offsetLeft就是相对父元素的顶部和左边的距离,如果父元素默认定位,就是...

    意气相许的许
  • Python中的模块介绍和使用1.import2.from…import 3.from … import * 4.as 5.定位模块 6.模块制作7.模块中的__all__8.python中的包 9.

    在Python中有一个概念叫做模块(module),这个和C语言中的头文件以及Java中的包很类似,比如在Python中要调用sqrt函数,必须用import关...

    意气相许的许
  • PEP8编码规范,及开发中的一些惯例和建

    规范的代码给人的第一感觉是【美观】,美的东西总是更加的吸引人,也愿意观看。不规范的代码风格总是令人感到难受,检查会很困难。所以美观带来的是代码的【可读性】强,...

    py3study
  • 0554-6.1.0-同一java进程中同时访问认证和非认证集群的问题(续)

    Fayson在前面的文章《0553-6.1.0-如何使用Java代码同时访问安全和非安全CDH集群》,本篇文章介绍在同一Java进程中,通过多线程同时访问Ker...

    Fayson
  • [Python人工智能] 一、神经网络入门及theano基础代码讲解

    从本篇文章开始,作者正式开始研究Python深度学习、神经网络及人工智能相关知识。第一篇文章主要讲解神经网络基础概念,同时讲解Theano库的安装过程及基础用法...

    统计学家
  • 当今最火10大统计算法,你用过几个?

    为什么学习统计学习?理解不同技术背后的理念非常重要,它可以帮助你了解如何使用以及什么时候使用。同时,准确评估一种方法的性能也非常重要,因为它能告诉我们某种方法在...

    BestSDK
  • AngularDart4.0 英雄之旅-教程-02启动应用

    码云项目页:https://gitee.com/scooplolwiki/toh-0

    南郭先生
  • MySQL show语句

    JavaEdge
  • go的卸载和环境变量配个人.bashrc 转

    若是用安装包直接解压 http://download.csdn.net/detail/u010026901/7592581

    双面人

扫码关注云+社区

领取腾讯云代金券