展开

关键词

爬虫

流程图 请求https://www.zhihu.com获取页面中的_xsrf数据,开启了跨站请求伪造功能,所有的POST请求都必须带上此参数。 爬虫框架从start_requests开始执行,此部分会提交主页的访问请求给引擎,并设置回调函数为post_login. post_login解析主页获取_xsrf保存为成员变量中,并提交登陆的POST

60620

对话李大海:与计算的亲密接触缘于AI

当你在上寻找答案时,是否发现有些自己感兴趣的问题会出现在自己的视野里?这就是计算、大数据在的体现之一。 正如李大海所说,所做的一切,都是为了创造一种前所未有的“连接”,满足彼此的需求。要做的如何挖掘?挖掘后如何分发?这些过程其实正是计算可以大展拳脚的地方。 目前,的搜索、推荐、社区治理、用户发表的回答、评论、文章,都可以利用计算、大数据、AI技术,并根据以“认真、专业、友善”为基础的社区规范进行管理。 李大海认为,“化是未来的一个大趋势,腾讯现在不光是把计算商业化了,同时还开始把AI商业化了。未来企业将不需要自己组建庞大的相关技术团队,门槛越来越低。” “与腾讯合作,是因为他们的产品和服务能够给到我们帮助,有对应的产品能匹配到我们对应的需求。”李大海说。 谈及未来,李大海表示:“计算是一个很大的市场,腾讯在这个领域是先行者。

49710
  • 广告
    关闭

    腾讯云+社区系列公开课上线啦!

    Vite学习指南,基于腾讯云Webify部署项目。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    爬虫课程(十一)|:使用Scrapy模拟登录

    接下来的文章我将以爬取问答内容为例来讲解如何使用Scrapy进行模拟登陆。 一、分析登录的请求api 我们先进入的登录页面,输入用户名和密码(为了查看登录时请求的api信息,我这里故意把密码输错),点击登录,查看右边Network信息。 ? 登录 通过Network截取到使用email登录(见下图1)时的请求api为https://www.zhihu.com/login/email(见下图2),请求需要的From Data为_xsrf、 登录需要的值 通过对登录需要提交的From Data信息进行分析得知只有_xsrf这个参数的值是需要动态获取,并且是从上一个页面(https://www.zhihu.com/#signin)进行获取过来的 二、实现登录的代码 ? 代码1 ? 代码2

    68760

    问题代码

    17920

    话题监控

    监控,指定话题(自己设置)下的新答案,如果在指定时间(默认约10天)后,出现有价值的新答案(判断标准:赞数>3,可自己修改),则输出到RSS 注意:Huginn并没有准确的delay agent,所以这个

    49430

    Java 爬虫

    目标 爬取用户信息,并作简要分析。 基于 Java 的 webmagic,开发极其简单,这个爬虫的代码主体就几行,而且只要专注提取数据就行了(其实是因为我也不知道其它 Java 的爬虫框架)。 代理 IP 没有使用代理 IP,经测试开20个线程爬会被封IP,我就开了3个线程。 爬取速度 30小时爬取了3w用户(关注者数量≥10的用户),确实慢了点(部分原因是的网站结构,下面分析)。 分析的网站结构 以一个我关注的大佬为例,url 是:https://www.zhihu.com/people/warfalcon/answers ? 用户高校排名 ? 城市排名 ? 代码 pom 文件 需要爬虫框架 webmagic。

    64640

    AI版

    有没有想过在上提问,不是人来回答你的问题,而是机器来回答? 这篇文章介绍一个实现思路,利用技术大批量回答「」上的问题。 趁今天周五,我忙里偷闲,写了几行代码,完成了一个答题AI。 ? ps:关心的话题是有数量限制的,后续可以再写个代码,批量去掉关心的子话题。 STEP 02 获取推荐问题 批量获取推荐的问题,在开发者工具console面板,注入以下代码: //获取推荐的问题 async function postData(_limit = 100) STEP04 人机协作 这时候,我们只需要挑选感兴趣的问题,稍微修改下,就可以回答啦~ 这里为了节省时间,我稍微修改了下以上的代码,把问题的url,也保留了下来,方便点击链接直接复制答案,跳转到去回答问题

    35230

    时间序列数据的存储和计算-系列介绍

    上关于时间数据的存储与计算的系列介绍. 作者:木洛 主要包括: [1] - 时间序列数据的存储和计算 - 概述 - 2018.01.07 [2] - 时间序列数据的存储和计算 - 开源时序数据库解析(一) - 2018.01.07 [3] - 时间序列数据的存储和计算 - 开源时序数据库解析(二) - 2018.01.07 [4] - 时间序列数据的存储和计算 - 开源时序数据库解析(三) - 2018.01.07 [5] - 时间序列数据的存储和计算

    44510

    揭秘大V

    ,可以说是国内目前最大的问答类社区。与微博、贴吧等产品不同,上面的内容更多是用户针对特定的问题分享知识、经验和见解。咱们编程教室就有不少读者是从上了解到我们的。 那么,上都有哪些“大V”用户?普通用户喜欢关注哪方面内容?我们利用 Python 对上的部分信息进行了个采集,做了一份简单的统计。 大V的关联 首先给大家看的是上粉丝数前50用户的关系图: ? ? ? 图中的线是用户之间的相互关注的关系。 于2010年12月20日上线,到今年7月31日共3145天,轮子哥vzch平均每天要回答7个问题以上(怀疑给他发工资的是微软还是……),而太平洋电脑网则平均每天发表12.8篇文章,真是有够努力! 最后,这是一个以关注数超1万的用户的个人简介做出来的词: ? 不过有点尴尬,似乎大家更喜欢在简介里发自己的公众号、微信和微博呢。 以上就是我们对于公开数据做的一些分析。

    40820

    学习反射

    :学习java应该如何理解反射? 余晖: 反射提供了一种运行期获取对象元信息的手段。写框架代码用的比较多,因为需要运行时动态获取和操作对象的属性和方法。 尽量少用反射,会有性能开销,大多数场景下可以用设计模式代替 :Java 反射到底慢在哪里? 松鼠奥利奥: 对于 Java 的依赖注入容器而言,反射慢在把装载期做的事情搬到了运行期。 :大型多人项目中使用反射机制有什么利弊? vczh: 反射是用来做library的,不是用来做业务的。程序员就是控制不住自己啊,东西放在那里就一定要用,不然就手痒。

    32520

    ctrl c in zhihu

    32340

    模拟登陆

    今天先从开始。 Charles系统环境:Mac浏览器:Chrome 抓包 首先进行网站登录抓包,打开Chrome浏览器无痕窗口,然后清空所有缓存,打开Charles,在Chrome浏览器地址栏输入www.zhihu.com,打开登录界面 图4 登录请求一般是POST,这个很少有例外,有些网站一般会是第一个post请求,可是的post请求有点颇多,这个请求中有username和password,那我们就以这里为基准开始分析。 图11 没搜到,这种一般都是通过计算生成的,搜不到很正常。既然搜不到值,那我们来搜一下参数名。 ? 图12 看一下搜索结果,main.app.xxxx.js中的比较像 ? print(result.get("error").get("message")) return captcha 发送登录请求 访问个人中心 代码放在我的GitHub上:模拟登录

    51430

    几条不错的想法

    作者:大狐狸 链接:https://www.zhihu.com/question/36426051/answer/76031743 来源: 著作权归作者所有。 永远别小看程序媛(╯3╰)  作者:司马奔腾 链接:https://www.zhihu.com/question/36426051/answer/82579790 来源: 著作权归作者所有。 作者:鲁小夫 链接:https://www.zhihu.com/question/36426051/answer/67423215 来源: 著作权归作者所有。

    27910

    学习工厂模式

    简单工厂模式相当于是一个工厂中有各种产品,创建在一个类中,客户无需知道具体产品的名称,只需要知道产品类所对应的参数即可。但是工厂的职责过重,而且当类型过多时不利...

    25340

    电商设计总结

    想做一个B2B2C的电商平台,在后台数据统计搭建的时候需要注意哪些问题?如何设计具体的统计模块?

    71020

    怎么以markdown写作

    使用步骤 先在markdown编辑器上写好文章 复制粘贴到编辑器中 点击markdown here 插件一键转化 复制转化后的富文本到一个新的编辑器中 点击发布 参考:https://blog.csdn.net

    66650

    数据埋点方案

    目前的埋点流程如下图所示。 ? 回顾埋点流程的迭代史,整个流程落地三部曲可以总结为六个字:能力、意愿、工具。 能力 这几年的业务发展很快,埋点的流程也随着迭代了很多个版本。 埋点的模型 古语有:「治大国若烹小鲜」。目前的埋点数量约为三千个,如果缺少统一的模型来做标准化,每个人设计出来的埋点都不一样。 目前对于这个问题,目前没有做统一,由业务自己来定义。 行为事件 对于行为事件,选择了事件模型,完整描述 Who、When、Where、How 和 What 五大要素。 的做法是将 H5 的日志发送给客户端,由客户端处理后发送给日志接收服务。 随着的快速发展,业务越来越多,的埋点模型、流程和平台技术在不断迭代当中,在应用实践上还有很大的改进的空间。

    4.4K45

    pyquery爬取发现

    join([question, author, answer])) file.write('\n' + '='*50 + '\n') file.close() 是的,崔大佬书上的例子,但是因为更改网页标题

    9920

    相关产品

    • 流计算 Oceanus

      流计算 Oceanus

      流计算 Oceanus 是基于Flink构建的云上全托管的实时计算服务。您无须关注基础设施运维,通过云端一站式开发环境,轻松构建点击流分析、电商精准推荐、金融风控、物联网 IoT 等应用。

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券