首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GraphQL 和 REST 优缺点对比,附上代码示例

REST 并不是 web 上发送信息第一种协议。但十多年来,它一直主宰着 API 领域。 最近,由 Facebook 设计新手 GraphQL 变得越来越流行。...它目的是纠正REST一些缺点,但没有一项技术是完美的。 与 REST 相比,GraphQL 有哪些优点?为什么要在项目中使用其中一种?...抓取过度/抓取不足 另一个存在问题是过多抓取抓取不足。 REST API 中,当您到达一个端点时,总是会得到相同数据,无论您是否需要它。 假设我们只需要某人用户名和头像。...如果您不需要使用可能用不同编程语言编写不同、完全不同资源,那么GraphQL 统一数据 “图” 是非常,但如果您有一个更分布式后端,就没有那么有用了。...缓存问题 缓存是 REST 内置功能,但你必须使用 GraphQL 来管理缓存。如果你没有适当地方构建缓存,那么你从 GraphQL 更有针对性获取中获得所有提高效率都可能抹去。

99330

纽约蹭饭手册:怎样利用Python和自动化脚本纽约吃霸王餐?

自动确定什么是“好”或“坏”内容 并非所有Instagram上发布内容都值得重新分享。有很多卖东西帖子,骂人贴子,或者有些内容跟我想要不相关。以下面这两帖子为例: ?...根据这些规则,我可以排除大部分垃圾帖子和不受欢迎帖子。然而,不能仅仅依据是否推销东西来判断一帖子是否具有高质量内容。...我通过REGEX(正则表达式工具)匹配一些类似于“by”或者“photo”关键词,然后找到紧跟在关键词“@”标识,通过这种方法抓取用户名便被我标注成图片来源第二部分。...需要注意是你不能在Instagram上滥用这个方法关注其他账号。Instagram算法有非常严格限定,如果你一天内操作过多或关注太多用户,他们会将你停止操作甚至封掉你帐号。...在对我训练数据进行建模,测试数据上精度一直超过80%,所以这对我来说是一个非常有效模型。进一步,将模型应用于抓取用户代码,优化了关注算法,我关注人数开始蹭蹭往上涨。

1.3K30
您找到你想要的搜索结果了吗?
是的
没有找到

纽约蹭饭手册:怎样利用Python和自动化脚本纽约吃霸王餐?

自动确定什么是“好”或“坏”内容 并非所有Instagram上发布内容都值得重新分享。有很多卖东西帖子,骂人贴子,或者有些内容跟我想要不相关。以下面这两帖子为例: ?...根据这些规则,我可以排除大部分垃圾帖子和不受欢迎帖子。然而,不能仅仅依据是否推销东西来判断一帖子是否具有高质量内容。...我通过REGEX(正则表达式工具)匹配一些类似于“by”或者“photo”关键词,然后找到紧跟在关键词“@”标识,通过这种方法抓取用户名便被我标注成图片来源第二部分。...需要注意是你不能在Instagram上滥用这个方法关注其他账号。Instagram算法有非常严格限定,如果你一天内操作过多或关注太多用户,他们会将你停止操作甚至封掉你帐号。...在对我训练数据进行建模,测试数据上精度一直超过80%,所以这对我来说是一个非常有效模型。进一步,将模型应用于抓取用户代码,优化了关注算法,我关注人数开始蹭蹭往上涨。

1.3K60

一场马斯克反爬闹剧:Twitter一夜回到五年前?

马斯克当时表示,使用人工智能模型公司们正在大量抓取推特数据,造成了网站流量问题。“这是临时紧急措施,”他说:“几百家机构(也许更多)正在极其积极地搜刮推特数据,以至于影响到了那些普通用户体验。”...早在 2015 年,推特在一博文中透露,每月有“5 亿人”没有登录情况下访问推特。据称,这个数字高于推特月活跃用户数。现在,这部分用户都被挡了平台外面,不登录就无法查看任何内容。...“此类最好策略是‘自适应’,可以根据系统压力、请求优先级和其他因素更改速率限制。推特之前有一个非常团队,因为直到一年前他们还拥有一支非常出色基础设施团队。...马斯克裁掉了推特绝大部分安全团队成员,增加限制也许是一个最低成本替代解决方案。 当然,并不是所有人都不相信马斯克所说理由。...在他所有帖子下,都有一大群拥护者说着“伟大举动,先生,感谢您让网站变得更好!” 也不知道这种“临时”举措会持续多久。推特竞争对手,现在也因为大批用户涌入而暂停注册。

27920

系统设计:Facebook新闻流设计

4.将此提要存储缓存中,并返回要在Jane提要上呈现顶级帖子(比如20)。 5.在前端,当Jane完成当前提要时,她可以获取接下来20个帖子,从服务器等。...对于更新项目服务器可以通知Jane,然后她可以提取,或者服务器可以推送这些新项目帖子。我们稍后将详细讨论这些选项。...: 1.对于有很多朋友用户来说,速度非常/因为我们必须执行以下操作对大量帖子进行排序/合并/排名。...具体地说,我们可以停止推波助澜来自拥有大量追随者用户(名人用户),并且只为这些用户推送数据。他们有几百(或几千)个追随者。对于名人用户,我们可以让追随者拉更新。...排名高层次理念是首先选择使一文章变得重要关键“信号”,然后了解如何组合它们来计算最终排名分数。更具体地说,我们可以选择与任何提要项重要性相关特性,例如。

6.1K283

爬虫实践: 获取百度贴吧内容

原文链接:https://www.jianshu.com/p/ca6daafe80e9 本次我们要爬取网站是:百度贴吧,一个非常适合新人练手地方,那么让我们开始吧。...,我们需要做就是: 1、从网上爬下特定页码网页 2、对于爬下页面内容进行简单筛选分析 3、找到每一帖子 标题、发帖人、日期、楼层、以及跳转链接 4、将结果保存到文本。...: &pn=0 : 首页 &pn=50: 第二页 &pn=100:第三页 &pn=50*n 第n页 50 表示 每一页都有50帖子。...按cmmand+option+I 打开chrome工具,(win可以看按F12或者手动chrome工具栏里打开) ? 使用模拟点击工具快速定位到一个单独帖子位置。(左上角鼠标箭头图标) ?...我们仔细观察一下,发现每个帖子内容都包裹在一个li标签内: 这样我们只要快速找出所有的符合规则标签, 进一步分析里面的内容

2.2K20

如何使用 Python 抓取 Reddit网站数据?

使用 Python 抓取 Reddit 本文中,我们将了解如何使用Python来抓取Reddit,这里我们将使用PythonPRAW(Python Reddit API Wrapper)模块来抓取数据...第 3 步:类似这样表格将显示屏幕上。输入您选择名称和描述。重定向 uri框中输入http://localhost:8080 申请表格 第四步:输入详细信息,点击“创建应用程序”。...本教程中,我们将仅使用只读实例。 抓取 Reddit 子 Reddit 从 Reddit 子版块中提取数据方法有多种。Reddit 子版块中帖子按热门、新、热门、争议等排序。...Reddit Python subreddit 中提取 5 热门帖子: subreddit = reddit_read_only.subreddit("Python") for post in...: 热门帖子 CSV 文件 抓取 Reddit 帖子: 要从 Reddit 帖子中提取数据,我们需要帖子 URL。

1K20

爬虫实战三:关键词搜索小红书帖子

没想到上一爬虫抓取小红书图片文章阅读量还不错,正好有朋友也提了抓小红书帖子需求,我们一起来看下: 上次提到,抓数难度上 App>网页版>=微信小程序,所以当时选择小红书微信小程序来下手。...但经过测试发现小程序有个限制:选择不同品类可以返回上限1000条,但搜索关键词时却只能返回100条帖子,数量太少。...先说下大致思路:首先配置好手机和电脑 Charles,使得手机端浏览小红书帖子电脑端可以抓包(手机端刷到帖子可以电脑端 Charles 加载出来);完成配置在手机端运行脚本自动下划刷帖子;最终将...毕竟海量帖子里随随便便捞1000条都是轻而易举,比如搜“行驶证”: 再比如搜个“滑雪”: 4.爬虫价值 单纯从数据层面上看,这些爬虫抓取帖子可以分析广告、商品投放情况等,还可以针对不同品类下帖子内容进行研究等...最后,再说回爬虫方法上,经过一番搜索以及与淘宝商家交流,小红书爬虫多数是破解加密参数仿造请求来抓取数据

10.6K21

Python 工匠:写好面向对象代码原则(上)

比如它 没有严格类私有成员,没有接口(Interface)对象 等。 而与此同时,Python 灵活函数对象、鸭子类型等许多动态特性又让一些在其他语言中很难做到事情变得非常简单。...首页,有很多由用户提交基于推荐算法排序科技相关内容。 我经常会去上面看一些热门文章,但我觉得每次打开浏览器访问有点麻烦。...所以, HNTopPostsSpider 类违反了“单一职责原则”,因为它有着多个修改理由。而这背后根本原因是因为它承担着 “抓取帖子列表” 和 "将帖子列表写入文件" 这两种完全不同职责。...一旦你深入理解它们,你可能会惊奇许多设计模式和框架中发现它们影子(比如这篇文章就出现了至少 3 种设计模式,你知道是哪些吗?)。...请留言或者 项目 Github Issues 告诉我吧。

96020

解锁FaceBook隐藏好友和朋友圈

引言 最近,国外开源情报(OSINT)爱好者分享了一帖子,查找朋友不可见facebook用户朋友圈,这篇帖子我们知识星球(开源网络空间情报)中第一时间分享。...可以看到有两个匹配项,这里这个4指是用户ID,我们例子中,由于MarkZuckerberg是该平台第一批用户之一,所以这个数字非常小;对于普通用户来说,这个数字会大得多。...这个枢纽账户,主要来自于目标账户下方评论人员。注意,该工具频繁使用,可能导致facebook号被封;最后,完成可以发现以下三个文件。...4-friends.csv 4-friends.gexf session-4-20190508130137 其中第三个文件是该程序进行到一半卡进程时候,可以停止程序运行,然后再重新启动必要文件,启动方式为...CSV文件包含表单中朋友列表、ID、名称,.gexf文件包含一个图形表示形式,该图形可以Gephi中打开(稍后会有更多信息)。程序最终自动终止打印所有的朋友信息如下图所示: ?

3.8K00

剑走偏锋,robots.txt快速抓取网站小窍门

抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站robots.txt文件,有时会给你打开另一扇抓取之门。...写爬虫有很多苦恼事情,比如: 1.访问频次太高限制; 2.如何大量发现该网站URL; 3.如何抓取一个网站新产生URL,等等; 这些问题都困扰着爬虫选手,如果有大量离散IP和账号,这些都不是问题...举个栗子: 老板给你布置一个任务,把豆瓣每天新产生影评,书评,小组帖子,同城帖子,个人日志抓取下来。...看着这么多IP你正留着口水,但是分析网站发现这类网站抓取入口很少(抓取入口是指频道页,聚合了很多链接那种页面)。 很容易就把储备URL抓完了,干看着这么多IP工作不饱满。...这在工作中非常适用,工作中不会在意你用框架多好,只在意你做事快慢和好坏。 善于看robots.txt文件你会发现一些别有洞天东西。

64620

​Python爬虫--- 1.5 爬虫实践: 获取百度贴吧内容

本次我们要爬取网站是:百度贴吧,一个非常适合新人练手地方,那么让我们开始吧。 本次要爬贴吧是>,西部世界是我一直很喜欢一部美剧,平时有空也会去看看吧友们都在聊些什么。...对于爬下页面内容进行简单筛选分析。 找到每一帖子 标题、发帖人、日期、楼层、以及跳转链接。 将结果保存到文本。 前期准备: 看到贴吧url地址是不是觉得很乱?有那一大串认不得字符?...: &pn=0 : 首页 &pn=50: 第二页 &pn=100:第三页 &pn=50*n 第n页 50 表示 每一页都有50帖子。...按cmmand+option+I 打开chrome工具,(win可以看按F12或者手动chrome工具栏里打开) [pic1.png] 使用模拟点击工具快速定位到一个单独帖子位置。...这样我们只要快速找出所有的符合规则标签,进一步分析里面的内容,最后筛选出数据就可以了。 内容分析 我们先写出抓取页面内容函数: 这是前面介绍过爬取框架,以后我们会经常用到。

1.4K00

我们分析了1亿条阅读量超高标题,这就是为什么你会被标题党吸引

我们分析了Facebook和Twitter上转发量较大1亿文章标题,找出了哪些关键词让文章浏览最多次、用哪些词做标题开头和结尾最有效、哪些词不能使用、标题应该多长…… 虽然并不存在能够制造病毒式传播或者流行标题万能公式...这让人非常惊讶。我们最开始寻找参与度高词组时,这句话甚至都不在我们名单上。 那么为什么这样一个词组会表现的如此出色呢?比较有意思一点是这是个上下文连接词组。...其他吸引人标题 解释类: 这就是为什么 原因是 这些短语同样与好奇心相关。比如: 这就是为什么女人比男人寿命更长…… 这就是为什么你应该朝左睡 我们都希望能通过阅读完一文章来变得更聪明一些。...相比之下,Outbrain研究了100000帖子,认为16到18个词或者80到110个字符是吸引参与度最佳选择。此外,MailChimp研究表明标题电子邮件主题长度其实无关紧要。...我们绘制了帖子标题字数和在Facebook平均参与度关系。结果见下图。 我们可以看到,标题字数12到18个词帖子获得了最高Facebook参与度平均值。

82330

爬虫小偏方系列:robots.txt 快速抓取网站小窍门

抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站 robots.txt 文件,有时会给你打开另一扇抓取之门。 写爬虫有很多苦恼事情,比如: 1. 访问频次太高限制; 2....举个栗子: 老板给你布置一个任务,把豆瓣每天新产生影评,书评,小组帖子,同城帖子,个人日志抓取下来。...再举个栗子: 老板又给你一个任务,老板说上次抓豆瓣你说要大量 IP 才能搞定抓豆瓣每天新产生帖子,这次给你1000个 IP 把天眼查上几千万家企业工商信息抓取下来。...看着这么多 IP 你正留着口水,但是分析网站发现这类网站抓取入口很少(抓取入口是指频道页,聚合了很多链接那种页面)。 很容易就把储备 URL 抓完了,干看着这么多 IP 工作不饱满。...这在工作中非常适用,工作中不会在意你用框架多好,只在意你做事快慢和好坏。 善于看 robots.txt 文件你会发现一些别有洞天东西。

47431

用 Javascript 和 Node.js 爬取网页

如你所见,对于一个非常简单用例,步骤和要做工作都很多。这就是为什么应该依赖 HTML 解析器原因,我们将在后面讨论。...为了展示 Cheerio 强大功能,我们将尝试 Reddit 中抓取 r/programming 论坛,尝试获取帖子名称列表。...这将得到所有帖子,因为你只希望单独获取每个帖子标题,所以必须遍历每个帖子,这些操作是 each() 函数帮助下完成。...为了演示如何用 JSDOM 与网站进行交互,我们将获得 Reddit r/programming 论坛第一帖子并对其进行投票,然后验证该帖子是否已被投票。...打开终端并运行 node crawler.js,然后会看到一个整洁字符串,该字符串将表明帖子是否赞过。

10K10

无需依赖英语中介,FB发布可翻译100种语言AI模型

不管你在世界哪个地方,美国、巴西、法国或者亚洲婆罗洲岛,借助机器翻译,谷歌和Facebook这类软件都可以把平台上几乎任何文字内容都翻译成当地语言。...使用这个数据集,研究团队训练了一个拥有超过150亿个参数通用翻译模型,据Facebook博客描述,该模型可以“获取相关语言信息,并反映出更多样化语言文本和语言形态”。...她还指出,Facebook平台上每天以160种语言发布数十亿条帖子中,有三分之二是英语以外语言。 为了做到这一点,Facebook需要使用各种新技术从世界各地收集大量公开数据。...该团队首先采用CommonCrawl来从网络上收集文本示例,这是一个开放网络抓取数据库。然后他们着手用FastText来识别文本所属语言,后者是Facebook几年前开发并开源文本分类系统。...“人们用这些语言在网络上写了大量文字,”她说,“他们能贡献大量数据,我们模型可以利用这些数据变得更好。” “对于资源非常语言,我个人确定了很多我们可能需要改进语言类别,”Fan继续说道。

97831

有人在匿名软件上说要炸掉我学校,我反手就报告老师和警察了,xdm我做得对吗?

这个时候,如果你匿名聊天软件或者漂流瓶里面收到了一条信息,有人明天真的会去炸掉你学校或公司,估计也就当个段子乐呵一下。 但是私立学校Berkeley Carroll学生们可不这么想。...之所以会认为是机器人农场作祟,是因为此前一周,全国范围内都相继出现了一波类似的威胁。华盛顿5所公立和特许学校收到炸弹威胁,已经疏散了3次。...以Facebook为例,从审核角度上看,这些机器人与人类用户没有特别大区分。这些自动化程序可用于未经同意情况下抓取用户个人信息、制造影响力活动、暗中推动议程和传播虚假信息。...该机器人农场用来创建和管13,775个Facebook帐户,每个账户平均每个月发布15次帖子,在给定一个月内,这个农场总共发布了206,625个帖子。...同时,机器人农场还在不断创建新机器人,但一直Facebook审核系统删除,每个月发帖数量也就有比较大差异。

46010

Lecun骂退,黑人女研究者要求必须引用!Reddit热议ML社区八大毒瘤

大数据文摘出品 来源:Reddit 编译:魏子敏、笪洁琼 因为一指“种族歧视”PULSE算法论文,图灵奖得主、Facebook 首席 AI 科学家 Yann Lecun 推特上遭遇了飓风般“...“ 发布这样呼吁,Lecun表示这是自己推特上最后一帖子。 看起来 2018 年图灵奖得主、人工智能领军人物 Yann LeCun 已经下定决心想对长达两周激烈讨论画上句号。...文摘菌将这篇帖子编译如下: Reddit社区讨论风气最近开始变得有毒起来,而且这些毒瘤简直无处不在! 首先,同行评审缺失。每四个NeurIPS提交者都会提交到arXiv。...我们能不能停止妖魔化那些不同意我们确切观点的人吗? 并且允许我们不想参加就不用再去参加。 我们因为人们意见而沉默那一刻,是科学和社会进步消亡那一刻。 让一切变得正常起来吧!...网友热评:重新思考是否进入相关行业 帖子发布reddit迅速引发了讨论,有网友感谢这篇文章让自己重新开始思考ML硕士课程申请。

73820
领券