spark实时计算性能优化

1、  计算提供两种模式,一种是jar包本地计算、一种是JSF服务。

2、  第一步是引入spark,因与netty、JDQ均有冲突,解决netty冲突后,隔离计算为单独服务。已在线上,因storm也与spark存在运行时冲突,storm也在用服务。

3、  第二步是召回集扩量,发现当召回集由200扩到500后性能下降过快到70ms,利用多线程多核计算,性能到6ms。已在线上

4、  第三步在此扩量到1000,采用增加线程方式,性能达到25ms左右。已在预发

5、  第四步召回集在扩量,如性能瓶颈是io,则使用jar包本地计算,但与JDQ冲突。需要将线上上报迁移到统一上报服务,服务已有待联调上线。

6、  第五步在扩召回集,取素材特征与提供接口服务拆分、接口服务通过并发分布式方式进行请求,此时召回集量应为几种方式最大。需要调整接口服务与素材、特征以及计算服务,通过测试得到IO、线程计算结果合并、多核计算的平衡,需排期配合。

    第五步已基本和开源分布式搜索引擎计算方式类似,后续会持续调研新的优化方式,并引入到线上。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏七夜安全博客

从多项式相加看线性结构

1123
来自专栏ytkah

finecms在任意页面调用栏目名称和地址等

  finecms如何调用栏目名称和地址呢?在任意页面。我们有时需要在不同的页面调用某个栏目名,怎么调用比较快呢?ytkah整理了一些快速调用语句方便查找 栏目...

2754
来自专栏ATYUN订阅号

如何在Python和numpy中生成随机数

随机性的使用是机器学习算法配置和评估的重要部分。从神经网络中的权重的随机初始化,到将数据分成随机的训练和测试集,再到随机梯度下降中的训练数据集的随机混洗(ran...

1653
来自专栏闻道于事

算法学习(一)

不论学习有多忙,也要抽空读点书。 算法 什么是算法? 有一个很著名的公式  “程序=数据结构+算法”。 曾经跟朋友吃饭的时候我问他什么是算法,他说算法嘛,就是一...

3309
来自专栏大数据

算法:大O符号解释

O(n),O(1),O(log n)等大O符号被用来表示算法的效率。在这篇文章中,你会找到每个大O符号的例子和解释。

2351
来自专栏数说工作室

logistic回归建模指南

昨天的logistic回归:从生产到使用【上:使用篇】(在微信公众号“数说工作室”中回复“logit1”查看),有不少数说网友们建议把最后的建模指南图单独发一下...

3258
来自专栏决胜机器学习

有趣的算法(二)——跳跃表的分析

有趣的算法(二)——跳跃表的分析 (原创内容,转载请注明来源,谢谢) 一、概述 最近在学习redis,其中说到当使用redis的sorted set类型时,如...

36510
来自专栏懒人开发

(11.1)James Stewart Calculus 5th Edition:Sequences

我们可以发现分母是 5^n, 符号是 (-1)^(n+1), 分子是 (n+2) 所以有

672
来自专栏数据结构与算法

24:单词的长度

24:单词的长度 总时间限制: 1000ms 内存限制: 65536kB描述 输入一行单词序列,相邻单词之间由1个或多个空格间隔,请对应地计算各个单词的长度。...

2765
来自专栏数据和云

深入内核丨12C 新特性之 TOP - N 频率柱状图原理和算法

作者简介 ? 黄玮(Fuyuncat) 资深 Oracle DBA,致力于数据库底层技术的研究,其作品获得广大同行的高度评价。 个人网站 www.HelloDB...

27512

扫码关注云+社区