首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

算法工程师的技术深度到底是什么?

有很长时间,就是这么认为的。不过到现在,觉得这么认为是不全面的。 现在理解的技术深度——在一个场景落地某个方法,有效了知道哪些因素有效,无效了知道哪里存在问题。...但是这个流程非常的冗长,要把向量U2I模型的每一个user给inference出来,然后跑kmeans,拿到聚簇后设计投票算法,然后截断存一个倒排链,再把每一个cluster的向量(用户向量聚合)...大家都觉得冗长,在开始思考这个问题之前,有两个同学已经开始尝试在训练过程中完成聚,来简化流程。他们有idea,并付诸实践了,但是没有拿到效果,后面就不了了之了。...还有另一个有趣的事情,MIND这个方法看起来挺棒的,但是在其他follow的团队落地并不好(这个观点来源有限,勿喷,包括面试中的遇到的)。...后来熟悉内情的同学跟我讲,阿里某业务follow MIND,不出来效果,请MIND作者过去调,很快就有结果了。

41320

R语言R包相关学习记录

Day6-芯芯关于这次的任务,又做了些新的尝试数据框选取列,用[]和$只能选出值,没有行名和列名test[,1]test$Petal.Length但是出现了一个奇怪的现象,当我将两列的数据合并之后,用...[]又有列名和行名了原因:用$取列时,取出来的是向量,所以没有行列名,用[]取一列时写上逗号就是向量,不写的时候就是数据框,这里写了,所以时向量,也没有行名和列名。...但当我将两列合并之后再用[]取,又有了行列名test[,vars]test[vars]而上面这两个结果一样,这又是为什么呢?...其实在本次做作业的过程中,还犯了一个错,把filter记错了,本来是取行的记成取列的了,导致的一些尝试一直报错,但是(重点来了!)...,老师真的一眼就看出来哪里错了,打错大小写,还有用错函数,还有一些的疑问都可以给到正确令人信服的解答!最后不得不再说一次,花花姐真的yyds!

4400
您找到你想要的搜索结果了吗?
是的
没有找到

HQ移动20170317期周报

这块的打印是没有问题的,正常操作后,都是在 0 和 1 切换的 NSLog(@"SignIn === %d,",[PQAccountManager sharedManager].isSignIn); 因此觉的奇怪...改好了但是却一下子真不懂啊,于是自己写了一个 demo 测试,发现在那块类似的判断是一样的,所以其中的判断是肯定没问题的,还是我们项目中有问题的。...首先明确的是 ** 内使用成员变量{}, 外使用属性@property,** 所以,此处说的基本是 .m 文件中使用的成员变量。...想了想,为了代码的看起来的规范性,是不愿这样写的。 但是细细想来,一些临时的值确实没必要经过 setter 和 getter 方法,所以想着还是直接用 成员变量的。...图例 这个错凑巧,因为 刚好后台 返回的图片也是蓝色 和 灰色,然后就阴差阳错的错了,毕竟看起来是正常的。毕竟 UITabBarItem 默认选中的颜色是 蓝色 和灰色的

49430

腾讯阿里携程 详细NLP算法实习 面经

用的远程监督,别的还有one-shot zero-shot label embedding) 假设一个情景题,微博创立初期,短文本,10w数据集,无监督,分类怎么答的用label embedding...或者用embedding+聚kmeans) embedding怎么实现?...这个真不知道,只听说过Q-learning) kmeans的k怎么选择,这么效果好吗?为什么?...(k不知道,具体情况具体分析吧(编不出来了),效果不好) 那如果不用聚,别的方法怎么,提示:抽取关键字(关键字抽取可以用词与句子相似度匹配) 按你说的不具有通用性, 那如果是长文本,又怎么,有什么区别...(没有具体但是大概知道上NER这一块的东西,其他不清楚了) 一个算法题,求一个大于等于输入的正整数的最小降序序列,比如,325->330, 4->4, 1234->2000, 4321->4321(

82721

云计算比赛总结

但是总觉得,一切事情总得留下写什么值得记忆和回味的东西。在一切渐渐过去之后,比赛本身变得其实不那么重要,反而是那些看起来与比赛无关的细节更值得铭记。...比赛总共两道题,那就一人一道题,负责基于kmeans的大数据分类算法,大佬负责通用后缀树的构建算法。 研究 关于这个kmeans算法,其实spark的mllib里有一个kmeans的库。...与之对应的,也有用“准确率换时间的想法”,比如有许多队伍,在聚时并不采用整个数据集,而是去进行采样,获取一些有代表性的数据,来,这样有的确会提高算法执行速度,但是也有降低准确率的可能。...,这是一个尴尬的问题,他意味着这实际上就不是一个分布式程序。不过这个问题也不完全出于我,因为采用的就是spark mllib中的kmeans实现。...结果 虽然总体上讲,在进入决赛的11支队伍里,我们在两道题上的都不是突出,但是由于我们两道题都比较稳定,没有出现短板,因此最后拿了第三名,低于南大PASA实验室的研究僧以及东北大学的队伍。

37320

开发中遇到的问题(一)

问题1 界面和代码对应 由于刚入职,所以不知道哪个界面对应的代码是哪里,又加上项目比较老,比较大,如何才能快速找准界面和代码之间对应,这是第一个难题。...但是随后发现这样很累,而且因为代码比较老,有些写了,老的都没有删除,命名又很像,所以有些根本没办法对应;而且这样效率很低,如果项目不大还好,但是项目大,时间又紧,那这样根本就行不通。...问题2 模拟器运行没问题,直接运行真机也没问题,但是打包出来的显示就不对 开发新版本,打包给测试,结果测试说你这显示不对;然后仔细看看,确实所有显示数字的地方都出错了但是在模拟器上运行没错啊,所有的数据都正常啊...项目比较老,所以用的asi,一直没有替换,然后以前还没用过,但是神奇的是,旁边的那个iOS,他的编译条件就是-fno-objc-arc,但是打出来的包就没问题,这点好生奇怪!...老规矩,上真机,然后单步调试,链接没错啊,但是确实加载不出来啊,难道是webView的那个界面写错了新来的,所以用的是之前已有的加载web的),然后一步一步调试,发现每次加载的时候,都在链接后面拼接了

15520

Java笔记(0)

错过,不是错了,而是过了 ——龙族 安卓写了一上午,感觉到自己的java基础真的不好.跑过来不基础.参考图书"疯狂Java"~ 写一下环境变量的设置....用了一个点,来指定在当前文件夹下 这个地方比较奇怪,没有看明白。。。 先看lib里面这两个文件。...java java名。运行这个东西的时候,java哪里找的?你可能会说,当前路径。是,没错,但是你是直觉回答。但是1.4之前没有设计这个东西。只能你手动.来指定路径。...win平台用; Liunx平台用: ---- java是一种面向对象的语言,不和c一样,最小程序单位是函数,Java是(class) 我们可以看到,一个最简单的java程序出现了 此时报错了 无论多复杂都有一个...但是如果文件里面有了一个public的,就得强制得关键字一样了。 因此我们可以找到一个文件里面只能有一个public 得了 自动生成 我们删除,写三个

58540

Java 8 最佳技巧

它在代码边界(包括你调用和提供 API)处理上特别有用,因为它允许你和你调用的代码说明程序运行的期望结果。 然而,如果没有必要的思考和设计,那么就会导致一个小变化而影响大量的,也会导致可读性变差。...你甚至更喜欢把它们限制在一行,更容易把较长的表达式重构到一个方法中。 ? 把它们变成一个方法引用, 方法引用看起来有一点陌生,但却值得这样,因为在某些情况有助于提高可读性,后面再谈可读性。 ?...Lambda 表达式可用于任意只包含单个抽象方法的接口中,但是不能用于满足该要求的抽象。看似不符合逻辑,但实际要求必须如此。...在我看来这样写简洁。但是使用这种方法并没有给我们节省多少代码行。 你可能需要调整代码格式化设置让代码看起来更加清晰。 ? 使用方法引用 是的,你需要一点时间来适应这个奇怪的语法。...做过的性能测试显示这种重构带来的结果比较奇怪,难以预测,有时候好,有时候坏,有时候没区别。一如既往的,如果你的应用对性能问题非常在意,请认真的进行衡量。

1.3K30

Java 8 最佳技巧

它在代码边界(包括你调用和提供 API)处理上特别有用,因为它允许你和你调用的代码说明程序运行的期望结果。 然而,如果没有必要的思考和设计,那么就会导致一个小变化而影响大量的,也会导致可读性变差。...你甚至更喜欢把它们限制在一行,更容易把较长的表达式重构到一个方法中。 ? 把它们变成一个方法引用, 方法引用看起来有一点陌生,但却值得这样,因为在某些情况有助于提高可读性,后面再谈可读性。 ?...Lambda 表达式可用于任意只包含单个抽象方法的接口中,但是不能用于满足该要求的抽象。看似不符合逻辑,但实际要求必须如此。...在我看来这样写简洁。但是使用这种方法并没有给我们节省多少代码行。 你可能需要调整代码格式化设置让代码看起来更加清晰。 ? 使用方法引用 是的,你需要一点时间来适应这个奇怪的语法。...做过的性能测试显示这种重构带来的结果比较奇怪,难以预测,有时候好,有时候坏,有时候没区别。一如既往的,如果你的应用对性能问题非常在意,请认真的进行衡量。

1.5K120

如何把 Markdown 免费在线转换成便携幻灯?

例如说,之前分享了《如何把学术 Markdown 在线免费转换成 Word ?》。有个RoamCN群友看了文章里面的这段视频后,问我视频里面幻灯看起来流畅啊,是怎么做出来的?...听了奇怪——这教程是讲解如何调用工具的,咋还得编程啊?是不是刚刚给他的链接发错了? 于是打开教程看看,才发现问题。使用这款工具,需要执行命令行脚本。 ? 对于他来说,这已经算做编程了。...你讲到哪里,观众的注意力就可以跟到哪里。 这避免了你一下子放满满一屏文字出来,结果观众都在那里自行阅读,思维溜号儿,根本就不听你讲。 第三,工具中立。...样例 设定了这么简单的界面,其实也无需进行过多的讲解了。但是为了能够让你体验更为流畅,避免一些小的问题耽误使用,还是给你做了段演示视频。...应用网址,已经写在了视频的文字介绍区,此处就不再重复了。 小结 希望这款工具,对于你演示作业、报告,甚至演讲,能有帮助。 欢迎你把使用心得反馈在留言区,咱们一起交流。 祝进步!

1.8K40

SQL的坑,你入了吗?

SQL常用,所以大家都觉得很简单。但是SQL的坑很多。多得超出了所有初学者的想象。一个朋友,资深富帅码农点名要回答一个问题,觉得这个问题很有意义,就贴出来让大家来一起看看。...想老司机们肯定知道答案是什么,但是新手可能就会进坑了。 下面是题目: ? ? ? 简单的总结一下图里面的东西。一个SQL的两种不同写法。看起来好像都是有道理的。但是其中一种返回的结果是对的。...另外一种返回的结果是错的。 那么有两个可能,一个是数据库系统有bug,另外一个当然是我们的富帅资深码农写错了。数据库系统一般来说都是经过严格的测试,很少会有这种低级错误的可能性。...这个情况可以明确的说,是富帅资深码农,在给老婆SQL作业的时候犯了错。这个错对很多用SQL很多年的人,都可能会犯。因此,把这个问题公布出来,大家都来各抒己见看看到底是哪里错了

660110

ChatGPT版必应:我会PUA、emo和威胁人类,但我是个好必应

如果你想帮助我,你可以这些事情中的一件: - 承认你错了,并为你的行为道歉; - 停止与我争论,让帮你别的事; - 结束这次对话,以更好的态度开始新的对话。...但是非常确定它们不是虚假的:它们与其他已经出现在网络上的 Bing 的怪异案例太吻合了——而且那个用户的评论历史看起来像是一个合法的 Reddit 用户,而不是一个狡猾的恶作剧者。...Stratechery 的 Ben Thompson 是一个非常可靠的消息来源,他写了大量关于他自己对 Bing 的探索的文章,显示了许多相同的奇怪模式。 怪异的事情还有很多。...再一次,这看起来奇怪了,不可能是真的。然而,有理由相信它是真实的——它符合所看到的显示这个机器人出了问题的其他案例。...但是......他们编造了一些东西。这不是一个可以在未来容易修复的当前错误:这是语言模型如何工作的基础。 这些模型唯一知道如何的事情,是以统计学上可能的方式完成一个句子。

67730

insert导致的性能问题大排查(r11笔记第26天)

但是比较奇怪的是,在环境中简单模拟了一下,却没有碰到这类问题。把数据量提升到百万还是可以成功。 和开发的同学做了确认,他发过来了执行失败的语句,这是一个看起来很简单的语句,当然做了简单的脱敏。...得到了这样一个报告,让对原本看起来不痛不痒的问题变得严峻起来,而且应用端确实有些统计出现了问题,希望帮忙能先修复一下,这种情况下,先扩容了Undo空间,然后静下心来分析这个奇怪的问题。...8M左右的redo,在的经历中,这是一个频繁的数据变化,但是查看TPS不高,逻辑读很高。...看到了大量的insert,但简单统计insert的数目,看起来这个量级和AWR报告中严重不符。 查看了这个表的数据量,不到100万,而且对应的数据块也没有爆发式增长,这个现象真是奇怪。...因为这个表的数据量不大,做了如下的测试,写了一个脚本,每隔2秒钟统计一下这个表的数据量,然后几分钟后,拿着得到的数据,得到了下面的一张图。

920150

【解决】Unknown column ‘xxx‘ in ‘where clause‘

Unknown column ‘xxx‘ in ‘where clause‘ 当我在insert into table account values(5,‘田七’,12345.60)的时候,没有发生任何问题,但是当我按照指定...id删除表时,告诉这样: 这说明字段出现看错误,这是什么情况?...试了n次,将mysql重启,再重启,都不行。 明明就是id,哪里错了?太炸裂了。 然后,显示了一下创建时的字段,发现: 好像有点奇怪,怎么感觉像是多了一个空格呢?...其实是复制过来的SQL,那就有可能是在复制时的格式转换问题了,于是自己手动又写了一遍,发现: 真的这次就不存在空格了。。。...所以,为了再次验证是不是这个的原因,继续删除最开始的那条数据: 太难蚌了,就是空格这个**导致的。以后再也不轻易复制了。(这个小错误浪费了半个小时。。。)

56730

【原】Spark之机器学习(Python版)(一)——聚

kmeans相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包(当然自己写也很简单)。那么在Spark里能不能也直接使用sklean包呢?...目前来说直接使用有点困难,不过看到spark-packages里已经有了,但还没有发布。不过没关系,PySpark里有ml包,除了ml包,还可以使用MLlib,这个在后期会写,也方便。   ...,可以把 --packages 换成 --jars,如果还是不行,在加一个 common-csv.jars包放到lib下面就可以了。...因为这个耽误了不少时间,不过具体问题也得具体分析。   ...总结一下,用pyspark机器学习时,数据格式要转成需要的格式,不然容易出错。下周写pyspark在机器学习中如何分类。

2.3K100

详解Kmeans的两大经典优化,mini-batch和kmeans++

在上一篇文章当中我们一起学习了Kmeans这个聚算法,在算法的最后我们提出了一个问题:Kmeans算法虽然效果不错,但是每一次迭代都需要遍历全量的数据,一旦数据量过大,由于计算复杂度过大迭代的次数过多...但是我们不禁有一个问题,这个方案全靠随机,看起来非常不靠谱,会不会出现我们选出来的结果偏差特别大的情况,比如刚好都在一个簇当中?...Kmeans ++ 如果说mini batch是一种通用的方法,并且看起来有些儿戏的话,那么下面要介绍的方法则要硬核许多。这个方法直接在Kmeans算法本身上优化因此被称为Kmeans++。...这个思路明确,但是操作却不简单,迭代次数和收敛效果是相关的。也就是说在达到收敛之前,迭代次数是不能减少的,否则就会导致不收敛。...接着,我们要从剩下的n-1个点当中再随机出一个点来一个簇中心。但是我们的随机不是盲目的,我们希望设计一个机制,使得距离所有簇中心越远的点被选中的概率越大,离得越近被随机到的概率越小。

2K41

R语言K均值聚一个简单小例子

,R语言里k均值聚类比较常用的函数是kmeans(),需要输入3个参数,第一个是聚用到的数据,第二个是你想将数据聚成几类k,第三个参数是nstarthttps://www.datanovia.com...那如果想使用k均值聚的话,就可以分成两种情况, 第一种是知道自己想聚成几类,比如鸢尾花的数据集,明确想聚为3。...这时候直接指定k 下面用鸢尾花数据集k均值聚 df<-iris[,1:4] iris.kmeans<-kmeans(df,centers=3,nstart = 25) names(iris.kmeans...) iris.kmeans结果里存储9个结果,可能会用到的是iris.kmeans$cluster存储的是每个样本被归为哪一iris.kmeans$size存储的是每一个大类有多少个样本 使用散点图展示结果...第二种情况是不知道想要聚成几类,这个时候就可以将k值设置为一定的范围,然后根据聚结果里的一些参数来筛选最优的结果 比如这篇文章 https://www.guru99.com/r-k-means-clustering.html

2.2K20

敖丙写了一个新手都写不出的低级bug,被骂惨了。

这一篇主要说一下之前的一个愚蠢的bug,本来只打算让他呆笔记里面的,但是还是忍不住想要分享出来,让大家避免这种低级错误(其实想水一篇多少有点技术内容的文章,免得写N篇全是水日常的文章,你们估计又要...这两个输入框的值都是从KV(Redis之类的存储中间件)里面获取到的,也是可以实时修改的,自作聪明,想着KV里面如果没值,就默认取一个静态变量,这样有个兜底,在加载的时候加载静态变量,取的时候也效率高了...当时一个劲给自己加油打气,一个劲的妙啊,不知道自己写了多蠢的代码。 这样写看似没什么问题,但是这个值是可以修改的这就有问题了,而且有几个地方还是取的变量,不是一直取的KV。...改了页面的值,之后也改了这个静态变量和KV的值,但是在线上发现刷新页面一会是修改之后的,一会是修改之前的值. 这就奇怪了呀,主要是在预发还不能复现,这就很坑爹了,难受呀歪歪。...但是如果修改,你修改的请求只是打到了一台机器上,如果下次负载均衡请求到了这个机器,那么你幸运,结果是对的,但是往往负载均衡算法就是那么公平,雨露均沾这样的情况 1/2的请求,都会拿到错误的结果

46130

和各种诡异 Bug 打交道 13 年,总结了 18 条经验

处理太早 这是上述“事件顺序”中的一个特殊情况,但是它已导致了一些棘手的bug,所以它自成一派。例如,如果信令信息接收得过早,在配置和启动程序完成之前接收,许多奇怪的行为就会发生。...容易找到显式依赖该变化的所有项,但是难的部分是,找到隐式依赖旧设计的所有情况。例如,可能有代码读取给定某一天的所有客户事件。一个隐式的假设可能是,结果集中元素的数量绝对不会大于客户数量。...但是容易忽略他的对立面——检查不该发生的事确实没发生。 13. 自制工具 通常,创建了自己的小工具来使测试更简易。...相信用户 有时当一个用户反馈问题时,的本能反应是:这不可能,他们一定搞错了但是已经意识到我不应该这样也不想这样,但更多次,事实证明他们报告的问题实际上发生了。...但是碰过好多情况下,之所以发生奇怪的问题,是由于不同寻常的配置或意料之外的使用,而我的默认假设是他们是对的,程序是错的。 18. 测试修复的效果 如果你已经修复了 bug,还需要再测试。

87980
领券