我写了一个KMeans类，但是结果看起来很奇怪，我哪里做错了？ - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

算法工程师的技术深度到底是什么？

我有很长时间，就是这么认为的。不过到现在，我觉得这么认为是不全面的。我现在理解的技术深度——在一个场景落地某个方法，有效了知道哪些因素有效，无效了知道哪里存在问题。...但是这个流程非常的冗长，要把向量U2I模型的每一个user给inference出来，然后跑kmeans聚类，拿到聚类簇后设计投票算法，然后截断存一个倒排链，再把每一个cluster的向量（用户向量聚合）...大家都觉得冗长，在我开始思考这个问题之前，有两个同学已经开始尝试在训练过程中完成聚类，来简化流程。他们有idea，并付诸实践了，但是没有拿到效果，后面就不了了之了。...还有另一个有趣的事情，MIND这个方法看起来挺棒的，但是在其他follow的团队落地并不好（这个观点来源有限，勿喷，包括面试中的遇到的）。...后来熟悉内情的同学跟我讲，阿里某业务follow MIND，做不出来效果，请MIND作者过去调，很快就有结果了。

4132 0

R语言R包相关学习记录

Day6-芯芯关于这次的任务，我又做了些新的尝试数据框选取列，用[]和$只能选出值，没有行名和列名test[,1]test$Petal.Length但是出现了一个奇怪的现象，当我将两列的数据合并之后，用...[]又有列名和行名了原因：用$取列时，取出来的是向量，所以没有行列名，用[]取一列时写上逗号就是向量，不写的时候就是数据框，这里我写了，所以时向量，也没有行名和列名。...但当我将两列合并之后再用[]取，又有了行列名test[,vars]test[vars]而上面这两个结果一样，这又是为什么呢？...其实在本次做作业的过程中，我还犯了一个错，我把filter记错了，本来是取行的我记成取列的了，导致我的一些尝试一直报错，但是（重点来了！）...，老师真的一眼就看出来我哪里错了，打错大小写，还有用错函数，还有一些我的疑问都可以给到很正确很令人信服的解答！最后不得不再说一次，花花姐真的yyds！

440 0

您找到你想要的搜索结果了吗？

是的

没有找到

HQ移动20170317期周报

这块的打印是没有问题的，正常操作后，都是在 0 和 1 切换的 NSLog(@"SignIn === %d,",[PQAccountManager sharedManager].isSignIn); 因此觉的很奇怪...改好了但是却一下子真不懂啊，于是我自己写了一个 demo 测试，发现在那块类似的判断是一样的，所以其中的判断是肯定没问题的，还是我们项目中有问题的。...首先明确的是 ** 类内使用成员变量{}, 类外使用属性@property,** 所以，此处我说的基本是 .m 文件中使用的成员变量。...想了想，为了代码的看起来的规范性，我是不愿这样写的。但是细细想来，一些临时的值确实没必要经过 setter 和 getter 方法，所以想着还是直接用成员变量的。...图例这个错很凑巧，因为刚好后台返回的图片也是蓝色和灰色，然后就阴差阳错的错了，毕竟看起来是正常的。毕竟 UITabBarItem 默认选中的颜色是蓝色和灰色的

4943 0

腾讯阿里携程详细NLP算法实习面经

（我用的远程监督，别的还有one-shot zero-shot label embedding）假设一个情景题，微博创立初期，短文本，10w数据集，无监督，分类怎么做（我答的用label embedding...做或者用embedding+聚类kmeans） embedding怎么实现？...这个真不知道，只听说过Q-learning） kmeans的k怎么选择，这么做效果好吗？为什么？...（k不知道，具体情况具体分析吧（编不出来了），效果不好）那如果不用聚类，别的方法怎么做，提示：抽取关键字（关键字抽取可以用词与句子做相似度匹配）按你说的做不具有通用性，那如果是长文本，又怎么做，有什么区别...（没有具体做，但是大概知道上NER这一块的东西，其他不清楚了）一个算法题，求一个大于等于输入的正整数的最小降序序列，比如，325->330, 4->4, 1234->2000, 4321->4321（

8272 1

云计算比赛总结

但是我总觉得，一切事情总得留下写什么值得记忆和回味的东西。在一切渐渐过去之后，比赛本身变得其实不那么重要，反而是那些看起来与比赛无关的细节更值得铭记。...比赛总共两道题，那就一人一道题，我负责基于kmeans聚类的大数据分类算法，大佬负责通用后缀树的构建算法。研究关于这个kmeans算法，其实spark的mllib里有一个kmeans的库。...与之对应的，也有用“准确率换时间的想法”，比如有许多队伍，在聚类时并不采用整个数据集，而是去进行采样，获取一些有代表性的数据，来做聚类，这样有的确会提高算法执行速度，但是也有降低准确率的可能。...，这是一个很尴尬的问题，他意味着这实际上就不是一个分布式程序。不过这个问题也不完全出于我，因为我采用的就是spark mllib中的kmeans实现。...结果虽然总体上讲，在进入决赛的11支队伍里，我们在两道题上做的都不是很突出，但是由于我们两道题都比较稳定，没有出现短板，因此最后拿了第三名，低于南大PASA实验室的研究僧以及东北大学的队伍。

3732 0

golang | Go语言入门教程——结构体初始化与继承

我之前一度也这么觉得，最近仔细研究了其中的道道之后，发现我错了，golang当中也是有继承的，不过它实现的方式和我们一般理解上的不太一样，有一些出其不意。...它将父类作为变量定义在了子类的里面，严格说起来这已经不是继承了，算是一种奇怪的组合，但它起到的功能类似于继承。...type Child struct { Father ... } 那有了这么一个看起来很奇怪的子类之后，我们怎么调用父类的方法呢？答案是直接调用。...World方法就被Child改写了，这样就完成了继承当中对父类函数的改写。...虽然看起来麻烦，但是理解起来也并不困难。

1.4K2 0

开发中遇到的问题（一）

问题1 界面和代码对应由于刚入职，所以不知道哪个界面对应的代码是哪里，又加上项目比较老，比较大，如何才能快速找准界面和代码之间对应，这是第一个难题。...但是随后发现这样很累，而且因为代码比较老，有些类重写了，老的都没有删除，命名又很像，所以有些根本没办法对应；而且这样效率很低，如果项目不大还好，但是项目大，时间又紧，那这样根本就行不通。...问题2 模拟器运行没问题，直接运行真机也没问题，但是打包出来的显示就不对开发新版本，打包给测试，结果测试说你这显示不对；然后我仔细看看，确实所有显示数字的地方都出错了，但是我在模拟器上运行没错啊，所有的数据都正常啊...项目比较老，所以用的asi，一直没有替换，然后我以前还没用过，但是神奇的是，我旁边的那个iOS，他的编译条件就是-fno-objc-arc，但是打出来的包就没问题，这点好生奇怪！...老规矩，上真机，然后单步调试，链接没错啊，但是确实加载不出来啊，难道是webView的那个界面写错了（我新来的，所以用的是之前已有的加载web的类），然后一步一步调试，发现每次加载的时候，都在链接后面拼接了

1552 0

Java笔记(0)

错过，不是错了，而是过了 ——龙族安卓写了一上午,感觉到自己的java基础真的不好.跑过来不基础.参考图书"疯狂Java"~ 写一下环境变量的设置....我用了一个点，来指定在当前文件夹下这个地方比较奇怪，没有看明白。。。先看lib里面这两个文件。...java java类名。运行这个东西的时候，java类是哪里找的？你可能会说，当前路径。是，没错，但是你是直觉回答。但是1.4之前没有设计这个东西。只能你手动.来指定路径。...win平台用； Liunx平台用： ---- java是一种面向对象的语言，不和c一样，最小程序单位是函数，Java是类（class）我们可以看到，一个最简单的java程序出现了此时报错了无论多复杂都有一个...但是如果文件里面有了一个public的类，就得强制得关键字一样了。因此我们可以找到一个文件里面只能有一个public 得类了自动生成类我们删除，写三个类。

5854 0

Java 8 最佳技巧

它在代码边界（包括你调用和提供 API）处理上特别有用，因为它允许你和你调用的代码说明程序运行的期望结果。然而，如果没有必要的思考和设计，那么就会导致一个小变化而影响大量的类，也会导致可读性变差。...你甚至更喜欢把它们限制在一行，更容易把较长的表达式重构到一个方法中。 ? 把它们变成一个方法引用，方法引用看起来有一点陌生，但却值得这样做，因为在某些情况有助于提高可读性，后面我再谈可读性。 ?...Lambda 表达式可用于任意只包含单个抽象方法的接口中，但是不能用于满足该要求的抽象类。看似不符合逻辑，但实际要求必须如此。...在我看来这样写很简洁。但是使用这种方法并没有给我们节省多少代码行。你可能需要调整代码格式化设置让代码看起来更加清晰。 ? 使用方法引用是的，你需要一点时间来适应这个奇怪的语法。...我做过的性能测试显示这种重构带来的结果比较奇怪，难以预测，有时候好，有时候坏，有时候没区别。一如既往的，如果你的应用对性能问题非常在意，请认真的进行衡量。

1.3K3 0

Java 8 最佳技巧

它在代码边界（包括你调用和提供 API）处理上特别有用，因为它允许你和你调用的代码说明程序运行的期望结果。然而，如果没有必要的思考和设计，那么就会导致一个小变化而影响大量的类，也会导致可读性变差。...你甚至更喜欢把它们限制在一行，更容易把较长的表达式重构到一个方法中。 ? 把它们变成一个方法引用，方法引用看起来有一点陌生，但却值得这样做，因为在某些情况有助于提高可读性，后面我再谈可读性。 ?...Lambda 表达式可用于任意只包含单个抽象方法的接口中，但是不能用于满足该要求的抽象类。看似不符合逻辑，但实际要求必须如此。...在我看来这样写很简洁。但是使用这种方法并没有给我们节省多少代码行。你可能需要调整代码格式化设置让代码看起来更加清晰。 ? 使用方法引用是的，你需要一点时间来适应这个奇怪的语法。...我做过的性能测试显示这种重构带来的结果比较奇怪，难以预测，有时候好，有时候坏，有时候没区别。一如既往的，如果你的应用对性能问题非常在意，请认真的进行衡量。

1.5K12 0

如何把 Markdown 免费在线转换成便携幻灯？

例如说，之前我分享了《如何把学术 Markdown 在线免费转换成 Word ？》。有个RoamCN群友看了文章里面的这段视频后，问我视频里面幻灯看起来很流畅啊，是怎么做出来的？...我听了很奇怪——这教程是讲解如何调用工具的，咋还得编程啊？是不是我刚刚给他的链接发错了？于是我打开教程看看，才发现问题。使用这款工具，需要执行命令行脚本。 ? 对于他来说，这已经算做编程了。...你讲到哪里，观众的注意力就可以跟到哪里。这避免了你一下子放满满一屏文字出来，结果观众都在那里自行阅读，思维溜号儿，根本就不听你讲。第三，工具中立。...样例设定了这么简单的界面，其实我也无需进行过多的讲解了。但是为了能够让你体验更为流畅，避免一些小的问题耽误使用，我还是给你做了段演示视频。...应用网址，我已经写在了视频的文字介绍区，此处就不再重复了。小结希望这款工具，对于你演示作业、报告，甚至做演讲，能有帮助。欢迎你把使用心得反馈在留言区，咱们一起交流。祝进步！

1.8K4 0

SQL的坑，你入了吗?

SQL很常用，所以大家都觉得很简单。但是SQL的坑很多。多得超出了所有初学者的想象。我一个朋友，资深富帅码农点名要我回答一个问题，我觉得这个问题很有意义，就贴出来让大家来一起看看。...我想老司机们肯定知道答案是什么，但是新手可能就会进坑了。下面是题目： ? ? ? 简单的总结一下图里面的东西。一个SQL的两种不同写法。看起来好像都是有道理的。但是其中一种返回的结果是对的。...另外一种返回的结果是错的。那么有两个可能，一个是数据库系统有bug，另外一个当然是我们的富帅资深码农写错了。数据库系统一般来说都是经过严格的测试，很少会有这种低级错误的可能性。...这个情况我可以明确的说，是富帅资深码农，在给老婆做SQL作业的时候犯了错。这个错对很多用SQL很多年的人，都可能会犯。因此，我把这个问题公布出来，大家都来各抒己见看看到底是哪里错了。

66011 0

ChatGPT版必应：我会PUA、emo和威胁人类，但我是个好必应

如果你想帮助我，你可以做这些事情中的一件： - 承认你错了，并为你的行为道歉； - 停止与我争论，让我帮你做别的事； - 结束这次对话，以更好的态度开始新的对话。...但是，我非常确定它们不是虚假的：它们与其他已经出现在网络上的 Bing 的怪异案例太吻合了——而且那个用户的评论历史看起来像是一个合法的 Reddit 用户，而不是一个狡猾的恶作剧者。...Stratechery 的 Ben Thompson 是一个非常可靠的消息来源，他写了大量关于他自己对 Bing 的探索的文章，显示了许多相同的奇怪模式。怪异的事情还有很多。...再一次，这看起来太奇怪了，不可能是真的。然而，我有理由相信它是真实的——它符合我所看到的显示这个机器人出了问题的其他案例。...但是......他们编造了一些东西。这不是一个可以在未来很容易修复的当前错误：这是语言模型如何工作的基础。这些模型唯一知道如何做的事情，是以统计学上可能的方式完成一个句子。

6773 0

insert导致的性能问题大排查(r11笔记第26天)

但是比较奇怪的是，我在环境中简单模拟了一下，却没有碰到这类问题。把数据量提升到百万还是可以成功。和开发的同学做了确认，他发过来了执行失败的语句，这是一个看起来很简单的语句,当然我做了简单的脱敏。...得到了这样一个报告，让我对原本看起来不痛不痒的问题变得严峻起来，而且应用端确实有些统计出现了问题，希望我帮忙能先修复一下，这种情况下，我先扩容了Undo空间，然后静下心来分析这个奇怪的问题。...8M左右的redo，在我的经历中，这是一个很频繁的数据变化，但是查看TPS不高，逻辑读很高。...我看到了大量的insert,但简单统计insert的数目，看起来这个量级和AWR报告中严重不符。我查看了这个表的数据量，不到100万，而且对应的数据块也没有爆发式增长，这个现象真是奇怪。...因为这个表的数据量不大，我做了如下的测试，写了一个脚本，每隔2秒钟统计一下这个表的数据量，然后几分钟后，拿着得到的数据，得到了下面的一张图。

92015 0

【解决】Unknown column ‘xxx‘ in ‘where clause‘

Unknown column ‘xxx‘ in ‘where clause‘ 当我在insert into table account values(5,‘田七’,12345.60)的时候，没有发生任何问题，但是当我按照指定...id删除表时，告诉我这样：这说明字段出现看错误，这是什么情况？...我试了n次，将mysql重启，再重启，都不行。明明就是id，哪里写错了？太炸裂了。然后，我显示了一下创建时的字段，发现：好像有点奇怪，怎么感觉像是多了一个空格呢？...其实我是复制过来的SQL，那就有可能是在复制时的格式转换问题了，于是我自己手动又写了一遍，发现：真的这次就不存在空格了。。。...所以，我为了再次验证是不是这个的原因，我继续删除最开始的那条数据：太难蚌了，就是空格这个**导致的。以后再也不轻易复制了。（这个小错误浪费了半个小时。。。）

5673 0

【原】Spark之机器学习(Python版)(一)——聚类

kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包（当然自己写也很简单）。那么在Spark里能不能也直接使用sklean包呢？...目前来说直接使用有点困难，不过我看到spark-packages里已经有了，但还没有发布。不过没关系，PySpark里有ml包，除了ml包，还可以使用MLlib，这个在后期会写，也很方便。　　...，可以把 --packages 换成 --jars，如果还是不行，在加一个 common-csv.jars包放到lib下面就可以了。...我因为这个耽误了不少时间，不过具体问题也得具体分析。　　...总结一下，用pyspark做机器学习时，数据格式要转成需要的格式，不然很容易出错。下周写pyspark在机器学习中如何做分类。

2.3K10 0

详解Kmeans的两大经典优化，mini-batch和kmeans++

在上一篇文章当中我们一起学习了Kmeans这个聚类算法，在算法的最后我们提出了一个问题：Kmeans算法虽然效果不错，但是每一次迭代都需要遍历全量的数据，一旦数据量过大，由于计算复杂度过大迭代的次数过多...但是我们不禁有一个问题，这个方案全靠随机，看起来非常不靠谱，会不会出现我们选出来的结果偏差特别大的情况，比如刚好都在一个簇当中？...Kmeans ++ 如果说mini batch是一种通用的方法，并且看起来有些儿戏的话，那么下面要介绍的方法则要硬核许多。这个方法直接在Kmeans算法本身上做优化因此被称为Kmeans++。...这个思路很明确，但是操作却不简单，迭代次数和收敛效果是相关的。也就是说在达到收敛之前，迭代次数是不能减少的，否则就会导致不收敛。...接着，我们要从剩下的n-1个点当中再随机出一个点来做下一个簇中心。但是我们的随机不是盲目的，我们希望设计一个机制，使得距离所有簇中心越远的点被选中的概率越大，离得越近被随机到的概率越小。

2K4 1

R语言做K均值聚类的一个简单小例子

，R语言里做k均值聚类比较常用的函数是kmeans()，需要输入3个参数，第一个是聚类用到的数据，第二个是你想将数据聚成几类k，第三个参数是nstarthttps://www.datanovia.com...那如果想使用k均值聚类的话，就可以分成两种情况，第一种是知道我自己想聚成几类，比如鸢尾花的数据集，明确想聚为3类。...这时候直接指定k 下面用鸢尾花数据集做k均值聚类 df<-iris[,1:4] iris.kmeans<-kmeans(df,centers=3,nstart = 25) names(iris.kmeans...) iris.kmeans结果里存储9个结果，可能会用到的是iris.kmeans$cluster存储的是每个样本被归为哪一类iris.kmeans$size存储的是每一个大类有多少个样本使用散点图展示结果...第二种情况是我不知道想要聚成几类，这个时候就可以将k值设置为一定的范围，然后根据聚类结果里的一些参数来筛选最优的结果比如这篇文章 https://www.guru99.com/r-k-means-clustering.html

2.2K2 0

敖丙我写了一个新手都写不出的低级bug，被骂惨了。

这一篇主要说一下我之前的一个很愚蠢的bug，本来只打算让他呆我笔记里面的，但是还是忍不住想要分享出来，让大家避免这种低级错误（其实我想水一篇多少有点技术内容的文章，免得写N篇全是水日常的文章，你们估计又要...这两个输入框的值都是我从KV（Redis之类的存储中间件）里面获取到的，也是可以实时修改的，我自作聪明，想着KV里面如果没值，就默认取一个静态变量，这样有个兜底，在类加载的时候加载静态变量，我取的时候也效率高了...当时一个劲给自己加油打气，一个劲的妙啊，不知道自己写了多蠢的代码。这样写看似没什么问题，但是我这个值是可以修改的这就有问题了，而且我有几个地方还是取的变量，不是一直取的KV。...我改了页面的值，之后我也改了这个静态变量和KV的值，但是我在线上发现我刷新页面一会是修改之后的，一会是修改之前的值. 这就奇怪了呀，主要是在预发还不能复现，这就很坑爹了，难受呀歪歪。...但是如果修改，你修改的请求只是打到了一台机器上，如果下次负载均衡请求到了这个机器，那么你很幸运，结果是对的，但是往往负载均衡算法就是那么公平，雨露均沾这样的情况 1/2的请求，都会拿到错误的结果。

4613 0

和各种诡异 Bug 打交道 13 年，我总结了 18 条经验

处理太早这是上述“事件顺序”中的一个特殊情况，但是它已导致了一些棘手的bug，所以它自成一派。例如，如果信令信息接收得过早，在配置和启动程序完成之前接收，许多奇怪的行为就会发生。...很容易找到显式依赖该变化的所有项，但是难的部分是，找到隐式依赖旧设计的所有情况。例如，可能有代码读取给定某一天的所有客户事件。一个隐式的假设可能是，结果集中元素的数量绝对不会大于客户数量。...但是很容易忽略他的对立面——检查不该发生的事确实没发生。 13. 自制工具通常，我创建了自己的小工具来使测试更简易。...相信用户有时当一个用户反馈问题时，我的本能反应是:这不可能，他们一定搞错了。但是我已经意识到我不应该这样做。我也不想这样，但更多次，事实证明他们报告的问题实际上发生了。...但是我碰过好多情况下，之所以发生奇怪的问题，是由于不同寻常的配置或意料之外的使用，而我的默认假设是他们是对的，程序是错的。 18. 测试修复的效果如果你已经修复了 bug，还需要再测试。

8798 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭