当与sample_n一起使用时，sparklyr真的是一个随机样本吗？

当与sample_n一起使用时，sparklyr确实可以生成一个随机样本。

sparklyr是一个用于在R语言中操作Apache Spark的包。它提供了一套接口，使得在R中可以方便地使用Spark的分布式计算能力。sample_n是sparklyr中的一个函数，用于从一个Spark数据框中随机抽取指定数量的行。

在使用sample_n函数时，sparklyr会通过Spark的分布式计算能力，在整个数据集上进行随机抽样，确保生成的样本是随机的。它会根据指定的抽样数量，在数据集中随机选择相应数量的行，并将这些行作为一个新的数据集返回。

这种随机抽样的功能在数据分析和机器学习中非常有用。它可以帮助我们从大规模数据集中获取一个代表性的样本，以便进行模型训练、数据探索和可视化等任务。

对于sparklyr的具体使用方法和更多相关信息，可以参考腾讯云的Sparklyr产品介绍页面：Sparklyr产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

大数据，下一个风口

问卷调查的核心思想是抽样调查，而抽样调查的工作方式是通过少量随机样本反映整体数据表现的一种方法。其特点是：选取少量样本，调查目标关键特征。...不得不说当下是一个靠着吹牛就能挣钱的时代，你说那么多人靠着吹牛拿了那么多钱，我为什么要诚恳？是啊，所以说这是互联网企业的原罪。互联网颠覆一切的冲动和盲目，使人们想要颠覆任何行业，让一切联网！...实体衣服店真的被取代了吗？人们真的像想象中的“在实体店试衣服，到网上买”？人们用互联网这一根棍子捅向一切可以接触的行业，让它与时代接轨，跟得上移动互联，谁知道这是不是破坏与捣乱呢？...冲动、粗鲁、野蛮的想要颠覆一切，人人都觉得颠覆一个行业能挣到很多钱，我要做第一个。你有梦想吗？你想发财吗？你想大干一番吗？跟我干，有前途！虽然现在艰苦了点，但是我们有未来。...随着数据公司爆炸式的增长，数据分析师群体增长的速度着实缓慢，目前市场上还没有较为成熟的数据分析师协会或者相关机构，大数据时代的领军者们还在学习的道路上，一起加油！

3371 0

真假美猴王！基于XGBoost的『金融时序』 VS 『合成时序』

取而代之的是，将每个时间序列group_by（按class == 0过滤后的6,000个观测值中的每一个，同样当按class == 1过滤时，也是如此），然后将nest（）数据折叠每个资产的每日时间序列到一个...例如，下面的注释代码group_by（）的ID变量和nest（）中的数据，需要一个随机sample_n（）中的分组数据，然后unnest（）的数据到其原始形式，此时用的随机样本IDs。...接下来，针对一个随机观测值在两个序列上计算Dickey Fuller检验，因此计算出了sample_n（1）参数（要在所有12,000个观测值上进行计算都非常昂贵）。...回想一下这里的目标是对合成时间序列与真实时间序列进行分类，而不是第二天的价格。对于每项资产，我们都有一个信号观测值，并据此可以训练一种分类算法，以区分真实时间序列与合成时间序列。...你向每个参数添加一个值，模型必须搜索与该参数关联的所有可能的组合。

1.5K2 1

数据太大爆内存怎么办？七条解决思路 | 机器学习开发手册

这便是一个限制因素。你需要检查一下：是否能重新设置该工具/库，分配更多内存。对于 Weka，你可以在打开应用时，把内存当作一个参数进行调整。 2. 用更小的样本你真的需要用到全部数据吗？...可以采集一个数据的随机样本，比如前 1,000 或 100,000 行。在全部数据上训练最终模型之前（使用渐进式的数据加载技巧），先试着用这个小样本解决问题。...总的来说，对算法做快速地抽查、看到结果在前后的变化，在机器学习领域是一个很好的习惯。你还可以考虑：相对于模型技巧，做一个数据大小的敏感性分析。...或许，对于你的随机小样本，有一个天然的边际效应递减分水岭。越过这个关口，继续增加的数据规模带来的好处微乎其微。 3. 更多内存你必须要用 PC 吗？你可以考虑内存、性能高一个量级的计算设备。...两个很好的例子是 Hadoop 与机器学习库 Mahout，以及 Spark 与 MLLib 库。我认为，这是用尽上述办法仍无法解决的情况下，才需要采用的最后手段。

3.4K10 0

英伟达又一个GAN！PoE-GAN，AI绘图细节拉满，看完直接沸腾了！

它们通常无法在可用时利用多模式用户输入，这降低了它们的实用性。...生成效果：解读 Product-of-Experts 我们的目标是训练一个单一的生成模型，该模型可以捕获以任意模态子集为条件的图像分布。...直观地说，每个输入模态都会增加一个合成图像必须满足的约束。满足所有约束的图像集合是集合的交集，每个集合都满足一个单独的约束。...与计算图像嵌入和条件嵌入之间的单个内积的标准投影判别器不同，我们为每个输入模态计算一个内积并将它们加在一起以获得最终损失。标准投影判别器（左）和本文的多模态投影判别器（右）之间的比较。...当以任意模态子集为条件时，PoE-GAN 可以产生不同的输出图像。

8972 0

蒙特卡洛 VS 自举法 | 在投资组合中的应用（附代码）

这就是这种方法的缺点之一，因为这样模型的输出值和相应的推论会依赖于这样一个假设，即股票的未来回报率会有与历史回报率相同的特征（至少这会用于计算模型的输入值）。...这意味着当一个随机样本从历史回报率的分布中被提取时，它不会被“抛弃”并从“帽子”中移除，而是将其替换并放回，以便在接下来的抽样期间被再次进行选择。...好吧，如果我们这样做，我们可能就会看到这个样本对股票1有强正相关性，对于股票2而言，我们真的可以相信这是一种真正代表这两个股票之间真实关系的情况吗？...如前所述，参数化的蒙特卡罗方法涉及使用基础总体的特征来生成随机样本的值。我们在这里讨论的特征是历史回报分布的均值和标准差（或方差）。...逻辑相当简单——当两个资产相关时，它们往往会同时向同一个方向移动——所以如果一个值上升，那么另一个一般也会如此（有一些警告——再次，或许更多在未来的文章中）。

3.4K2 0

Nature新研究：大脑就像肌肉，有效思维干预可更新神经元，还能提升GPA！

高智商可以培养吗？斯坦福大学教授Carol Dweck在作品《看见成长的自己》中将人的思维分为两种，一种是固定性思维，认为智力和能力是一成不变的；一种是成长性思维，认为努力可以使自己变得更聪明。...事实上，《柳叶刀》杂志的一个委员会认为改善青少年的中等教育成果“是对健康和福祉最好的一笔投资”。向中学的过渡是青少年教育轨迹中具有灵活性的一个重要时期。...这里评估的具体干预措施是一种智力干预的成长型思维，强调了青少年对智力本质的信念，使学生们认识到，智力并不是固定不变的，而是能够随着坚定地努力、不断地尝试以及在合适的时候寻求帮助不断成长的。...结果显示，当学生们的行为规范与干预措施相一致时，干预起到作用，提高成绩较差的学生的成绩和对高阶课程的接受程度。...但可以肯定的是，每次失败过后，他都会回到训练场馆，练习上百次投篮，最后才能站上篮球界的神坛！或许思维真的会决定命运，有时以一个积极努力的心态迎接挑战，可能真会使我们更加聪明吧！

6182 0

计算与推断思维十、假设检验

虽然审团的种族组成与合格的陪审员的总体不同，但除了机会变异以外，没有任何理由存在差异。备选假设。这就是说，除了几率以外的某些原因使数据与原假设所预测的数据不同。...在这两种情况下，检验的结论是数据支持备选假设。约定的历史注解上面定义的统计学显着性的确定，已经在所有应用领域的统计分析中成为标准。当一个约定被如此普遍遵循时，研究它是如何产生的就有趣了。...原因是机会变异。例如，即使当原假设为真时，机会变异也可能导致样本看起来与原假设的预测完全不同。...P 值的截断值是错误概率上面的例子是一个普遍事实的特例：如果对 P 值使用p%的截断值，并且原假设恰好是真的，那么大约有p%的概率，你的检验就会得出结论：备选假设是正确的。...如果原假设是真的，那么爱国者的下降值就可以对比从 15 次下降值随机不带放回抽取的 11 个。所以让我们创建一个，含有所有 15 个下降值，并从中随机抽取。

5431 0

模型解释器——LIME算法介绍

选择最信任的复杂模型应用时，往往会训练多个模型，此时就需要从多个模型中选择最信任的那个。...如下有两个判断文章与“基督教“有关还是与”无神论教“有关的模型，两个模型的预测结果都是准确的，但通过LIME发现，第二个模型得到结果的重要特征是邮件主题的“Posting“这个词，而这个词与无神论本身并没有太多的联系...Interpretable：解释器的模型与特征都必须是可解释的，可用局部样本特征解释复杂模型预测结果。 Model-Agnostic：与复杂模型无关，任何模型都可以用LIME进行解释。...4、算法原理 step1：得到预测样本附近的随机样本 假设预测样本为在他周围生成N个随机样本 当某一个特征x是类别变量，则根据训练集分布采样，当x为连续变量，新生成的第k个样本的第i个特征为：...step2：为生成的随机样本打上标签将生成的随机样本放入复杂模型f中训练，得到预测结果。

7152 0

计算与推断思维九、经验分布

从总体中取样当随机样本来自较大总体时，平均定律也成立。作为一个例子，我们将研究航班延误时间的总体。 united表包含 2015 年夏天从旧金山出发的美联航国内航班的数据。...在内华达，轮盘赌的主要随机器是一个带有 38 个口袋的轮子。其中两个口袋是绿色的，十八个黑色，十八个红色。轮子在主轴上，轮子上有一个小球。当轮子旋转时，球体跳起来，最后落在其中一个口袋里。...为此，我们将依赖来自总体的大型随机样本的数据。统计量（注意是单数！）是使用样本中数据计算的任何数字。因此，样本中位数是一个统计量。...这提出了一个重要的推论问题：统计量的数值可能会有所不同。使用基于随机样本的任何统计量时，首先考虑的事情是，样本可能不同，因此统计量也可能不同。...这意味着反复模拟随机过程是一种近似概率分布的方法，不需要在数学上计算概率，或者生成所有可能的随机样本。因此，计算机模拟成为数据科学中的一个强大工具。

7011 0

dplyr数据处理

一、筛选过滤行 filter() filter()函数用于筛选出一个观测子集，第一个参数是数据库框的名称，第二个参数以及随后的参数是用来筛选数据框的表达式。...mtcars,cyl == 6,mpg>21) dplyr::filter(mtcars,cyl == c(4,6),mpg>21) 二、排序 arrange() arrange()函数的使用方法与...另外，当想要把几个需要的列移到前面，可以配合使用 everythins()函数，将剩余的列添加到后面。...mtcars %>% dplyr::sample_n(10) mtcars %>% dplyr::sample_frac(0.2) 六、创建新变量有时需要对已有变量进行重新计算，例如计算几列的和...分组统计：group_by()函数与 summarise()配合一起使用，可以进行分组统计。

1.5K1 0

英伟达推出GAN“超级缝合体”，输入文字草图语义图都能生成逼真照片

所谓PoE是Hinton在2002年提出的“专家乘积”（product of experts）概念，每个专家（单独模型）被定义为输入空间上的一个概率模型。...在此条件下，为了使乘积分布在一个区域具有高密度，每个单独的分布需要在该区域具有高密度，从而满足每个约束。而PoE GAN的重点是如何将每种输入混合在一起。...与计算图像嵌入和条件嵌入之间单个内积的标准投影鉴别器不同，这里要计算每个输入模态的内积，并将其相加以获得最终损失。随意变换输入的GAN PoE可以在单模态输入、多模态输入甚至无输入时生成图片。...当以模式的任意子集为条件时，PoE-GAN可以生成不同的输出图像。下面展示了PoE-GAN的随机样本，条件是两种模式（文本+分割、文本+草图、分割+草图）在景观图像数据集上。...PoE-GAN甚至还能没有输入，此时PoE-GAN就会成为一个无条件的生成模型。以下是PoE-GAN无条件生成的样本。

7394 0

计算与推断思维十一、估计

这导致了一个推断问题：如何根据随机样本中的数据，对未知参数做出正确的结论？我们将用推断思维来回答这个问题。基于随机样本的统计量可能是总体中未知参数的合理估计。...以下是自举法的步骤，用于生成类似总体的另一个随机样本：将原始样本看做总体。从样本中随机抽取样本，与原始样本大小相同。二次样本的大小与原始样本相同很重要。原因是估计量的变化取决于样本的大小。...因此，在婴儿出生前估计出生体重是有帮助的。一种方法是检查出生体重和怀孕天数之间的关系。这种关系的一个简单的衡量标准是出生体重与怀孕天数的比值。...我们估计的总体（出生重量与怀孕天数的比值）中位数，在 0.425opd 到 0.433opd 的范围内。基于原始样本的估计量 0.429 恰好在区间两端的中间，尽管这通常不是真的。...以大型随机样本开始。如果你不这样做，该方法可能无法正常工作。它的成功基于大型随机样本（因此也从样本中重采样）。平均定律说，如果随机样本很大，这很可能是真的。

1K2 0

命令行上的数据科学第二版：十、多语言数据科学

因此，这个终端与打开一个单独的终端应用没有什么不同，但是当您在 Docker 容器内或远程服务器上工作时，它仍然很有帮助。...➍ 统计字符向量alice中的元素个数 system2()的一个缺点是，它首先将字符向量写入一个文件，然后将其作为标准输入传递给命令行工具。当处理大量数据和大量调用时，这可能会有问题。...10.6 Apache Spark Apache Spark 是一个集群计算框架。当无法将数据存储在内存中时，你会求助于这只 800 磅重的大猩猩。...➐ 将上述步骤组合成一个单一命令。 pipe()转换也在 PySpark, SparkR, 和 SparklyR 中提供。...一种方法是在使用spark-submit提交 Spark 应用时，用--files选项指定文件名。

1.1K2 0

计算与推断思维十二、为什么均值重要

如果随机样本的性质是真的，不管总体如何，它都能成为一个有力的推理工具，因为我们通常不清楚总体中的数据。大型随机样本的均值分布属于这类性质。这就是随机抽样方法广泛用于数据科学的原因。...大部分数据与平均值有多接近？样本量如何与样本的均值相关？为什么随机样本的经验分布出现钟形？我们如何有效地使用抽样方法进行推理？...例如，这里是另一个集合，它的分布与not_symmetric相同，因此均值也相同。...要计算偏差有多大，计算偏差的平均值是很自然的。但是当所有的偏差加在一起的时候，会发生一些有趣的事： sum(deviations) 0.0 正的偏差正好和负的偏差抵消。...让我们再次运行代码，样本量为 800 ，并将模拟结果收集在同一个表中，我们在里面收集了样本量为 200 的模拟结果。我们使重复次数与之前相同，以便两列具有相同的长度。

1K2 0

统计︱P值-0.05就发表，不然就去死！

根据曼荷莲学院统计学家George Cobb半开玩笑的估计，答案是两个...或者一个。...3.从研究总体中抽取一个随机样本4计算检验统计量的值5计算概率P值或者说观测的显著水平，即在假设为真时的前提下，检验统计量大于或等于实际观测值的概率。...三、统计学家难得的共识：是时候停止滥用P值了对于外行人很少听过的一个科学术语产生愤怒，这事听起来可能很疯狂，但它的结果意义重大。对于p值的误用会导致不良的科学风气与成果（对于这一点大家没有异议）。...要理解原因，可以考虑这样一个例子，“教皇是基督徒吗？答案是肯定的”，他说。“基督徒是教皇吗？答案很可能是否定的。如果你更改了顺序，声明就不存在了”。...它们只是谜题中应该与上下文其他证据放在一起考虑的一部分。本文始于一首俳句诗，它是对于这份p值文件的回复之一。

1.1K6 0

资源 | 谷歌与MIT联袂巨著：《计算机科学的数学》开放下载

而这些统计学概念和模型却又正好是机器学习的方法基础。...下面让我们一起来看看该书的章节目录： I 数学分析（Proofs）简介（Introduction） 0.1 参考文献（References） 1 什么是证明？（What is a Proof?）...Sets） 8.1 无限基数集（Infinite Cardinality） 8.2 停止问题（The Halting Problem） 8.3 集合的逻辑（The Logic of Sets） 8.4 这些真的有效吗...（Probability versus Confidence） 19 随机变量（Random Variables） 19.1 随机样本（Random Variable Examples） 19.2 独立性...20.1 马尔可夫定理（Markov‘s Theorem） 20.2 切比雪夫定理（Chebyshev's Theorem） 20.3 方差的性质（Properties of Variance） 20.4 随机样本估计

1.5K7 0

如何选取聚类算法

“聚类算法的选取原则****” 01 — 问题背景当遇到聚类分析问题的时候，机器学习领域中有很多聚类算法可供选择。标准的sklearn库就有13个不同的聚类算法。...下面就列举一些当对数据先验知识比较少的时候，在选择聚类算法时，可以遵循的一些基本原则。图片 02 — 聚类算法选取原则首先，让我们制定一些基本规则，说明我们需要一个好的聚类算法来做什么。...这意味着一个好的聚类算法需要在聚类中保持保守；它应该愿意不给集群分配点数；它不应该将点分组在一起，除非它们真的在一个集群中；比你想象的要少得多的算法也是直观的参数所有聚类算法都有参数；你需要一些参数来调整效果...问题是：如何选择这些参数的设置？如果您对数据知之甚少，则很难确定参数的值或设置。这意味着参数需要足够直观，以便您可以在不需要了解大量数据的情况下进行设置。...如果您正在对数据进行采样，那么采取不同的随机样本不应该从根本上改变最终的集群结构（除非您的采样有问题）。如果更改聚类算法参数，则希望聚类以某种稳定的可预测方式更改。性能数据集只会越来越大。

5012 0

JavaScript模式匹配的未来

这里有一个超基础的函数叫做 greet，它接受一个带有'ID'和'role'的用户，并根据用户角色返回问候语。听起来简单吗？...想象一个你有一个 when 子句可以救我们摆脱这种冗长的迷宫的世界。简单地说，模式匹配允许我们检查一个输入是否符合一个模式或一个特定的类型。在继续之前，需求注意的——现在看的是一个提议。...这不仅允许更易读和可维护的代码，而且为基于输入属性的更简单的“行内”决策铺平了道路，使条件、行为和结果非常容易同时阅读。这会改变JavaScript的未来吗？...我真的相信模式匹配可以极大地改善JavaScript的未来。...但是，我希望看到我们最喜欢的语言走得更远，尤其是当模式匹配与函数定义结合使用时。这可能会让我们走出舒适区，但一旦你开始探索它，你就会意识到它所拥有的力量和它带来的简单性。

911 0

2018年伊始，系统编程语言Rust为何令程序员感到兴奋？

4周前，再次用到Rust，语言比上次使用时更加容易（2016年5月）。这真的很令人兴奋！所以谈谈为什么现在喜欢使用Rust语言，以及几个关于Rust语言明年发展趋势的想法！...在开始使用Rust的时候，能够做到这样的权衡（在牺牲一点性能的情况下使程序更容易编写）是非常好的。最喜欢这个特别权衡的地方是它是明确的。...当发现一个从未听说过的奇怪的事情需要使用时（程序头文件中vaddr的字段），它就在那里！它被称为vaddr，这与C语言结构中调用的是一样的。...而当提出一个新的Ruby版本（如2.5.0）时，其内部的API发生了变化，编译器说：“嘿，你的旧代码与Ruby 2.4的结构一起工作，现在不能编译，你必须处理这个问题”。...Rust真的很酷，它是为很多不同类型的人准备的，但它仍然是一个专门的东西，并不适用于每个人。那适合谁呢？（Rust页面之友是最好的资源） Rust的包容性是很好的（“Rust可能适合你！”）

4.6K10 0

Jenkins 中文社区议题公开征集，加入我们，一起聊聊！

为了更好地与 Jenkins 用户和爱好者进行分享和交流，也为热爱分享的用户们提供一个专业的平台，Jenkins 中文社区管理团队特发起“议题公开征集计划”，诚邀对 Jenkins、DevOps 相关议题感兴趣的伙伴...我们将对公开征集到的议题进行认真的筛选，根据筛选的收集结果来安排在线或者线下活动，为 Jenkins 中文用户提供更多交流的空间。...，还可以分享吗？...本次征集长期有效，组委会根据提交的内容、日期来进行安排分享是在线呢，还是线下进行？...如果分享者对在线或者线下分享都可以的话，当某个城市的分享者够三位以上时，我们优先会考虑安排线下活动，其他情况则是在哔哩哔哩直播让我们一起，共建开放、包容、活跃的 Jenkins 社区，感兴趣的小伙伴不要错过哦

2554 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云