开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark 2.0: 4行。IllegalArgumentException:绑定必须为正

Spark 2.0是一种开源的大数据处理框架，它提供了高效的数据处理和分析能力。在Spark 2.0中，我们可以使用简洁的代码来完成复杂的数据处理任务。然而，在使用Spark 2.0时，有时会遇到一些错误，比如"IllegalArgumentException:绑定必须为正"。

这个错误通常是由于参数绑定的值不符合要求导致的。在Spark 2.0中，参数绑定必须是正数，否则会抛出该异常。为了解决这个问题，我们需要检查代码中的参数绑定部分，确保绑定的值是正数。

在Spark 2.0中，我们可以使用以下方法来解决这个问题：

检查参数绑定：首先，我们需要检查代码中的参数绑定部分，确保绑定的值是正数。可以使用断点调试或打印日志的方式来查看参数绑定的值是否正确。
修改参数绑定：如果发现参数绑定的值不是正数，我们需要修改代码，将绑定的值改为正数。可以根据具体的业务需求来确定正确的参数值。
异常处理：在代码中添加异常处理机制，以捕获并处理该异常。可以使用try-catch语句来捕获IllegalArgumentException，并在catch块中进行相应的处理，比如打印错误日志或返回错误信息给用户。

总结起来，当遇到"IllegalArgumentException:绑定必须为正"错误时，我们需要检查代码中的参数绑定部分，确保绑定的值是正数，并进行相应的修改和异常处理。这样可以解决该错误，并确保Spark 2.0的正常运行。

关于Spark 2.0的更多信息和使用方法，可以参考腾讯云的产品介绍页面：Spark 2.0产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Spark MLlib特征处理之 StringIndexer、IndexToString使用说明以及源码剖析

StringIndexer可以把字符串的列按照出现频率进行排序，出现次数最高的对应的Index为0。比如下面的列表进行StringIndexer

00

在Apache Spark上跑Logistic Regression算法

本文旨在介绍使用机器学习算法，来介绍Apache Spark数据处理引擎。我们一开始会先简单介绍一下Spark，然后我们将开始实践一个机器学习的例子。我们将使用Qualitative Bankruptcy数据集，来自UCI机器学习数据仓库。虽然Spark支持同时Java，Scala，Python和R，在本教程中我们将使用Scala作为编程语言。不用担心你没有使用Scala的经验。练习中的每个代码段，我们都会详细解释一遍。 APACHE SPARK Apache Spark是一个开源的集群计算框架，用Spa

06

分享一个.NET平台开源免费跨平台的大数据分析框架.NET for Apache Spark

今天早上六点半左右微信群里就看到张队发的关于.NET Spark大数据的链接https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/ ，正印证了“微软在不断通过.NET Core补齐各领域开发，真正实现一种语言的跨平台”这句话。那么我们今天就来看看这个 .NET for Apache Spark到底是个什么鬼？

02

第四范式OpenMLDB: 拓展Spark源码实现高性能Join

Spark是目前最流行的分布式大数据批处理框架，使用Spark可以轻易地实现上百G甚至T级别数据的SQL运算，例如单行特征计算或者多表的Join拼接。

02

将 Kudu 数据迁移到 CDP

当您将 Kudu 数据从 CDH 迁移到 CDP 时，您必须使用 Kudu 备份工具来备份和恢复您的 Kudu 数据。

03

【技术分享】梯度提升树分类

Boosting是一类将弱学习器提升为强学习器的算法。这类算法的工作机制类似：先从初始训练集中训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注。然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器的数目达到事先指定的值T，最终将这T个基学习器进行加权结合。

基于Spark的机器学习实践 (二) - 初识MLlib

MLlib是Spark的机器学习（ML）库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说，它提供了以下工具：

02

基于Spark的机器学习实践 (二) - 初识MLlib

MLlib是Spark的机器学习（ML）库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说，它提供了以下工具：

04

初识 Spark SQL | 20张图详解 Spark SQL 运行原理及数据抽象

不管是做平台的，还是做应用的，都免不了跟 SQL 打交道。一句“SQL Boy”，虽然是大家的自嘲，但也能说明大数据工程师们跟 SQL 的关系之紧密。

08

Scala入门与进阶（三）- 函数

默认参数:在函数定义时，允许指定参数的默认值 $SPARK_HOME/conf/spark-defaults.conf

03

在Apache Spark上跑Logistic Regression算法

本文旨在介绍使用机器学习算法，来介绍Apache Spark数据处理引擎。我们一开始会先简单介绍一下Spark，然后我们将开始实践一个机器学习的例子。我们将使用Qualitative Bankruptcy数据集，来自UCI机器学习数据仓库。虽然Spark支持同时Java，Scala，Python和R，在本教程中我们将使用Scala作为编程语言。不用担心你没有使用Scala的经验。练习中的每个代码段，我们都会详细解释一遍。 APACHE SPARK Apache Spark是一个开源的集群计算框架，用Spa

03

PySpark初级教程——第一步大数据分析(附代码实现)

我们正在以前所未有的速度生成数据。老实说，我跟不上世界各地里产生的巨大数据量!我敢肯定你已经了解过当今时代数据的产量。McKinsey, Gartner, IBM,等公司都给出了他们公司的数据。

02

spark读写HBase之使用hortonworks的开源框架shc（二）：入门案例

shc测试环境的搭建参考： spark读写HBase之使用hortonworks的开源框架shc（一）：源码编译以及测试工程创建

05

Spark 机器学习中的线性代数库

学自：Spark机器学习实战 https://book.douban.com/subject/35280412/

02

推荐系统那点事 —— 基于Spark MLlib的特征选择

在机器学习中，一般都会按照下面几个步骤：特征提取、数据预处理、特征选择、模型训练、检验优化。那么特征的选择就很关键了，一般模型最后效果的好坏往往都是跟特征的选择有关系的，因为模型本身的参数并没有太多优化的点，反而特征这边有时候多加一个或者少加一个，最终的结果都会差别很大。在SparkMLlib中为我们提供了几种特征选择的方法，分别是VectorSlicer、RFormula和ChiSqSelector。下面就介绍下这三个方法的使用,强烈推荐有时间的把参考的文献都阅读下，会有所收获！ VectorS

09

万文讲解知乎实时数仓架构演进

"数据智能" (Data Intelligence) 有一个必须且基础的环节，就是数据仓库的建设，同时，数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲，数据的结果代

03

Scala学习笔记(八)

模式匹配是 Scala 的重要特性之一，前面两篇笔记Scala学习笔记(六) Scala的偏函数和偏应用函数、Scala学习笔记(七) Sealed Class 和 Enumeration都是为了这一篇而铺垫准备的。

03

Spark 2.0技术预览：更容易、更快速、更智能

在过去的几个月时间里，我们一直忙于我们所爱的大数据开源软件的下一个主要版本开发工作：Apache Spark2.0。Spark 1.0已经出现了2年时间，在此期间，我们听到了赞美以及投诉。Spark 2.0的开发基于我们过去两年学到的：用户所喜爱的我们加倍投入；用户抱怨的我们努力提高。本文将总结Spark 2.0的三大主题：更容易、更快速、更智能。更深入的介绍将会在后面博客进行介绍。

03

Spark Love TensorFlow

本篇文章介绍在 Spark 中调用训练好的 TensorFlow 模型进行预测的方法。

03

LP love tensorflow & spark

昨天看到一篇文章激发起了我很多兴趣点，文章的题目是 Spark Love Tensorflow，心想何止如此，LP love tensorflow & spark，之前谜之Love Tensorflow，花了三年的时候把它收入麾下，19年开始接触spark，同样激发出不少火花，同时学习了scala语言(人生太短，python吧)，也想花二到三年的时间将spark拿下。

02

知乎实时数仓实践及架构演进

转自知乎技术专栏：https://zhuanlan.zhihu.com/p/56807637

03

Spark初识-什么是Spark

Spark，是一种“One Stack to rule them all”的大数据计算框架，是一种基于内存计算的框架，是一种通用的大数据快速处理引擎。

01

Spark SQL 整体介绍

sparksession rdd sparkcontext sparksql sqlcontent dstream streammingcontext hivesql hivecontext

01

用Flink取代Spark Streaming！知乎实时数仓架构演进

场景描述：数据工程团队是知乎技术中台的核心团队之一，该团队主要由数据平台、基础平台、数据仓库、AB Testing 四个子团队的 31 位优秀工程师组成。这篇文章分享了知乎实时数仓的演进过程。

02

PySpark 中的机器学习库

传统的机器学习算法，由于技术和单机存储的限制，比如使用scikit-learn,只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。但实际过程中样本往往很难做好随机，导致学习的模型不是很准确，在测试数据上的效果也可能不太好。随着 HDFS(Hadoop Distributed File System) 等分布式文件系统出现，存储海量数据已经成为可能。在全量数据上进行机器学习也成为了可能，这顺便也解决了统计随机性的问题。然而，由于 MapReduce 自身的限制，使得使用 MapReduce 来实现分布式机器学习算法非常耗时和消耗磁盘IO。因为通常情况下机器学习算法参数学习的过程都是迭代计算的，即本次计算的结果要作为下一次迭代的输入，这个过程中，如果使用 MapReduce，我们只能把中间结果存储磁盘，然后在下一次计算的时候从新读取，这对于迭代频发的算法显然是致命的性能瓶颈。引用官网一句话：Apache Spark™ is a unified analytics engine for large-scale data processing.Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务.

02

spark SQL 内核分析（一）

spark sql 本质是将sql 语句解析为对应的RDD模型来进行执行spark 相关的计算操作。

01

【分享】讯飞星火认知大模型Python调用上下文测评

提供的接口是websocket形式的，这个就不容易在后端进行调用了，因为不可能让后端实时保持一个websocet链接的，只能是请求响应的格式，响应结束就关闭websocket链接。

04

Structured Streaming 实现思路与实现概述

二、从 Structured Data 到 Structured Streaming

05

有助于你掌握机器学习的十三个框架

作者 | Serdar Yegulalp 编译 | 夜风轻扬在过去的一年里，机器学习炙手可热。机器学习的“突然”降临，并不单纯因为廉价的云环境和更强有力的GPU硬件。也因为开放源码框架的爆炸式增长，这些框架将机器学习中最难的部分抽象出来，并将这项技术提供给更广大范围的开发者。这里有新鲜出炉的机器学习框架，既有初次露面的，也有重新修改过的。这些工具被大众所注意，或是因为其出处，或是因为以新颖的简单方法处理问题，或是解决了机器学习中的某个特定难题，或者是上述的所有原因。 Apache Spark MLl

04

Apache Spark作为编译器：深入介绍新的Tungsten执行引擎

《Spark 2.0技术预览：更容易、更快速、更智能》文中简单地介绍了Spark 2.0相关技术，本文将深入介绍新的Tungsten执行引擎。Apache Spark已经非常快了，但是我们能不能让它再快10倍？这个问题使得我们从根本上重新思考Spark物理执行层的设计。当你随便调查一个现代数据引擎（比如Spark、其他的MPP数据库），你会发现大部分的CPU周期都花费在无用的工作之上，比如虚函数的调用；或者读取/写入中间数据到CPU高速缓存或内存中。通过减少花在这些无用功的CPU周期一直是现代编译器长期

06

如何将RDD或者MLLib矩阵zhuanzhi

最近老有人在qq群或者公众号留言问浪尖如何将Spark Mllib的矩阵或者将一个RDD进行转置操作。Spark Mllib的矩阵有多种形式，分布式和非分布式，非分布式在这里浪尖就不讲了，很简单，因为他是基于数组的。而分布式存储是基于RDD的，那么问题就又变成了如何将一个RDD进行转置。首先我们来介绍一下什么是转置操作：百科上的定义，将一个矩阵的行列互换得到的矩阵就是该矩阵的转置。要想把一个RDD的行列互换的话，主要思路如下： 1，先转化RDD，给每一行带上唯一的行号(row, rowIndex

09

机器学习框架简述

总之，一个机器学习框架包括如何处理数据，分析方法，分析计算，结果评估和结果利用。一个好的机器学习框架需要处理大规模数据提取和数据预处理，还需要处理快速计算、大规模和高速的交互式评估，以及简单易懂的结果解释和部署。

02

2021年大数据Spark（四十四）：Structured Streaming概述

Apache Spark在2016年的时候启动了Structured Streaming项目，一个基于Spark SQL的全新流计算引擎Structured Streaming，让用户像编写批处理程序一样简单地编写高性能的流处理程序。

03

Spark机器学习库(MLlib)指南之简介及基础统计

问题向导: (1)Spark机器学习库是什么，目标是什么？ (2)MLlib具体提供哪些功能？ (3)MLlib为什么要改用基于DataFrame的API? 1.Spark机器学习库(MLlib

07

如何做Spark 版本兼容

同理对应的Vectors object 也是。这就造成了一个比较大的困难，比如下面的代码就很难做到兼容了，切换Spark就无法通过编译：

02

Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架

Apache Spark内存计算框架更接近于Apache Hadoop，Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。 “虽然IT公司将会继续添加其他数据处理框架叠加在Hadoop集群顶部，One Platinum Initiativ是一个以Spark取代MapReduce作为默认数据处理引擎的基本案。”Cloudera的产品营销总监Matt Brandwein。大多数IT组织认为MapReduce是一个相当晦涩难懂的编程工具。出于这个原因,许多人愿意采用任意数量的

09

Spark on Yarn年度知识整理

Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。

02

Spark知识体系完整解读

Spark简介 Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口 Sparkon Yarn

02

SparkMLlib的数据类型讲解

SparkMLlib的数据类型讲解 Mllib支持单机上存储的本地向量和矩阵，也支持由一个或者多个RDD支持的分布式矩阵。本地向量和本地矩阵是简单的数据模型，用作公共接口。由Breeze提供基本的线性代数运算。。在监督学习中使用的训练示例在MLlib中被称为“labeled point” 一本地向量本地向量存储于单台机器，其拥有整类型的行，从0开始的索引，和double类型的值。Mllib支持两种类型的本地向量:密集向量(dense)和稀疏向量(sparse)。密集向量只有一个浮点数组组成，而一个稀疏向

07

使用CDSW和运营数据库构建ML应用1:设置和基础

Python在数据工程师和数据科学家中被广泛使用，以解决从ETL / ELT管道到构建机器学习模型的各种问题。Apache HBase是用于许多工作流程的有效数据存储系统，但是专门通过Python访问此数据可能会很困难。对于想要利用存储在HBase中的数据的数据专业人士而言，最新的上游项目“ hbase-connectors”可以与PySpark一起使用以进行基本操作。

02

带你深入浅出，彻底了解什么是Spark？

大数据专业，或者人工智能，深度学习方向的小伙伴们一定对Spark这个名词不陌生吧~不认识也没有关系，今天Alice为大家带来关于Spark的一个详细介绍。

02

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 [Release Note](http://spark.apache.org/releases/spark-release-2-4-0.html) 里面果然一个 Spark Streaming 相关的 ticket 都没有。相比之下，Structured Streaming 有将近十个 ticket 说明。所以各位同学，是时候舍弃 Spark Streaming 转向 Structured Streaming 了，当然理由并不止于此。我们这篇文章就来分析一下 Spark Streaming 的不足，以及Structured Streaming 的设计初衷和思想是怎么样的。文章主要参考今年（2018 年）sigmod 上面的这篇论文：Structured Streaming: A Declarative API for Real-Time

02

【比竞争对手快3倍】微软官方发布CNTK 2.0，增加 Python 和 Keras 支持

【新智元导读】微软今天发布了深度学习工具包CNTK的2.0版本，新版本增加了支持 Keras 的 CNTK 后端，Java API，模型评估的 Spark 支持，模型压缩等新功能，微软全球技术院士黄学东称其比同类产品快3倍。微软今天发布微软认知工具包（Microsoft Cognitive Toolkit）的2.0版本。这是一个开源的深度学习工具包，以前的名字是 CNTK，是微软对应竞争对手的TensorFlow，Caffe 和 Torch 的工具。它的第一个版本已经在速度方面不输许多竞争产品，而新的2.

08

「大数据分析」寻找数据优势：Spark和Flink终极对决

当涉及到大数据时，流计算和它所带来的实时强大分析的重要性是不可避免的。此外，当涉及到流计算时，无法避免该领域最强大的两种数据处理引擎:Spark和Flink。

03

快速接入讯飞星火认知大模型2.0，200万令牌免费用！

随着国内的语言大模型不断兴起，科大讯飞的星火大模型，阿里的通义千问，百度的文心一言等。这些大模型给我提供了很好的便利。同时星火大模型提供了开放 API 功能，同时提供更多SDK，使得我们能够将大模型接入到我们自己的项目当中。

02

Spark Extracting,transforming,selecting features

官方文档链接：https://spark.apache.org/docs/2.2.0/ml-features.html

04

线性代数整理(二)正交性，标准正交矩阵和投影坐标转换和线性变换

单从一个矩阵来看，我们可以发现该矩阵的列秩和行秩是相等的，都为2，那么这是一个特例还是矩阵的特性呢？其实这是矩阵的特性，矩阵的行秩=矩阵的列秩。

01

Apache Zeppelin 中 Cassandra CQL 解释器

Name Class Description %cassandra CassandraInterpreter 为Apache Cassandra CQL查询语言提供解释器启用Cassandra解

09

Apache Hive走向内存计算，性能提升26倍

Apache Hive 2.1已于几个月前发布，它引入了内存计算，这使得Hive计算性能得到极大提升，这将会影响SQL On Hadoop目前的竞争局面。据测试，其性能提高约26倍。 Apache Hive 2.1新引入了6大性能，包括：（1）LLAP。Apache Hive 2.0引入了LLAP（Live Long And Process），而2.1则对其进行了极大的优化，相比于Apache Hive 1，其性能提升约25倍；（2）更鲁邦的SQL ACID支持；（3）2X ETL性能提升。引入更智能

05

Sparkml库标签和索引之间转化

StringIndexer StringIndexer将一串字符串标签编码为一列标签索引。这些索引范围是[0, numLabels)按照标签频率排序，因此最频繁的标签获得索引0。如果用户选择保留它们，那么看不见的标签将被放在索引numLabels处。如果输入列是数字，我们将其转换为字符串值并将为其建索引。当下游管道组件（例如Estimator或 Transformer使用此字符串索引标签）时，必须将组件的输入列设置为此字符串索引列名称。在许多情况下，您可以使用设置输入列setInputCol。例1，假如

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭