腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >从数据集行中选择列

问从数据集行中选择列
EN

Stack Overflow用户

提问于 2019-10-22 10:33:59

回答 3查看 537关注 0票数 0

我想在Spark数据集上循环，并根据每行的特征将特定值保存在Map中。我是Spark和Scala的新手，所以我加入了一个简单的例子来说明我在python中要做的事情。

python中的最小工作示例：

mydict = dict()
for row in data:
    if row['name'] == "Yan":    
        mydict[row['id']] =  row['surname']
    else:
        mydict[row['id']] = "Random lad"

其中，data是org.apache.spark.sql.Datasetorg.apache.spark.sql.Row.类型的(大) spark数据集

你知道Spark或Scala的方式吗？

apache-spark

apache-spark-sql

scala

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-10-22 10:59:23

您不能遍历Dataset的内容，因为它们在运行此代码的机器上是不可访问的，而是分散在(可能有许多)不同的工作节点上。这是像spark这样的分布式执行引擎的基本概念。

相反，您必须在函数式( map、filter、reduce、... )中操作数据。操作传播到工作进程)或声明性(在工作进程上执行的sql查询)方式。

为了实现你的目标，你可以在你的数据上运行一个地图，检查名字是否等于"Yan“，然后从那里继续下去。在此转换之后，您可以collect您的数据帧并将其转换为字典。

您还应该检查使用Spark和映射的方法:您似乎希望在mydict中为data的每个元素创建一个条目。这意味着你的数据要么足够小，以至于你实际上不需要使用Spark，要么它可能会失败，因为它不适合你的驱动程序内存。

票数 1

Stack Overflow用户

发布于 2019-10-22 11:02:56

我想你就是在找这样的东西。如果你的最终df不是很大，你可以收集它并存储为map。

scala> df.show()
+---+----+--------+
| id|name|surrname|
+---+----+--------+
|  1| Yan|  abc123|
|  2| Abc|  def123|
+---+----+--------+


scala> df.select('id, when('name === "Yan", 'surrname).otherwise("Random lad")).toDF("K","V").show()
+---+----------+
|  K|         V|
+---+----------+
|  1|    abc123|
|  2|Random lad|
+---+----------+

票数 1

Stack Overflow用户

发布于 2019-10-22 11:03:40

这是一个简单的方法，但是要小心使用collect()，因为它会收集driver中的数据。数据应该能够适应驱动程序。

我不建议你这样做。

var df: DataFrame = Seq(
  ("1", "Yan", "surname1"),
  ("2", "Yan1", "surname2"),
  ("3", "Yan", "surname3"),
  ("4", "Yan2", "surname4")
).toDF("id", "name", "surname")

val myDict = df.withColumn("newName", when($"name" === "Yan", $"surname").otherwise("RandomeName"))
  .rdd.map(row => (row.getAs[String]("id"), row.getAs[String]("newName")))
  .collectAsMap()

myDict.foreach(println)

输出：

(2,RandomeName)
(1,surname1)
(4,RandomeName)
(3,surname3)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58502313

复制

用JavaScript创建神经网络的有趣教程，一定要让你知道！

java 神经网络 tensorflow 机器学习 git

【导读】本文中作者为初学者解释了如何使用 JavaScript 来搭建一个神经网络。不用担心，这不是一份深入介绍隐藏输入层、激励函数或如何使用 TensorFlow 的复杂教程，而是一次轻松实践。即使你不懂神经网络背后的深入内容，也可以完成这个简单又有趣的实践。

AI科技大本营

2018/09/28

6810

SpringBoot 2 要升级吗

java spring boot

首先是Java 语言，这门长期占据编程语言排行榜首位的语言到底有什么魔力？大家的看法是多种多样的，比如：

美码师

2019/03/18

1.5K0

多次差异分析难道就需要多个火山图吗

https 网络安全腾讯云开发者社区 go

但是多个分组的差异分析结果其实展现起来会有点考验大家的创造力，这一点，哪怕是CNS级别的文章也不见得做的很好，比如文章《A pathway coordinated by DELE1 relays mitochondrial stress to the cytosol》，链接是：https://www.nature.com/articles/s41586-020-2076-4

生信技能树

2021/07/29

1.5K0

值得探索的 8 个机器学习 JavaScript 框架

机器学习 java 编程算法线性回归

JavaScript开发人员倾向于寻找可用于机器学习模型训练的JavaScript框架。下面是一些机器学习算法，基于这些算法可以使用本文中列出的不同JavaScript框架来模型训练：

IT派

2018/07/30

8490

预训练模型还要训练吗_多模态预训练模型

容器镜像服务 pytorch bash bash 指令 python

# 1.进入已保存环境的镜像（reid_mgn:v1（8.48G）、pytorch/pytorch:1.0.1-cuda10.0-cudnn7-devel_mgnreid（6.37G））

全栈程序员站长

2022/11/08

6910

预训练后性能反而变差，自训练要取代预训练了吗？

图像识别监督学习

早在2018年底，FAIR的研究人员就发布了一篇名为《Rethinking ImageNet Pre-training》的论文，这篇论文随后发表在ICCV2019。该论文提出了一些关于预训练的非常有趣的结论。

AI科技评论

2020/07/23

1.2K0

github java 神经网络人工智能 https

不过，一般的开发者应该都不会用神经网络来实现异或的功能吧，所以这里有一个更加实际的例子：训练一个神经网络来识别颜色对比 https://brain.js.org/

AI研习社

2018/07/26

1.6K0

MongoDB 删库要跑路吗？

数据库 mongodb sql 云数据库 MongoDB 数据备份

在上一节，我们聊到了 MongoDB 5.x 副本集部署，这一节来聊聊副本集的数据备份。

数据库交流

2022/04/25

4240

算法训练和模型部署如何避免多次重写数据预处理代码

其他

前段时间，我们对接算法的工程师哭丧的和我说，模型生成后一般都要部署成API的形态对外提供服务，但是算法工程师并没有提供如何将一条数据转化特征向量的方法，他能拿到的是代码逻辑以及一些“中间元数据”。数据预处理本来就复杂，翻译也是一件极其困难的事情。我解释了这件事情难以解决的原因，但是显然他还是有些失望。

用户2936994

2018/08/27

1K0

算法训练和模型部署如何避免多次重写数据预处理代码

其他

用户1332428

2018/07/30

7640

入门 | 无需基础知识，使用JavaScript构建你的第一个神经网络

神经网络机器学习人工智能

选自ITNEXT 作者：Daniel Simmons 机器之心编译参与：程耀彤、李泽南随着新技术和新工具的出现，构建神经网络已不再是一件需要大量机器学习相关知识的工作了。本文将会教你以 JavaScript 库 Brain.js 为基础，构建并训练自己的神经网络。设定目标（如果你只想直接上手，请跳过这部分......）首先，本文作者还不是神经网络或机器学习方面的专家。坦率的说，我仍然对人工智能的大部分内容感到困惑。但希望这能够鼓励到正在读这篇文章，并急切想尝试机器学习的初学者们。机器学习是近年来

机器之心

2018/05/08

8600

【学术】不懂神经网络？不怕，一文教你用JavaScript构建神经网络

神经网络 java tensorflow javascript

AiTechYun 编辑：xiaoshan.xiang 本文的内容并不是关于神经网络的深度教程，在这里既不会深入研究输入层、激活函数的内部原理，也不会教你如何使用Tensorflow。它只是一个简单的，初学者级别的文章，这篇文章是关于如何实现Brain.js的浅显解释。开始以下是我们将要做的： 1.创建起始文件 2.想用神经网络做什么 3.设置Brain.js并找出如何处理训练数据和用户输入 4.收集一些训练数据 5.运行神经网络 6.用处如果你希望只下载此项目的工作版本，而不是按照文章进行操作，那么

AiTechYun

2018/04/19

7990

买个域名怎么买域名要备案吗

ICP备案域名注册网站

不管创建的公司有多小，都需要有一个网站来当公司的门头，将公司的形象表现在用户的面前。域名是做网站的基础也是必备虚拟品，虽然域名不像实物一样会被买断，但需要定时维护续费。有些小白在刚学会搭建网站的时候却不懂得如何上线，比如买个域名怎么买？

用户8739990

2021/08/06

25.5K0

你知道网络为什么要分层吗？

tcp/ip http

当你听到什么二层设备、三层设备、四层 LB 和七层 LB 中层的时候，是否有点一头雾水，不知道这些所谓的层，对应的各种协议具体要做什么“工作”？

网络技术联盟站

2020/09/14

1.5K0

用网卡计算，Mellanox这是要谋反吗?

网络安全硬件开发

按照这个思路， Mellanox在9月3日对外发布了ConnectX-6 Dx、BlueField-2两款芯片，对外称：新一代云Smart NIC和I/O 处理器 (IPU)解决方案。

用户5498443

2019/09/17

2.1K0

我要18K，能过吗？

java

介绍了最近的这个项目自己所负责的几个核心功能，重点讲了其中一个技术的选型和实现等。然而他并没有接着问我项目上的问题。

夕梦

2021/06/07

4360

on方法多次绑定会多次执行的解决方法

事件

当重复使用on方法为一个元素绑定事件时,这个事件不会覆盖而是会叠加; 例如 for(var i=0;i<5;i++) $('#test').on('click',function(){ console.log(1); }) 这样的话,只要点击test元素,将会在控制台生成5个1 解决方法为遇到这种情况需要在每次绑定事件之前，对该事件解绑，也就是 $(“#test”).off(“click”); ，off方法解绑。

仙士可

2019/12/18

1.1K0

Javascript 侵入机器学习？

机器学习 javascript

本文介绍了基于JavaScript的机器学习类库和框架，包括ConvNetJS、MXNetJS、Deeplearning.js、TensorFlow.js、Brain.js、Node-TensorFlow等，以及基于JavaScript的机器学习应用和性能问题。

AlgorithmDog

2017/12/29

9900

11 个Javascript机器学习库

java 机器学习人工智能神经网络 node.js

Brain.js是一个Javascript库，用于替代（现在已弃用的）“ 脑 ”库的神经网络，该库可与Node.js一起使用或在浏览器中使用（注释计算），并为不同任务提供不同类型的网络。以下是训练网络以识别色彩对比的演示。

IT派

2018/08/10

1K0

避免游标多次遍历

其他

游标在数据库领域被广泛使用，尤其是对于需要将SQL语句返回的数据集进行逐行处理的时候。这为数据处理提供了极大的便利性，然游标的不当使用从某种程度上而言会降低数据库的性能。下面的是一个来自生产环境的实际例子，由于使用了参数游标，所以引发了多次遍历。一、源代码

Leshami

2018/08/14

8660

相似问题

brain.js对neuralNetwork的正确训练

如何修复NaN在Brain.js中的训练错误？

SQL命令要执行多次吗？

如何从csv文件训练我的brain.js模型？

141

基于Brain.js神经网络模型的恢复训练

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问从数据集行中选择列
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

brain.js对neuralNetwork的正确训练

如何修复NaN在Brain.js中的训练错误？

SQL命令要执行多次吗？

如何从csv文件训练我的brain.js模型？

基于Brain.js神经网络模型的恢复训练

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从数据集行中选择列EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

brain.js对neuralNetwork的正确训练

如何修复NaN在Brain.js中的训练错误？

SQL命令要执行多次吗？

如何从csv文件训练我的brain.js模型？

基于Brain.js神经网络模型的恢复训练

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从数据集行中选择列
EN