开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

dplyr unnest()不适用于以逗号分隔的大数据

dplyr是R语言中一种常用的数据处理包，提供了一系列函数用于数据转换、筛选和汇总等操作。其中，unnest()函数用于将列表或嵌套的向量拆分为独立的行，以便更方便地进行数据分析和处理。

然而，对于以逗号分隔的大数据，dplyr的unnest()函数并不适用。原因是unnest()函数适用于列表或嵌套向量的拆分，而不适用于以逗号分隔的大型数据。

对于以逗号分隔的大数据，一种更适合的处理方法是使用其他工具或技术，比如使用SQL数据库中的字符串分割函数、编写自定义的R函数或使用其他专门针对大数据的数据处理工具。以下是一些可能的解决方案：

SQL数据库：如果数据存储在SQL数据库中，可以使用数据库中的字符串分割函数（如MySQL中的SUBSTRING_INDEX()函数或PostgreSQL中的string_to_array()函数）将逗号分隔的数据拆分为独立的行，然后使用dplyr进行进一步的数据处理。
自定义函数：可以编写自定义的R函数来处理以逗号分隔的大数据。例如，可以使用strsplit()函数将字符串按逗号分割为向量，然后使用lapply()函数对每个向量进行操作，并将结果合并为一个数据框。
大数据处理工具：对于大规模数据处理，可以考虑使用专门的大数据处理工具，如Apache Spark、Hadoop、Apache Flink等。这些工具提供了分布式计算和处理大规模数据的能力，并提供了相应的API和函数用于数据处理和分析。

总之，对于以逗号分隔的大数据，dplyr的unnest()函数并不适用。需要根据实际情况选择合适的工具或方法进行数据处理和分析。

相关搜索:Grok模式-用于逗号分隔的数据以逗号分隔为不同列的多个数据以逗号分隔的单行中的多行数据(Oracle)使用Razor @Html.DisplayFor显示以逗号分隔的数据列表如何使用vb.net中的查询在MS ACCESS数据库中拆分以逗号分隔的字符串数据类型如何在Oracle中创建查询以获取一行中以逗号分隔格式的多行数据将多选值从drowpdown发送到数据库(以逗号分隔)，现在希望再次以选项的形式接收数据正则表达式以获取逗号分隔值之间的数据正则表达式，用于将由逗号分隔的字符串替换为pandas数据帧中的sum 正则表达式，用于标识确定用户、以逗号分隔的值的字符串

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

「R」数据汇总时自动生成多列

下面的代码和数据源主要来自：https://stackoverflow.com/questions/51063842/create-multiple-columns-in-summarize，以计算分位数为例。

02

30s到0.8s，记录一次接口优化成功案例！

在高并发的数据处理场景中，接口响应时间的优化显得尤为重要。本文将分享一个真实案例，其中一个数据量达到200万+的接口的响应时间从30秒降低到了0.8秒内。这个案例不仅展示了问题诊断的过程，也提供了一系列有效的优化措施。

01

手把手教你用R语言读取CSV文件

读取CSV文件最好的方法是使用read.table函数，许多人喜欢使用read.csv函数，该函数其实是封装的read.table函数，同时设置read.table函数的sep参数为逗号(",")。read.table函数返回的结果为data.frame。

02

35. R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

假设数据以 tibble 格式保存。数据集如果用于统计与绘图，需要满足一定的格式要求，(Wickham, 2014) 称之为整洁数据 (tidy data)，基本要求是每行一个观测，每列一个变量，每个单元格恰好有一个数据值。这些变量应该是真正的属性，而不是同一属性在不同年、月等时间的值分别放到单独的列。

03

从XML、JSON到YAML，为什么数据传输格式总是变？

XML（Extensible Markup Language）起源于1996年，由W3C（万维网联盟）发布。作为早期的数据交换格式，XML设计用于结构化文档的编码和交换。XML的主要优势在于其良好的自描述性和可扩展性，这意味着它可以根据需要定义新的标签，非常适合跨平台、跨语言的数据交换。然而，XML的缺点也很明显：它通常比较冗长，解析效率较低，不适合大规模数据的快速传输和处理。

02

标签系统的数据存储方案设计思考与梳理

说明：下面所说的存储都是指在MySQL上的存储，暂时不考虑mongodb、ES这些，毕竟引入新的数据库，会让系统更加复杂。

01

从入门到精通，全球20个最佳大数据可视化工具

数据可视化之初级篇零编程工具 1. Tableau Tableau 是一款企业级的大数据可视化工具。Tableau 可以让你轻松创建图形，表格和地图。它不仅提供了PC桌面版，还提供了服务器解决

04

全球20个最佳大数据可视化工具，高级PPTers的法宝

Tableau 是一款企业级的大数据可视化工具。Tableau 可以让你轻松创建图形，表格和地图。它不仅提供了PC桌面版，还提供了服务器解决方案，可以让您在线生成可视化报告。服务器解决方案可以提供了云托管服务。Tableau的客户包括巴克莱银行，Pandora和Citrix等企业

04

R数据科学整洁之道：使用 tibble 实现简单数据框

tibble 是一种简单数据框，它对传统数据框的功能进行了一些修改，其所提供的简单数据框更易于在 tidyverse 中使用。

01

Python入门（10）

元组（tuple）和列表（list）很相似，但是，列表允许并且提供了方法来改变它的值，而元组是不可改变的，即不允许你改变它的值，这应该也是它没有方法的部分原因。所以，有人把它称作“带了紧箍咒的列表”。

03

手把手教你用 R 语言分析歌词

翻译 | 刘朋 Noddleslee 程思婕余杭整理 | 凡江

03

SQL优化案例-使用with as优化Subquery Unnesting（七）

使用 no_unnest hint可以让执行计划产生filter，即不展开，但一般情况下使用unnest hint无法消除filter。

04

tidyHeatmap | 顶刊SCI热力图绘制工具，用它就对了~~

今天介绍的可视化内容是关于如何快速、便捷的绘制「热力图」，使用到的工具为-「tidyHeatmap」。

01

从一件数据清洗的小事说起

本期“大猫的R语言公众号”由“村长”供稿。村长，数据科学、指弹吉他及录音工程爱好者，浙大金融学博士在读，在data.table包和MongoDB的使用上有较多经验。

01

读CSV和狗血的分隔符问题，附解决方法！

使用pandas读入csv文件后，发现列没分割开，所以将sep参数调整为\t，发现还是没分割开，再试空格，再试\s+，即各种空白字符组合，有几例能分隔开，但是还有些列无法分割开。

02

R语言 | R基础知识

使用install.packages()函数来安装包，括号中写上要安装的包的包名。以安装ggplot2包为例：

01

数据预处理技术研究 | 冰水数据智能专题 | 1st

数据预处理是数据挖掘的重要一环，要使挖掘方案挖掘出丰富的知识，就必须为它提供干净、准确、简洁的数据。然而实际应用系统中收集到的原始数据是“脏”的，不完全的、冗余的和模糊的，很少能直接满足数据挖掘算法的要求。在海量的实际数据中无意义的成分也很多，严重影响了数据挖掘算法的执行效率，其中的噪声干扰还会造成无效的归纳。预处理已经成为数据挖掘系统实现过程中的关键问题。

03

tsv文件在大数据技术栈里的应用场景

是的，\t 是指制表符（tab），它通常用作字段分隔符在 TSV（Tab-Separated Values）格式的文件中。TSV是一种简单的文本格式，它使用制表符来分隔每一列中的值，而每一行则代表一个数据记录。

00

刚发现了 Hive 超赞的解析 Json 数组的函数，分享给你~

大数据的 ETL(Extract-Transfer-Load) 过程的 Transfer 阶段，需要对 json 串数据进行转换“拍平”处理。

01

Apache Kafka - 安装注意事项

在现代的大数据时代，消息队列成为了极为重要的组件。Kafka作为一种高吞吐量、低延迟、可扩展的分布式发布订阅消息系统，在大数据领域得到了广泛的应用。来，这里我们将介绍如何安装Kafka以及一些配置注意事项。

04

Oracle 大数据量导出工具——sqluldr2 的安装与使用

近期在做一些国产数据库的 POC 工作，在数据迁移导出时用到了数据导出工具 sqluldr2，它是一款十分不错的 oracle 数据导出工具，还支持导出时同时生成 sqlldr 的控制文件,它可以将数据以 TXT/CSV 等格式导出，能导出亿级数据为 excel 文件，包含32、64 位程序，不仅在大数据量导出方面速度超快，导入速度也是非常快速。

03

【数据库设计和SQL基础语法】--查询数据--聚合函数

聚合函数是一类在数据库中用于对多个行进行计算并返回单个结果的函数。它们能够对数据进行汇总、统计和计算，常用于提取有关数据集的摘要信息。聚合函数在 SQL 查询中广泛应用，包括统计总数、平均值、最大值、最小值等。

01

【数据库设计和SQL基础语法】--查询数据--聚合函数

聚合函数是一类在数据库中用于对多个行进行计算并返回单个结果的函数。它们能够对数据进行汇总、统计和计算，常用于提取有关数据集的摘要信息。聚合函数在 SQL 查询中广泛应用，包括统计总数、平均值、最大值、最小值等。

01

数据太大？你该了解Hadoop分布式文件系统

1、联网设备增加数据量随之上升大数据时代来了。当所有人都争吵着这件事情的时候，当所有企业都看好大数据的发展前景的时候，却都很少关注这些数据从哪儿来，我们有没有足够优秀的技术能力处理这些数据。　　联网设备增加数据量随之上升　　网络的发展无疑为我们迎接大数据时代、智能计算时代铺好了路。根据研究公司的预测，全球联网设备正在增加，在部分国家，人均联网设备早已超过2台;如此大量的联网设备和不断提高的网络速度都在让社会的数据量快速增长，智慧城市、平安城市的实现也是以视频监控等视频数据为基础，成为大数据时

06

Mybatis02动态sql和分页

2.2 使用{...}代替#{...}（不建议使用该方式，有SQL注入风险）关键：#{...}与{...}区别？参数类型为字符串，#会在前后加单引号[']，

02

Sparklyr与Docker的推荐系统实战

作者：Harry Zhu 链接：https://zhuanlan.zhihu.com/p/21574497 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。相关内容：

01

数据分析小结：使用流计算 Oceanus(Flink) SQL 作业进行数据类型转换

作者：吴云涛，腾讯 CSIG 高级工程师在这个数据爆炸的时代，企业做数据分析也面临着新的挑战, 如何能够更高效地做数据准备，从而缩短整个数据分析的周期，让数据更有时效性，增加数据的价值，就变得尤为重要。将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程（即 ETL 过程），则需要开发人员则需要掌握 Spark、Flink 等技能，使用的技术语言则是 Java、Scala 或者 Python，一定程度上增加了数据分析的难度。而 ELT 过程逐渐被开发者和

02

后端返回给前端的数据格式有哪些？

后端返回的数据格式有很多种，常见的包括JSON、XML、HTML、CSV等。这些格式各有特点，适用于不同的应用场景。

01

MADlib——基于SQL的数据挖掘解决方案（18）——回归之稳健方差

Robust Variance模块中的函数用于计算线性回归、逻辑回归、多类逻辑回归和Cox比例风险回归的稳健方差（Huber-White估计）。它们可用于计算具有潜在噪声异常值的数据集中数据的差异。此处实现的Huber-White与R模块“sandwich”中的“HC0”三明治操作完全相同。

01

Adblock Plus插件过滤介绍

整理自官方规则 AdBlock Plus 过滤规则介绍基本过滤规则最简单的过滤规则当然就是您想阻挡的横幅广告地址，但是这些地址常常会在您每次打开页面时改变。例如： http://example.com/ads/banner123.gif，其中 123 是一个随机数字。在这里阻挡整个图片地址是没用的，您需要创建一条更通用的过滤规则 —— 如 http://example.com/ads/banner*.gif。或者更为通用一些的，如 http://example.com/ads/*。注

00

【JMeter-3】JMeter参数化4种实现方式

什么是参数化？从字面上去理解的话，就是事先准备好数据（广义上来说，可以是具体的数据值，也可以是数据生成规则），而非在脚本中写死，脚本执行时从准备好的数据中取值。

04

PowerDesigner应用02 逆向工程之导出PDM文件前过滤元数据(表、视图、存储过程等)

在上一篇文章《PowerDesigner应用01 逆向工程之配置数据源并导出PDM文件》步骤二中导出了目标数据库对应的PDM文件，

01

胖子哥的大数据之路（二）- 大数据结构化数据存储应用模式

胖子哥是我网名，叫了很多年的网名，网名的来历与自己的沧桑和身材有关，不知是IT改变了我，显得苍老，还是我本就苍老，顺应了IT行业的需要。25岁那面，曾被跟我一样高的漂亮美眉叫叔叔，从此再也不敢打小姑娘的注意，走上了重口味热爱阿姨级别女性的不归路；曾被三十五、六岁的同事阿姨说苍老：看你也就三十五六吧，那年我25；周一的时候，还有一个60后的同事问及我的年龄，他很含蓄的，明显带着保留的口吻问我：你是75年的吧？因为他一直认为和我一般大。然后...然后泪奔。关于体型方面也是个悲剧、三围相等，体重大于身高的角色，算是已经胖出了一定层次，每次听到别人叫我胖子，就感觉小小的自尊多少受到了伤害，然后就给自己在后面加了一个哥子，算是给自己遮半张脸吧。闲话就聊到这里，还是继续胖子哥的大数据之路吧，这次要谈的还是数据仓库。

02

R入门？从Tidyverse学起！

很多人推荐《R语言实战》这本书来入门R，当然，这本书非常不错，我也是通过这本书开始接触的R。这种入门的学习路径属于base R first，学习的流程基本是先了解变量的类型、数据的结构，再深入点就会学到循环与自定义函数。有些类似于先认识编程，再按照数据处理、可视化、统计分析等应用方向开始下一个学习的旅程。

03

好习惯！pandas 8 个常用的 option 设置

通过pandas的使用，我们经常要交互式地展示表格（dataframe）、分析表格。而表格的格式就显得尤为重要了，因为大部分时候如果我们直接展示表格，格式并不是很友好。

01

Hive SQL 常用零碎知识

比如event_value是一个json格式的字段，然后想获取里面的id作为单独一列

06

【MySQL】基础实战篇(3)—九大储存引擎详解

InnoDB是mysql默认事务型引擎，它被设计处理大量短期事务。可以确保事务的完整提交和回滚。除了增加和查询外，还需要更新，删除操作等优先选用InnoDB引擎 InnoDB是为处理巨大数据量的最大性能设计。相对于MyISAM存储引擎来说，InnoDB的处理效率差一些并且会占用更多的磁盘空间以保存数据和·索引。 MyISAM存储引擎只缓存索引，不缓存真实数据，InnoDB不仅缓存索引，而且还要缓存真实数据，对内存要求较高。而且内存大小对性能有绝对性影响。

03

JMeter参数化4种实现方式「建议收藏」

什么是参数化？从字面上去理解的话，就是事先准备好数据（广义上来说，可以是具体的数据值，也可以是数据生成规则），而非在脚本中写死，脚本执行时从准备好的数据中取值。

02

文本挖掘和情感分析的基础示例

经过研究表明，在旅行者的决策过程中，TripAdvisor（猫途鹰，全球旅游点评网）正变得越来越重要。然而，了解TripAdvisor评分与数千个评论文本中的每一个的细微差别是很有挑战性的。为了更彻底地了解酒店客人的评论是否会影响酒店的加班表现，我从TripAdvisor截取了一家酒店 – 希尔顿夏威夷度假村（Hilton Hawaiian Village）的所有英语评论（Web抓取的细节和Python代码在文末）。

01

大数据平台的比较和选择：Hadoop、Spark和Flink的优缺点与适用场景

在大数据处理领域，选择合适的大数据平台是确保数据处理效率和性能的关键。Hadoop、Spark和Flink是三个备受关注的大数据处理框架，本文将深入比较它们的优缺点，并为读者提供在不同场景下的选择建议。

01

2023.4生信马拉松day5-文件读写

注：文件读取是R语言里数据框的来源之一；表格文件读到R语言之后得到一个数据框，对数据框的操作和修改是不会同步到表格文件的；

06

【BBF系列协议】TR-106 CWMP端点和USP代理的数据模型模板

TR-106规定了所有CWMP[7]端点和USP代理[11]应遵循的数据模型指南。这些指南包括数据层次结构要求、数据模型的版本控制以及定义概要文件的要求。此外，TR-106定义了尽可能体现这些准则的XML模式，以及其用于定义所有CWMP和USP数据模型。这使得数据模型定义严格，并有助于减少不同实现将解释数据模型的危险以不同的方式定义。

01

给数据科学家的10个提示和技巧Vol.4

原文：10 Tips And Tricks For Data Scientists Vol.4[1]

04

54个提高PHP程序运行效率的方法

1.在可以用file_get_contents替代file、fopen、feof、fgets等系列方法的情况下，尽量用 file_get_contents，因为他的效率高得多!但是要注意file_get_contents在打开一个URL文件时候的PHP版本问题;

03

浅析R语言的优势和缺点

R编程语言在数字分析与机器学习领域已经成为一款重要的工具。随着机器逐步成为愈发核心的数据生成器，该语言的人气也必然会一路攀升。不过R语言当然也拥有着自己的优势与缺点，开发人员只有加以了解后才能充分发挥它的强大能力。 R语言的优势正如Tiobe、PyPL以及Redmonk等编程语言人气排名所指出，R语言所受到的关注程度正在快速提升。作为一款诞生于上世纪九十年代的语言，R已经成为S统计编程语言的一类实现方式。已经拥有十八年R编程经验的高校教授兼Coursera在线平台培训师Roger Peng指出，“R

07

Apache Kudu 对频繁更新数据场景下的大数据实时分析最佳用例

由于最近两次在大数据项目中使用Apache Kudu,写一篇文章谈谈对Kudu的一些看法和使用心得。

03

数据分析之20个大数据可视化工具推荐

Tableau 是一款企业级的大数据可视化工具。Tableau 可以让你轻松创建图形，表格和地图。它不仅提供了PC桌面版，还提供了服务器解决方案，可以让您在线生成可视化报告。服务器解决方案可以提供了云托管服务。

04

SQL谓词 FOR SOME

FOR SOME谓词允许根据表中一个或多个字段值的布尔条件测试来决定是否返回记录。如果fieldcondition计算结果为true，则返回记录。如果fieldcondition计算结果为false，则不返回记录。

03

深入探究HDFS：高可靠、高可扩展、高吞吐量的分布式文件系统【上进小菜猪大数据系列】

在当今数据时代，数据的存储和处理已经成为了各行各业的一个关键问题。尤其是在大数据领域，海量数据的存储和处理已经成为了一个不可避免的问题。为了应对这个问题，分布式文件系统应运而生。Hadoop分布式文件系统（Hadoop Distributed File System，简称HDFS）就是其中一个开源的分布式文件系统。本文将介绍HDFS的概念、架构、数据读写流程，并给出相关代码实例。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭