腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为
大型
数据
集
汇总
数据
帧
中
的
列
pandas
、
dataframe
我有一个
数据
集
(大约200K行),它看起来像- timestamp,cell_id,crnti,enodeb_id,cqi,1603208435946,3,39063,21519,11603208435746,3,39065,21519,1,1603208435946,3,39065,21519,1, 我想以这种格式
汇总
所有记录(每个crnti) - cell_id,crnti,enodeb_id,cqi,dist
浏览 12
提问于2020-11-06
得票数 1
回答已采纳
2
回答
Pandas复杂GroupBy及其在机器学习
数据
集
上
的
应用
pandas
、
numpy
、
pandas-groupby
、
apply
我有一个用于机器学习
数据
集
的
数据
集
。下面列出了我
的
数据
帧
。123333 1111 1 2016 99999 2222 我
的
目标是
汇总
数据
集
,并将年作为列名
中
的
度量添加到整个
数据
帧</
浏览 14
提问于2019-09-24
得票数 0
回答已采纳
2
回答
pyspark
数据
帧
中所有
列
的
总计数
为
零
python
、
dataframe
、
pyspark
我需要找出pyspark dataframe中所有
列
中
0
的
百分比。如何在
数据
帧
中找到每一
列
的
零计数? 附言:我尝试过将
数据
帧
转换为pandas
数据
帧
,并使用了value_counts。但是,对于
大型
数据
集
来说,推断它
的
观察值是不可能
的
。
浏览 0
提问于2018-08-20
得票数 4
1
回答
Panda
的
合并返回空,看不到原因
python
、
pandas
、
join
、
merge
我有以下
数据
帧
:然后,我通过
列
'Dia‘
汇总
了值'Hp’,使用以下语法获得了以下
数据
集
:并获得以下时间序列(稍后我需要将to_frame()转换为合并):我想要做
的
是,将每天
的
汇总
值复制到与原始
数据
帧
匹配
的
每天(在那里,日期“
浏览 0
提问于2017-07-16
得票数 1
回答已采纳
1
回答
Pandas Dataframe:再一次就地与赋值相同
的
数据
帧
python
、
pandas
、
performance
、
dataframe
下面是从pandas
数据
帧
中
实际删除
列
的
两种方法。通过再次赋值给相同
的
变量。user = user.drop('gender' , axis = 1) 在处理
大型
数据
集
(
数据
文件大小
为
GB )时,哪种方法更有效?
浏览 0
提问于2018-11-10
得票数 0
2
回答
pandas read_csv内存消耗
python-3.x
、
pandas
、
memory
、
memory-management
、
out-of-memory
我正在阅读以csv格式存储
的
巨型熊猫( 18.1版本,特意) DataFrames (~总计30 GB)。但是,使用read_csv时,内存消耗会增长到初始csv
的
两倍。文件--> 60 GB。然而,这要慢得多,而且并没有真正减少内存
的
使用。我用4 GB
的
DataFrame试过了。在读取了DataFrame之后,该脚本仍然消耗了大约7 GB内存。下面是我
的
代码:
浏览 2
提问于2017-01-01
得票数 5
2
回答
在Pandas合并NULL值和colum2
中
,两
列
数据
类型都是object,并且只有很少
的
值在第一
列
为
colum1?
python
、
pandas
、
dataframe
数据
帧
有两
列
数据
帧
有两
列
col1 col2 B A C B D E E H这里两
列
都是对象类型,试图将
列
2
的
值与
列
1
的
值合并,其中
列
1
的
值
为
null。如何将其应用于
大型
<
浏览 20
提问于2020-02-05
得票数 0
2
回答
摘要命令不生成摘要统计信息
r
、
lm
、
summary
、
plm
summary(dataframe1)命令
为
我提供了该
数据
帧
的
汇总
统计信息,如max、min和NA
的
数目。类似地,summary(dataframe1$column1)
为
数据
框架内
的
特定变量(其
列
之一)提供了
汇总
统计信息。在我使用lm和plm运行一些回归之前,以及每当我试图通过dataframe1通过summary(dataframe1$column1)获取
数据
帧
浏览 20
提问于2022-02-28
得票数 0
回答已采纳
2
回答
获取列表
中
嵌套
数据
帧
的
汇总
统计信息
python
、
list
、
dataframe
我有一个
数据
帧
列表,我希望将该列表
中
每个
数据
帧
的
摘要统计信息返回到一个新
的
数据
帧
中
-能够选择每个初始
数据
帧
中
的
列
(值)来返回摘要统计信息。输出
数据
帧
中
的
每一行对应于初始列表
中
的
每个
数据
帧
浏览 8
提问于2019-09-14
得票数 0
回答已采纳
1
回答
快速刷新摘要
数据
以最大限度地减少停机时间
mysql
、
sql
、
performance
为了增加报告
的
响应时间,我创建了一个类似于物化视图
的
汇总
表。我还没有确定刷新
数据
的
频率,因为我仍然在决定如何实际交换
数据
。基于键更新
数据
不是当前结构
的
选项,因为每个记录都是从许多
列
的
不同组合
中
创建
的
,其中一些
列
可能为null。当涉及空值时,这会导致更新匹配多个行。
数据
库
中
的
数据
每天只更新一到两
浏览 0
提问于2012-04-06
得票数 1
回答已采纳
1
回答
python大熊猫无法显示
大型
数据
摘要
python
、
pandas
、
dataframe
、
data-analysis
最近我升级到了熊猫版本0.13,并且遇到了这样
的
问题:无论我
的
数据
集
有多大(最大
的
一个有25
列
和158430行),熊猫都会打印出整个
数据
格式(不是全部,每
列
只有几行,但仍然很乱!)而不是打印出
汇总
表,在这样大
的
数据
帧
的
情况下,
汇总
表要干净得多。我只是想知道是否有其他人有这个问题,或曾经有过这个问题,并知道如何解决它。 提前感谢!
浏览 3
提问于2014-02-12
得票数 2
回答已采纳
3
回答
如何对熊猫
中
具有布尔
数据
类型
的
变量执行.describe()方法
python
、
pandas
我试图获得
数据
帧
列
的
汇总
统计信息,
数据
类型
为
: Boolean。在这两种情况下,都不提供布尔
数据
类型
的
汇总</e
浏览 5
提问于2018-01-13
得票数 3
回答已采纳
1
回答
基于
列
与行
的
匹配
的
数据
帧
子集-R
r
我正在尝试基于匹配来自另一个
数据
帧
的
ID来子集一个
大型
数据
帧
。我读了下面这个问题
的
答案: *1* 3.21 6 *4* 7.9
浏览 1
提问于2014-10-09
得票数 0
1
回答
以最有效
的
方式对Pandas Dataframe进行排序和过滤
python
、
pandas
我想按列名'duration‘过滤,然后显示大于200
的
值。这只是
数据
集
的
一小部分。我有一个非常庞大
的
数据
集
。我可以使用dfdf.duration > 200。但是,这在整个
数据
帧
上运行。有没有什么方法可以专门针对
列
持续时间,然后过滤
数据
,只显示
列
持续时间,而不引入新
的
数据
帧
。另外,一些关于在
大型</em
浏览 24
提问于2021-04-17
得票数 0
1
回答
面积图中多变量
的
叠加方法
r
、
ggplot2
、
area
我想做一个面积图,显示三个变量(Vr,Hr和Ar)在具有7个稀释步骤
的
稀释序列(x = dil)上
的
平均演变。每个稀释有5个重复,我想将其总结为平均值。这三个变量表示变量M (Vr + Hr + Ar = M)
的
比例。所以我不想把比例加到100%,而是将每个变量
的
各个区域堆叠在一起,使其在顶部达到M(添加为一行)。如何在面积图中堆叠这三个变量
的
平均值,以显示每个稀释步骤
的
比例分布?stat_summary(aes(y = Vr, group = 1), fun= mean,
浏览 21
提问于2020-07-27
得票数 0
回答已采纳
1
回答
如何通过比较R
中
的
行来创建新
的
数据
集
r
、
join
、
merge
我有一个包含大约90个不同csv文件
的
大型
数据
集
,这些文件都是以这种格式构建
的
(每个大学都是这样): University | ArticleCode | Pages | Authors | year我得想出这个
数据
集
,它把按年发表
的
文章进行
汇总
。文章由ArticleCode唯一标识,因此如果两个不同
的
数据
集
在ArticleCode
列
中有相同
的
代
浏览 3
提问于2022-05-29
得票数 -1
2
回答
基于两个唯一标识符
的
多个
数据
帧
的
加法
r
、
function
、
dataframe
我有十个
数据
帧
,我想根据id和pnum将它们加起来。做这件事最好
的
方法是什么?
浏览 0
提问于2018-11-21
得票数 0
回答已采纳
1
回答
将plt.text()坐标设置
为
变量位置
python
、
matplotlib
我正在创建一个遍历
大型
数据
集
的
循环,以创建
数据
汇总
报告。我正在尝试使用文本框在直方图
的
顶部显示一些
汇总
统计
数据
,并且我希望文本框
的
右上角位于直方图
的
右上角。fontsize=10,plt.show() 我可以将x_coordinate变量设置
浏览 3
提问于2014-07-03
得票数 0
2
回答
R迭代
数据
帧
的
效率
r
、
dataframe
、
tidyverse
我正在处理一个
大型
数据
集
,我们将其命名为data,并希望创建一个新
列
,基于某个
列
data$input,我们将其命名为data$results。结果是基于一些条件if/then逻辑,所以我最初
的
方法是这样
的
: data$results <- if(data$results == "1" | data$results== "2") { trueAnswe
浏览 1
提问于2018-04-16
得票数 1
1
回答
如何为
大型
数据
集
在R
中
添加虚拟变量
r
、
dummy-variable
我有一个包含列名: ID和Property
的
大型
数据
集
。可能有几行共享相同
的
ID,这意味着一个ID具有许多不同
的
属性(分类变量)。我希望
为
属性添加虚拟变量,最后在每一行
中
获得一个ID不同
的
数据
帧
,并使用1/0指示它是否具有该属性。原始
数据
有200万行和10000个不同
的
属性。因此,理想情况下,我将通过组合相同
的
ID并添加虚拟变量
浏览 1
提问于2017-02-01
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何只用一行代码让 Pandas 加速四倍?
如何只用一行代码让Pandas加速四倍?
Python使用pandas使数据可视化笔记
pandas系列学习(五):数据连接
在也不用996!如何用Python轻松取代Excel
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券