假设我有一个df:
Name A
'John '
'John and Mary '
'Harry '
'Paul '
'Paul and Harry '
如何在不删除'John so...the Mary‘之间的空格的情况下,从每个dataframe值中删除尾随空格,新的df将如下所示:
Name A
'John'
'John and Mary'
'Harry'
'Paul'
'Paul and H
我有一个列中没有空格的数据帧,如下所示:
例如
time title
10:30 BridgeToTerabithia
11:30 ManOnALedge
12:30 Memento
我有实际电影片名的元数据
例如
title
Bridge To Terabithia
Man On A Ledge
Memento
如何能够将dataframe a中的数据与元数据进行匹配,使数据标题根据元数据具有实际的值,谢谢回答
我使用trimws(x)来修剪数据集中的空格。
就像excel中"find and replace“的输出一样,我想知道trimws做了多少工作;具体地说,就是从整个数据帧中删除了多少空白-主要是为了让我满意,但也可能会通过其他变量进一步对trimws所做的工作进行分组,以查看是否有任何模式可用于上游的空白区域。
示例:
x <- " Some text. "
trimws(x)
然后输出如下所示:
# trimws removed 1708 white space characters and 13 new line characters
第一个状态:住房,此数据框包含MultiIndex ( DataFrame,RegionName)和其他3列中的一些相关值。 State RegionName 2008q3 2009q2 Ratio
New York New York 499766.666667 465833.333333 1.072844
California Los Angeles 469500.000000 413900.000000 1.134332
Illinois
我有一个从Excel文件加载的数据帧。它与以下内容类似:
Gender Country Effect Use Products
Male UK 1 2 7
Female USA 2 4 6
Male Russia 3 5 2
Female China 4 2 3
Male China 3 1 6
Female USA 2 5 2
Male UK 3 3 1
Female Russia 4 1 7
我想计算每个国家的平均
提取到数据框中的API数据在几个注释单元格中包含空值。我最终希望将数据帧加载到csv文件中。当我将数据帧加载到csv时,注释中的空行被视为新行,因此在csv中给出了错误的行数。
数据帧:
Employee_id | Employeee_comments
---------------------------------------
1 | 1. This is test comment 1
| 2. This is test comment 2
|
| Comments above employee a
从包含字符串的数据帧中
df1 <- data.frame(col1 = c("Here is my text", "another effort of my text", "final effort of my text"))
并有第二个数据帧和其他词:
df2 <- data.frame(col2 = c("my", "text"))
如何从df1中删除df2中的单词?期望是什么:
data.frame(col1 = c("Here is ", "another effor
我有两个数据帧,我正在尝试连接,这两个数据帧应该是直接的,但我看到了一些异常行为。 数据帧A Name Sample Country Path
John S18902 UK /Home/drive/John
BOB 135671 USA /Home/drive/BOB
Tim GB12345_serum_63 UK /Home/drive/Tim
Wayne 12345_6789 UK /Home/drive/Wayne 数据帧B
我有Emp1数据帧的2个数据集的前5行的样本快照: Name
--------
John
Matt
Anish
Dave
Mike Emp2数据帧: Name
--------
Sue
Matt
Raj
Dave
Simon 我将两者连接在一起(为了以防万一,将它们转换为进程中的对象) Con=pd.concat(emp1.astype(str),emp2.astype(str))
Con
Name
-----
John
Matt
Anish
Dave
Mike
Sue
Matt
Raj
Dave
Simon 然而,出于某种原因,python似乎并不认为Matt和Dave是重复的 Con.
感谢帮助我在我的中对数据进行分组,我希望将R中的数据框做得更小,这样我就可以对数据进行时间序列分析。
现在,我想进一步从数据帧中提取数据。数据帧由6列组成。第1列到第5列都有离散的名称/值,例如地区、性别、年份、月份和年龄组。第六列是该特定组合的死亡计数。摘录如下所示:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2006 11 01-4 0
Northern Male 2006
我有一个数据帧的列表。我的列表中有28个数据帧。一些数据帧有空行,但不是全部。如何使用lapply或类似的函数从列表中的所有数据帧中删除空行?
下面是我从修改的尝试。不幸的是,这只返回那些空行。
#Get list of all files that will be analyzed
filenames = list.files(pattern = ".csv")
#read in all files in filenames
mydata_run1 = lapply(filenames, read.csv, header = TRUE, quote = ""
我被一个使用read_table()将我的数据加载到Pandas数据帧中的问题难住了。错误显示为TypeError: Cannot cast array from dtype('float64') to dtype('int32') according to the rule 'safe'和ValueError: cannot safely convert passed user dtype of int32 for float64 dtyped data in column 2
test.py:
import numpy as np
impor
我已经创建了很多数据帧作为预处理的一部分。由于我限制了6 6GB的内存,我想从内存中删除所有不必要的数据帧,以避免在scikit-learn中运行GRIDSEARCHCV时耗尽内存。
1)是否有一个函数可以只列出当前加载到内存中的所有数据帧?
我尝试了dir(),但它提供了许多数据帧以外的其他对象。
2)我创建了一个要删除的数据帧列表
del_df=[Gender_dummies,
capsule_trans,
col,
concat_df_list,
coup_CAPSULE_dummies]
范围(&R)
for i in del_df:
del (i)
但它不会删
我尝试使用str.extract()提取数据帧一行中的任何单词,但最终只得到了一个单词。例如,在我的数据帧的某一列中:
var1
THIS IS A STRING
当我使用:
df['words'] = df['var1'].str.extract('([A-Z]\w{0,})')
输出为
var1 words
THIS IS A STRING THIS
如何提取整个短语“THIS IS A STRING”?
谢谢!
我尝试使用希腊语的grep从数据帧中删除字符串。 df <- data.frame(freetext = c("Εδώ και αρκετό καιρό που συνεχίζουν","και τώρα που έγιναν"))
df <- df_text[!grepl("και|που", df),] 错误是 Error in `$<-.data.frame`(`*tmp*`, text, value = character(0)) :
replacement has 0 rows, data has 2 语言有
如果我需要搜索一个值是否存在于熊猫数据帧列中,该列有一个没有空格的名称,那么我只需执行如下操作
if value in df.Timestamp.values
如果列名是时间戳,这将有效。然而,我有很多数据,列名为“日期时间”。在这种情况下,如何使用if in语句?如果没有使用If in语句检查此值的简单方法,我是否可以以其他方式搜索值的存在?注意,我只需要搜索值的存在性。而且,这不是索引列。
谢谢您的意见。