下面的代码读取一列(名为"First")并查找字符串"TOM“。 我想要遍历文件中的所有列(而不仅仅是“第一”列)-我想做一些类似excelFilei的事情,其中i和j被设置在一个循环中,但这不起作用。有什么想法吗? import pandas as pd
from pandas import ExcelWriter
from pandas import ExcelFile
import re
excelFile=pd.read_excel("test.xls")
for i in excelFile.index:
match=re.match(&
我正在尝试从pandas dataframe中列的行中的字符串数据中仅提取文本部分到新列中。 当我尝试这样的东西时: import pandas as pd
import re
df = pd.DataFrame({"Id": [1,2] , "Text" : ["This is 20/06/2019; 00:13:45; Time stamp", "This is another 23/04/2019 11:23:35 Time stamp"]})
print(df) 我得到了一个数据帧,如下: Id
我在Windows10中运行Python 3.6。
我使用的是这里的训练数据:
我试着计算一列的模式。我的代码是:
from scipy.stats import mode
import pandas as pd
data = pd.read_csv('Loan3_train.csv')
mode(data['Gender'])[0]
This returns a warning and an exception:
C:\ProgramData\Anaconda3\lib\site-packages\scipy\stats\stats.py:253: Ru
我使用pandas,我有一个有数字的列,但是当我检查数据类型时,我得到的列是一个对象。我认为该列中的一行实际上是一个字符串。我怎样才能知道哪一行是字符串呢?例如:
Name A B
John 0 1
Rich 1 0
Jim O 1
Jim在A列有字母"O“而不是0。如果我有数千行,我可以在pandas中使用什么来查找哪一行包含字符串而不是数字?在本例中,我使用了字母O,但它可以是任何字母,真的。
当从两个现有列创建新列时,为什么pandas要抛出一个SettingsWithCopyWarning
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
跑步时
df['c'] = df['a'] - df['b']
但跑的时候不行
df.c = df['a'] - df['b']
此外,c列是使用df['c'
我正在尝试将引号“”中的所有单词替换为大写单词,除了pandas列中单词"then“后面的单词:例如:
0 There was a "quick" "brown" fox who "jumped" over the wall then "fell" and broke its "tooth"
输出应为:
0 There was a "QUICK" "BROWN" fox who "JUMPED" over the wall then "fell"
下面有类似于SampleDf数据的数据。我试图在我的dataframe的一列中检查值,看看它们是否包含“sum”、“count”或“Avg”,然后创建一个值为“sum”、“count”或“Avg”的新列。当我在我的真实数据文件上运行下面的代码时,我会得到下面的错误。当我在真实的dataframe上运行dtype时,它说所有的列都是对象。下面的代码与下面的职位有关。不幸的是,当我在我提供的SampleDf上运行代码时,我没有得到相同的错误,但是我无法发布我的全部数据。
帖子:
Code:
SampleDf=pd.DataFrame([['tom',"Avg(case w
将pandas.to_numeric应用于包含表示数字的字符串(可能还有其他无法解析的字符串)的dataframe列将导致如下错误消息:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-66-07383316d7b6> in <module>()
1 for column in
我试图使用列表理解来编辑基于部分字符串匹配的列表。我需要用group替换df列中包含L的所有元素。
['Left' if x.str.contains('L') else x for x in df['group']]
它不允许我应用str.contains或'L' in x。对于后者,它说argument of type 'float' is not iterable
欢迎提出任何建议。
编辑:添加数据
import pandas as pd
df=pd.DataFrame()
df['group'
给定具有单列Text的Text
Text
0 chest pain nstemi this 84-year old man present on 26/5 with
chest pain associate with profuse sweating and nausea
我想要创建两个新列,其中包含为以前的DataFrame生成的unigram和bigram。
这是我用来生成ngram的方法:
def generate_ngrams(self, s, n):
# Convert to lowerca
我本质上想要这样的东西:
A B C D
1 v v v
2 v v v
3 v v
其中:
行1有A、B和D列的值,但没有列C
第2行有A、C和D列的值,但没有B列
行3有B和C列的值,但没有A和D列。
作为一个背景,我将直接从Dynamo DB检索行到Pandas Dataframe中,因为Dynamo中的每一行本质上都是一个单独的JSON对象,因此我经常会遇到上述情况。我的一些熊猫函数调用在KeyError中失败了,因为这个专栏甚至不存在。我想要重现这种局面,这样我就能找到一种更优雅地处理它的
我是python的新手,如何从dataframe中选择以_old结尾的列,并将B列作为最终输出?这是我的数据
import pandas as pd
import numpy as np
df1 = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
'B': 'james weker john mark jane der liv vam'.split(),
'C_old