我想把这两列分成两列,因为Excel提取函数占用了太多的时间,我想我可以用Python和Jupyter Notebook来做,使用Pandas。但我以前并没有这样做过,通常我已经处理过数据,所以我有困难。
我试着使用excel,但它总是花费很长时间。
+---------------------+----------------------+-----------------+
| date + hour | date only | hour only |
+---------------------+---------------------
作为一名语言学家和python初学者,我希望在我自己的(德语)tweet语料库中找到单词搭配。如何将pandas dataframe (只有一列= tweet)中的tweet转换为单词列表,以便能够使用nltk-collocation-finder?我的版本(如下)创建了一个字母列表,而不是单词列表,只给出了字母搭配。任何建议都是很棒的!
这就是我到目前为止所知道的:
import pandas as pd
data = pd.read_csv("tweets.csv")
import regex as re
def cleaningTweets(twt):
twt
我有一些地址数据,比如:
Address
Buffalo, NY, 14201
Stackoverflow Street, New York, NY, 9999
我想把它们分成几个栏,比如:
Street City State Zip
NaN Buffalo NY 14201
StackOverflow Street New York NY 99999
本质上,我希望在结果的每一列中将字符串转换为1。
使用Pandas,我知道我可以拆分列如下:
import pandas as
我在python中有一个pandas Dataframe,它有一个名为"Description“的列,其中包含一组由"\n”分隔的文本元素。我想通过拆分文本元素在相同的Dataframe中创建新列。例如,我有: Description
'\nA: Elephant\nB: Cats\nC:Dog' 我想用关联的元素获得相应的列数,如下所示: Description A B C
'\nA: Elephant\nB: Cats\nC:Dog' Elephant
我有一个包含多个列的pandas数据帧,其中一个是我使用split命令拆分成列表的字符串:
import Pandas as pd
csvRead = pd.read_csv('../data/Data.csv')
df = pd.DataFrame(csvRead)
df['split_string'] = df['string'].str.split(r'[ ]')
idx = 0
for i in df['split_string']:
d
我有一个pandas数据框,它的一个列包含一些字符串。我想根据字数将该列拆分成未知数量的列。 假设我有DataFrame df: Index Text
0 He codes
1 He codes well in python
2 Python is great language
3 Pandas package is very handy 现在,我想将text列划分为多个列,每个列包含2个单词。 Index 0 1 2
0
我正在使用pandas,试图通过将列(团队)分成Home和Away来实现文本到列的转换,但我得到了以下错误:
"ValueError: Columns must be same length as key"
我能够拆分分数列,因为它只有一个分隔符-,这很容易。不确定如何拆分团队列,因为我试图将空格“”与“v”字符一起使用。任何帮助都将不胜感激。谢谢。
df = pd.read_excel('esports.xlsx')
#df.head()
#df[['score','oscore']] = df.Score.str.spli
我有一个标签,其中有一列(标题为‘pandas dataframe’)包含一个列表中的逗号分隔值字符串:
name title labels
John III ['ABC, DEF, GHI']
我想创建新行,在每个逗号处分隔列表,并复制所有其他列的数据(名称、标题等):
name title labels
John III ['ABC']
John III ['DEF']
John III ['GHI']
使用explode的应该可以工作,但是pandas将我的列解释为对象。我试图将该列转换为一个字符串:df[
我已经将我的stopword.txt文件导入python,如下所示:
stopword = [line.rstrip() for line in open('gdrive/My Drive/stopword.txt')]
并试图从我的pandas数据框列中删除停用词:
train['text'] = [i for i in train['text'].str.split() if i not in stopword]
代码运行良好,但停用词仍然存在。我的代码出了什么问题?
我有一个名为df的文件,如下所示:
Size ID File
500 TB A 200 TB
200 TB B 100 TB
600 TB C 300 TB
与文本一起的数值(总是'TB' )在一列中。我将如何转换它并从两列中移除“TB”文本以给出所需的输出:
Size ID File
500 A 200
200 B 100
600 C 300
这就是我要做的:
import numpy a
我将根据下面的简单例子,尝试表达我的问题。我有以下的主csv,我试图分裂成2个或更多的csv基于列标题,保持唯一的列id在每个csv文件完整。
下面是我正在试图找出的代码,但并不完全得到结果。
import pandas as pd
df = pd.read_csv('abc.csv')
df[['id','name','age']] = df['csv1'].str.split(' ', expand=True)
csv
id name age co
我试图:
通过CSV文件目录的循环将文件名作为新列追加到每个中,每个文件都添加到单个主文件中
但是当我将绝对路径转换回相对路径时,我会陷入第3步,因为我的输出看起来像../../../../Desktop/2018.12.31.csv,而我只是希望它是2018.12.31。
例如,假设目录包含两个文件:2018.12.31.csv和2018.11.30.csv。
2018.12.31.csv
A B
1 2
2018.11.30.csv
A B
3 4
在运行我的程序之后:
import os
import pandas as pd
folder = ('/Users/user/De