我是新来的蟒蛇和熊猫。我必须读取几个csv文件,这些文件具有相同的列,并创建了一个结果dataFrame(它包含来自每个csv文件的所有行)。我试过了,但是当我打印dataframe时,它是打印空的DataFrame
栏:[]索引:[]
守则是:
def readCSV(dir):
list = getFilesInDir(dir) # my function which returns list of files.
dataframe = pandas.DataFrame()
for name in list:
df = pandas.read_csv(name)
我编写了一段代码,将DataFrame的部分连接到相同的DataFrame,以便按照某一列规范行的出现。
import random
def normalize(data, expectation):
"""Normalize data by duplicating existing rows"""
counts = data[expectation].value_counts()
max_count = int(counts.max())
for tag, group in data.groupby(exp
在使用熊猫读取.csv文件,然后使用rpy2包将其转换为R数据后,我使用一些R函数(也通过rpy2)创建了一个模型,现在我想将模型的摘要转换为pandas (这样我就可以将其保存为.csv文件或用于其他目的)。
我遵循了熊猫网站上的说明(来源:),以便找出答案:
import pandas as pd
from rpy2.robjects import r
import sys
import rpy2.robjects.packages as rpackages
from rpy2.robjects.vectors import StrVector
from rpy2.robjects imp
我是新来的达斯克,列被删除的方式让我感到困惑。我已经把一个csv文件读到了Dask数据文件中。那么假设我有这个:
print(len(columns_to_drop)) # There are 66
print(len(list(df.columns))) # The Dask columns before the drop
df.drop(columns_to_drop, axis=1).compute(). # Drop the columns
pd_df = df.compute() # Create a Pandas dataframe
print(pd_df.shape[1
我是python的新手,如何从dataframe中选择以_old结尾的列,并将B列作为最终输出?这是我的数据
import pandas as pd
import numpy as np
df1 = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
'B': 'james weker john mark jane der liv vam'.split(),
'C_old
我正在尝试用python脚本导入熊猫。
import pandas as pd
import numpy as np
但我的错误是:
Error from Scripts is : Script failed to run:
Error: [Traceback (most recent call last):
File "<string>", line 2, in <module>
ModuleNotFoundError: No module named 'pandas'
] (2604) (2603)
我在Cortex
今天早些时候,在一个用户的帮助下,我可以得到这个nobbie webscraping项目的工作。但最终的CSV只在一栏中包含了所有信息(附照片)。如何将每个类放在具有各自行的特定列中?
提前感谢各位。
代码:
from bs4 import BeautifulSoup
import pandas as pd
from selenium import webdriver
import pandas as pd
products=[] #List to store name of the product
prices=[] #List to store price of the pro
我需要创建一个空的数据框架来创建列,并在循环中填充SQL查询结果。
我的查询如下:
from sqlalchemy import create_engine
from sqlalchemy.sql import text
import pandas as pd
engine = create_engine('connection')
script = 'select * from table WHERE id=1111;'
query = text(script)
result = engine.execute(query)
rep = {"\\
我有一个带有一列整数和字符串标签的DataFrame。我想加入(概括地说)两个标签,而我替换新标签。
我的DataFrame是:
import pandas as pd
pd.DataFrame(data=np.array([1,2,3,4]), index=['a','b','c','d'], columns=['cost'])
cost
a 1
b 2
c 3
d 4
我想把它改成:
cost
a 1
b 2
c
我试图将数据帧值作为行追加,但将其作为列追加。我有32个文件,我想从(称为dataset_code)中获取第二列,并将其追加。但是它创建了32行和101列。我想要1列和3232行。
import pandas as pd
import os
source_directory = r'file_path'
df_combined = pd.DataFrame(columns=["dataset_code"])
for file in os.listdir(source_directory):
if file.endswith(".csv&
我想使用熊猫过滤器删除包含字符串"delta“的列。
示例dataframe:
import pandas as pd
df = pd.DataFrame(dict(x=[1], x_delta=[2]))
我想删除包含字符串增量的所有列。请记住,dataframe可能有更多的列,这必须是通用的。我正在考虑使用过滤器方法,但我不能正确地做否定。
谢谢你的帮忙!
这对我没有用:
def not_delta(df):
"""Drop the columns that contain the word delta"""
retu
我正在研究Wes的Python For Data Analysis,我遇到了一个奇怪的问题,这本书中没有提到这个问题。
在下面的代码中,基于他书的第199页,我创建了一个dataframe,然后使用pd.cut()创建了cat_obj。根据这本书,cat_obj是
“一个特殊的分类对象。您可以把它当作表示bin名称的字符串数组;在内部,它包含一个表示不同类别名称的级别数组,以及标签属性中年龄数据的标记。”
太棒了!但是,如果我使用完全相同的pd.cut()代码(在下面5节中)来创建dataframe的一个新列(称为df['cat']),那么该列将不是一个特殊的分类变量,
我正在尝试用python将一堆xlsx文件合并成一个单一的pandas数据帧。此外,我还想包含一个列,它列出了每一行的源文件。我的代码如下:
import pandas as pd
from pandas import ExcelWriter
from pandas import ExcelFile
import glob
import os
# get the path for where the xlsx files are
path = os.getcwd()
files = os.listdir(path)
files_xlsx = [f for f in files if f[-4
函数,该函数创建带有群集号
列的DataFrame
def pd_centers(featuresUsed, centers):
colNames = list(featuresUsed)
colNames.append('prediction')
# Zip with a column called 'prediction' (index)
Z = [np.append(A, index) for index, A in enumerate(centers)]
# Convert to pandas data fra
我希望将一个dataframe写入现有的sqlite (或mysql)表中,有时dataframe会包含数据库中尚未存在的新列。我需要做些什么来避免抛出错误?有没有办法告诉pandas或sqlalchemy使用潜在的新列自动扩展数据库表?
sqlalchemy.exc.OperationalError: (sqlite3.OperationalError) table match_exact_both has no column named ....