如何将文件夹中的多个ann文件(从brat注解)读取到一个pandas数据帧中？_如何将文件夹中的多个xlsx文件读取到pandas数据帧中_将多个文件夹和子文件夹中的多个excel文件合并为一个pandas数据帧。 - 腾讯云开发者社区

python、pandas、dataframe、nlp、brat

我可以将一个ann文件读入pandas dataframe，如下所示： df = pd.read_csv('something/something.ann', sep='^([^\s]*)\s', engine='python', header=None).drop(0, axis=1) df.head() 但我不知道如何将多个ann文件读取到一个pandas数据帧中。我尝试使用concat，但结果并不是我所期望的。如何将多个ann文件读入一个pandas数据帧？

浏览 6提问于2021-08-16得票数 0

回答已采纳

1回答

使用BRAT创建和训练OpenNlp模型？

java、opennlp、brat

我可能需要为OpenNLP创建一个自定义培训集，这将需要我手动注释很多条目。为了让事情变得更简单，GUI解决方案可能是最好的主意(手动编写注释标记--这并不酷)，而且我刚刚发现BRAT看起来像我所需要的。 BRAT可以导出带注释的文件(.ann)，但我在中找不到对该文件类型的任何引用，我也不确定这是否有效。我想要做的是从BRAT导出这个带注释的文件，并使用它来训练OpenNLP的模型，我并不关心它是否可以使用代码或CLI来完成。有人能给我指明正确的方向吗？

浏览 1提问于2016-10-05得票数 3

回答已采纳

2回答

从多个子文件夹加载未知数量的文件

python、pandas、loading

我在多个子文件夹中获取了不同数量的检测器数据，基本上我需要将它们组合到一个pandas数据帧中。我想知道有没有什么聪明的方法来做这个？使用查找。-name *.cvs | wc -l 给出:例如，1464个文件然后，我必须将其加载到数据帧中。目录结构可能类似于： sub-sub-sub-data / main folder-sub-sub-sub-data \ sub-sub-sub-data tldr:如何将未知数量的数据从多个不同的子文件夹加载到单个pandas数据帧中

浏览 0提问于2020-06-26得票数 0

1回答

在nlplab Brat批注工具中创建每用户工作区

nlp、brat

是否可以将一个Brat服务器实例上的用户分开？我知道如何在config.py文件中创建新的用户帐户，但似乎所有用户都可以通过web应用程序中的收集窗口查看所有文件(在Brat的数据目录中)。我需要用户只能查看文件，(以某种方式)属于他们的登录。我将文本和.ann文件直接上传到data文件夹，因此用户只需登录并开始注释。这到底有没有可能？

浏览 4提问于2019-11-04得票数 0

1回答

如何将注解文件转换为xml？

xml、annotations、brat

我有一个使用brat .I注释的数据，我想将.ann文件转换为.xml以简化计算有什么工具吗？谢谢

浏览 9提问于2014-11-03得票数 2

1回答

使用多索引追加两个数据帧

python、pandas

我有两个数据帧，每个数据帧都有一个多索引。多索引级别共享名称，但顺序不同。当我追加或连接时，我期望pandas在追加前将索引对齐，就像它对齐无索引列一样。有没有一个函数或参数可以传递给append或concat，让它以我想要的方式工作(我认为应该是标准的)？ import pandas as pd df1 = pd.DataFrame(data = {'Name':['Bob','Ann','Sally'], 'Acct':['Savings','Savings','Che

浏览 4提问于2019-08-09得票数 1

回答已采纳

1回答

如何配置OpenNLP Brat注释服务？

java、opennlp、brat

嗨，我正在尝试让OpenNLP的Brat注解服务与BRAT注释器一起工作。我可以使用以下命令启动OpenNLP的Brat注释服务： bin/brat-annotation-service NameFinderAnnService -serverPort 8999 ~/myNameFinderModel.bin 服务器以有关glassfish和grizzly bears盯着端口8999的日志消息作为响应。一切看起来都很好... 在BRAT注释器方面，我有一个tools.conf文件，其中包含： [options] [normalization] [search] [annotators] Ope

浏览 3提问于2017-11-21得票数 1

1回答

如何使用project-lib python将二进制文件保存到我的项目资源中？

ibm-cloud、watson-studio、project-lib

项目lib文档展示了如何将pandas数据帧保存到项目资产中： # Import the lib from project_lib import Project project = Project(sc,"<ProjectId>", "<ProjectToken>") # let's assume you have the pandas DataFrame pandas_df which contains the data # you want to save in your object storage as

浏览 18提问于2018-08-03得票数 1

回答已采纳

3回答

使用boto3从S3存储桶中读取多个csv文件

python、csv、amazon-s3、boto3

我需要用python中的boto3从S3存储桶中读取多个csv文件，最后在pandas中将这些文件合并到单个数据帧中。我能够从以下python脚本中读取单个文件 s3 = boto3.resource('s3') bucket = s3.Bucket('test-bucket') for obj in bucket.objects.all(): key = obj.key body = obj.get()['Body'].read() 下面是我的道路 files/splittedfiles/Code-345678 在Co

浏览 2提问于2018-10-17得票数 6

1回答

地图工具包iphone中的图像

ios、mapkit

我是mapkit的新手。我遵循了一个教程，并在我的项目中使用了该代码。我想要显示一个图像而不是pin，该图像在resources文件夹中。我怎么才能把它放进去？谢谢到目前为止的代码： NewMapViewController的viewDidLoad方法 MKCoordinateRegion region; region.center.latitude=/*latitude*/; region.center.longitude=/*longitude*/; region.span.longitudeDelta=0.01; region.span.latitudeDelta=0.01; [m

浏览 3提问于2012-09-26得票数 0

4回答

根据R中的其他数据帧替换数据帧中的值

r、dataframe

在下面的示例中，userids是我的参考数据帧，userdata是应该进行替换的数据帧。 > userids <- data.frame(USER=c('Ann','Jim','Lee','Bob'),ID=c(1,2,3,4)) > userids USER ID 1 Ann 1 2 Jim 2 3 Lee 3 4 Bob 4 > userdata <- data.frame(INFO=c('foo','bar','foo',&#

浏览 0提问于2013-02-25得票数 16

回答已采纳

1回答

如何在brat中按偏移量对注释进行排序？

annotations、brat

当使用快速注释器工具时，所创建的注解文件似乎将按照用户执行注解的顺序来呈现注解。如果您从文档的开头开始执行批注，那么批注自然会以正确的偏移顺序进行。但是，如果需要在文档的较早位置添加另一个批注，则输出.ann文件中批注的偏移顺序将会打乱。那么，如何重新排列.ann文件，以便在完成时使注释按偏移量顺序排列？在brat中有没有什么选项可以让你这样做呢，还是需要编写自己的脚本来执行？

浏览 7提问于2016-04-09得票数 1

1回答

自动在文件夹中搜索特定的excel文件并导入pandas

python、excel、pandas、import、directory

到目前为止，我还没有在任何地方看到我要问的问题。我有两个excel文件在一个文件夹中，比如说RedRose，在C盘上。文件以date 09-30-2019_rest_of_name1，...name2开头。_rest_of_name1和...name2是静态的，只有日期是每天更新的，因为每天都有新文件添加到RedRose文件夹。使用Python on Run命令，我想自动查找该文件夹，搜索每个文件名，并将每个文件导入到它自己的pandas数据帧中。想一想，这可以用Python来完成吗？不知道从哪里开始

浏览 18提问于2019-10-02得票数 1

2回答

更快地对包含10k+文件的文件夹中的CSV列表进行排序

python、pandas、dataframe、file、sorting

您好，我是一个新手，在Python和一般的编码。这是我的第一篇文章。我正在尝试打开最后20个文件并将其连接到一个数据帧中。当我在一个只包含100个文件的测试文件夹中工作时，我成功地做到了这一点，但是当我在包含10k文件的真实文件夹中尝试我的代码时，我的代码非常慢，大约需要5分钟才能完成。这是我的尝试： import pandas as pd import glob from datetime import datetime import numpy as np import os path = r'K:/industriel/abc/03_LOG/PRODUCTION/CSV

浏览 17提问于2021-09-26得票数 0

回答已采纳

1回答

Brat注释文件到json文件转换

json、annotations、brat

我刚开始使用brat注释工具，我想将我的两个注释文件"test.ann“和"train.ann”转换为.json文件，以便在我的神经网络中使用它们。是否有任何特定的转换工具？我尝试过cli工具，但它是用GO语言编写的，我想知道是否有用Python语言编写的

浏览 10提问于2022-02-24得票数 1

2回答

将dataframe列中的一维数组元素列表转换为常规数值。

python、pandas、dataframe

已经在数据集上实现了ANN回归。预测值和实际值存储在数据帧中。实际值为float类型，当我使用df.info()检查它时，数据帧中的预测值被显示为类型对象。 dataframe中的预测值类似于以下代码： import pandas as pd a=[[1.4],[3.6],[6.7]] df = pd.DataFrame() df['a']=a 但是，我希望df‘’给出以下输出。 df['a'] = 1.4 3.6 6.7 我试过df‘..astype(Float)，df’..flatten()，但是它们没有工作。如何将dataframe列中的一维数组元素的列表

浏览 7提问于2022-02-23得票数 0

3回答

无法包含自定义类型记录定义文件的角7

angular、typescript、types、angular7

我创建了一个自定义类型记录定义文件(brat.d.ts) export declare class head { ready(callback: () => any); } export declare class Util { static embed(divId: string, collData: any, docData: any, webFontsURLs: Array<string>); } 我在像下面这样的角7组件中导入上面的定义文件 import {head, Util} from "../../brat/brat"; 当我服务时

浏览 1提问于2018-12-03得票数 6

回答已采纳

1回答

地图注解数组

objective-c、xcode4.3

如何在Xcode的mapview中创建注释数组？我已经尝试了NSMutableArray *ann = NSMutableArray allocinit]；注解 CLLocationcoordinate2D thecoordinate; thecoordinate.latitude =92.3; thecoordinate.longitude = 12.78; MyAnnotationClass *ann = [MyAnnotationClass alloc]; region.coordinate = thecoordinate; [mapview addannotation: ann];

浏览 1提问于2012-08-16得票数 0

1回答

如何在python中提取gzip文件并在dataframe中读取其内容

python、dataframe、hadoop、gzip

我有很多需要解压的gzip文件。文件名类似于- FGT6HD3917800515root.2020-07-03-13-20-35.tlog.1593759574.csv 所有这些文件都有一个CSV文件。我想用Python读取数据帧中这些CSV文件的内容。CSV中的数据如下所示- NTP 1593759574接受未扫描的印度port10 1x.1xx.xx.xxx 123 1593779419 181 17印度端口17 1xx.xxx.1xx.1xx 42338 1xx.1xx.xxx.xx 123 1xx.1xx.xxx.x 42338 这是我试过的- import gzip import p

浏览 0提问于2021-01-01得票数 0

2回答

如何在R中将多个csv文件完全外连接到单个data.table中？

r、csv、dataframe、join、data.table

我使用python处理熊猫数据帧已经有一段时间了。我想将我正在使用的相同代码切换到R。然而，我没有太多使用R的经验，我也不确定我有什么选择来做同样的事情。我有一个包含许多csv文件的文件夹，并且我有一个文件名列表，我希望遍历这些文件并对这些文件进行完整的外连接。在pandas中，我会运行以下命令， import pandas as pd filelist = pd.read_excel("/Users/XXX/Documents/test/data/list.xlsx") #contains a list of filenames in the File column ar

浏览 9提问于2020-04-08得票数 1

2回答

Julia Dataframes vs Python pandas

python、pandas、dataframe、julia

我目前正在使用python pandas，我想知道是否有一种方法可以将熊猫的数据输出到julia Dataframes中，反之亦然。(我想你可以用Pycall从Julia调用python，但我不确定它是否能处理数据帧)有没有办法从python调用Julia并让它接收panda的数据帧？(不保存为其他文件格式，如csv) 什么时候使用Julia Dataframes比使用Pandas更有优势，除了非常大的数据集和运行许多循环的东西(比如神经网络)？

浏览 0提问于2014-04-27得票数 16

回答已采纳

2回答

Pandas在任何给定列中按特定值分组

python、pandas、dataframe、pandas-groupby

给定pandas数据帧如下： Partner1 Partner2 Interactions 0 Ann Alice 1 1 Alice Kate 8 2 Kate Tony 9 3 Tony Ann 2 我如何按特定的合作伙伴分组，比方说找出Ann的交互总数？就像这样 gb = df.groupby(['Partner1'] or ['Partner2']).agg({'Interactions': 'sum'}) 并得

浏览 30提问于2020-09-11得票数 5

2回答

如何在Python3.7中将未知.XLS文件的名称转换为变量

python、excel、python-3.x、pandas、filenames

我使用的是Python 3.7。每次将excel文件(.xls)下载到特定的下载文件夹位置时，都必须下载该文件，该文件具有唯一的文件名。然后使用Python和Pandas，我必须打开excel文件并将其读取/转换为数据帧。我想自动化这个过程，但我在告诉Python获取XLS文件的全名作为变量时遇到了问题，然后pandas将使用该变量： # add dependencies and set location for downloads folder import os import glob import pandas as pd download_dir = '/Users/

浏览 1提问于2018-10-31得票数 1

1回答

你能在pyspark中有一列数据帧吗？

nested、pyspark、spark-dataframe、pyspark-sql

我对pyspark/bigdata有点陌生，所以这可能不是一个好主意，但我有大约一百万个单独的CSV文件，每个文件都与一些元数据相关联。我想要一个pyspark dataframe所有元数据字段的列，但也有一个列，其条目是(整个) CSV文件与每组元数据相关联。我现在不在工作，但我几乎记得确切的代码。我试过一个玩具的例子，比如 outer_pandas_df = pd.DataFrame.from_dict({"A":[1,2,3],"B":[4,5,6]}) ## A B ## 0 1 4 ## 1 2 5 ## 2 3 6 如果你这样

浏览 2提问于2016-11-17得票数 0

1回答

Python:循环遍历一个文件夹，从每个文件的第一个选项卡保存数据，然后在单独的选项卡上保存到新文件中。

python、excel、pandas

我试图循环遍历一个特定文件夹中的8个文件，并从每个文件夹的第一个选项卡中的特定列中获取数据。然后，我想将数据粘贴到一个新的、统一的文件中，每个数据帧都位于它们自己的单独选项卡上。这就是我目前所拥有的..。我的问题：如何从每个文件的第一个选项卡获取数据？，然后如何将数据粘贴到统一文件的每个选项卡中？ import pandas as pd import os import glob os.chdir(file path) FileList = glob.glob('*.xlsx') data = {} for file in FileList: df = pd

浏览 1提问于2020-07-02得票数 0

1回答

从cassandra读取大量数据到python dataframe (内存错误)

python、pandas、dataframe、cassandra

我正在尝试从cassandra到pandas数据帧读取2048维的特征向量(1百万条记录)，每次都会崩溃。我有32 GB的内存，但是我仍然不能把所有的数据读到内存中，每当我试图在内存中加载数据时，我的python程序就会崩溃。为了我的机器学习算法，我需要内存中的所有数据。(我的csv数据大小是18 is。) <code>A0</code> 在pandas数据帧中读取数据是一种正确的方法吗？是否有其他内存高效的方法来读取dataframe中的所有数据？我正在考虑的选项作为最后一次尝试: 1)降低特征向量维数2)增加内存我不能在csv或任何其他文件系统中存储数据，因为

浏览 38提问于2019-08-21得票数 2

回答已采纳

2回答

追加在for循环中生成的pandas数据帧

python、pandas

我在for循环中访问一系列Excel文件。然后，我将excel文件中的数据读取到pandas数据帧中。我想不出如何将这些数据帧附加在一起，然后将数据帧(现在包含所有文件中的数据)保存为新的Excel文件。这是我尝试过的： for infile in glob.glob("*.xlsx"): data = pandas.read_excel(infile) appended_data = pandas.DataFrame.append(data) # requires at least two arguments appended_data.to_excel(&

浏览 2提问于2015-02-23得票数 111

回答已采纳

3回答

在列表中按R中的名称调用数据

r、list、dataframe、variables

我试图在列表中打开一个以名称命名的数据帧，但没有成功。我正在成功地调用列表中的数据帧(S09489500) (listDF_Ann_recursive) listDF_Ann_recursive$S09489500 但是，我不想这样称呼它，相反，我从另一个列表中获得了名称，并保存在一个名为name的变量中： name <- as.name(list_recursive_algorithm[[o]]$Station[i]) print(name) > print(name) S09489500 之后，我使用变量名来调用数据帧，但显然，它不起作用。 listDF_Ann_recu

浏览 5提问于2021-02-01得票数 0

回答已采纳

0回答

通过python在Brat的批注文件中的字符偏移

python、offset、brat

我有两个UTF-8文本文件： repr(file1.txt)： \nSTATEMENT OF WORK\n\n\nSTATEMENT OF WORK NO. 7\nEffective Date: February 15, 2015 repr(file2.txt)： RENEWAL/AMENDMENT\n\nTHIS agreement is entered as of July 25, 2014. b 它们各自的Brat注释文件具有以下注释： file1.ann： T1 date 61 78 February 15, 2015 file2.ann： T1 date 53 67 Jul

浏览 4提问于2016-07-12得票数 2

2回答

被pandas读取后删除CSV文件中的行

python、pandas、csv

因此，我希望有一个脚本连续写入CSV文件，另一个脚本定期从同一个CSV文件中读取。我正在寻找一种方法来删除我刚刚从CSV文件(而不是从我的pandas数据帧)中读取的行。有人能帮上忙吗？ # Read data in to dataframe deviceInfo = pd.read_csv("sampleData.csv", nrows = 100) # Somehow delete those 100 rows from the CSV file

浏览 33提问于2019-06-08得票数 2

1回答

解析每个文件夹以提取python中的信息

python、pandas、opencsv

我有一个目录，每个客户都有一个文件夹。在每个客户文件夹中都有一个名为surveys.csv的csv文件。我想打开每个客户文件夹，然后从csv中提取数据并进行连接。我还想创建一个包含该客户id的列，该id是文件夹的名称。 import os rootdir = '../data/customer_data/' for subdir, dirs, files in os.walk(rootdir): for file in files: csvfiles = glob.glob(os.path.join(mycsvdir, 'surveys.csv

浏览 1提问于2020-09-09得票数 1

2回答

将Pandas Dataframe写入DBF文件？

python、pandas、shapefile、dbf

我正在使用shapefile，它将属性数据存储在DBF文件中。我需要使用Pandas操作属性，并将新的DBF数据写回磁盘。不幸的是，Pandas数据帧没有df.to_dbf方法(而R有)。我到处寻找，但似乎没有看到任何明显的方法来完成这项任务。如何将pandas数据帧保存为DBF文件？

浏览 208提问于2017-07-04得票数 4

回答已采纳

2回答

将熊猫数据帧实时写入Excel文件(.XLSX)

python、excel、pandas、xlwings

我必须看到excel文件与我的熊猫数据帧实时更新，这是从CSV文件读取。下面是我的CSV文件。我正在pandas的帮助下阅读CSV，但我不确定如何将其放入Excel文件中。提前感谢！

浏览 5提问于2019-04-03得票数 0

1回答

如何从文件中读取文件路径并创建单个组合数据？

python、pandas、path

必填项 1-我在当前目录中有一个My_XL_list.txt文件，其中包含到不同文件夹中的excel文件的路径。我想从这个My_XL_list.txt文件中选择第一个路径，然后创建一个数据帧，然后选择excel文件的第二个路径，创建另一个数据帧，然后追加两个数据帧，然后从.txt文件中选择第三个路径，等等。最后，我想为所有这些数据帧创建一个主excel文件。我正在尝试类似的事情，但这并没有给我带来所需的结果。它正在返回一个空的excel文件。 import glob import pandas as pd all_data = pd.DataFrame() path = "rC:/

浏览 3提问于2020-06-30得票数 1

回答已采纳

2回答

合并多个panda帧

python、pandas

我有一堆CSV文件，其中包含特定时间的数据，时间被编码为文件名： time1.csv Label val1 val2 a 5 6 b. 6 4 time2.csv Label val1 val2 a 5 6 c 6 4 ... 我可以将每个文件读入Pandas数据帧。然后我想:将"time“列添加到每个数据帧中，然后将所有数据帧合并为一个数据帧。有没有办法做到这一点？

浏览 2提问于2020-10-11得票数 0

1回答

使用Python中的Pandas合并时间序列数据帧及其集合的附加注释

python、pandas、dataframe、merge、time-series

我有2个数据帧，我想合并/合并/合并它们来创建多个或一个新的数据帧用于模型训练目的。在这种情况下如何使用pandas合并这些文件？第一个是时间序列数据的csv文件列表，如下所示： File name: Data1: Col1 Col2 Col3 Time SignalA SignalB 1 1 4 2 5 3 . . . 50 3 1 第二个文件包含所有这些文件的附加信息，格式如下： File name: Ann: Col1 Col2

浏览 15提问于2021-07-14得票数 0

1回答

如何在对每个文件使用不同的skiprows值的同时，将dask的dataframe.read_csv与google storage globstring结合使用？

python、pandas、dataframe、dask

我在google存储桶中有一些文件夹，其中包含CSVs，我正在尝试将这些CSVs读取到dask.dataframe中，以便对文件进行并行标准化。例如:其中一些数据帧可能缺少其他数据帧所具有的列，因此我希望将缺少的列插入到缺少它的每个数据帧中。我的问题当使用全局字符串时，比如ddfs = ddf.read_csv(f"gs://bucket/{folder}/*.csv")，我会收到pandas.errors.ParserErrors，因为不仅一些文件的标题丢失了，而且一些文件的标题行可能没有从第一行开始。在通过dask.dataframe使用全局字符串之前，我可以遍历目录并

浏览 7提问于2021-06-08得票数 0

1回答

将存储为Azure Blob的CSV直接加载到Pandas数据帧中，而不首先保存到磁盘

python、pandas、azure-storage

探索了与熊猫 ()一起存储的Azure存储中的数据，展示了如何将数据从Azure blob商店加载到Pandas数据框架中。他们首先下载blob并将其本地存储为CSV文件，然后将该CSV文件加载到数据帧中。 import pandas as pd from azure.storage.blob import BlockBlobService blob_service = BlockBlobService(account_name=STORAGEACCOUNTNAME, account_key=STORAGEACCOUNTKEY) blob_service.get_blob_to_path(

浏览 0提问于2019-11-22得票数 1

1回答

用字符串替换数值范围仅替换某些值。

我有一个数据框架(BRAT2)，其中包含58110个条目的列(oCC_HPE)包含从0到40到2位小数点的范围。当我试图将值范围重新分配到字符串时，除了5.02-9.99之间的值外，所有值都会正确替换。我不知道是什么导致了这个问题，我试着改变替换的顺序，改变我的替换标准中的小数位数，但是没有效果。 BRAT2$oCC_HPE[BRAT2$oCC_HPE == 0.00] <- 'None' BRAT2$oCC_HPE[BRAT2$oCC_HPE > 0.00 & BRAT2$oCC_HPE <= 1.00] <- 'Rare'

浏览 3提问于2022-09-07得票数 1

回答已采纳

1回答

rpy2 -如何将数据作为RData文件保存到磁盘上？

python、r、rpy2

我想知道如何将熊猫数据保存到.RData文件中，如何从熊猫数据存储到RData？我在这里的最后一步是： import pandas as pd import rpy2 from rpy2 import robjects from rpy2.robjects import pandas2ri pandas2ri.activate() # load RData file df = pandas2ri.ri2py(robjects.r['get'](robjects.r['load'](path_to_rdata_file))) .... do some proc

浏览 6提问于2017-09-29得票数 3

3回答

如何从位于指定文件夹中的一个文件(具有任意文件名)创建pandas数据帧？

python、pandas、dataframe、glob、pathlib

从指定文件夹中任意文件名的文件创建pandas数据帧的最佳方法是什么？我使用了pathlib，但它并不能很好地工作，因为输出数据帧没有给我任何东西。 from pathlib import Path import pandas as pd pth = r'C:\Users\HP\Desktop\IBM\New folder' fle = Path(pth).glob('*.tsv') someDf = pd.DataFrame(fle) someDf 编辑：我也尝试过执行以下操作，但输出数据帧将所有列合并为一个用反斜杠分隔的列。我该如何解决这个问题？ f

浏览 29提问于2020-02-26得票数 1

回答已采纳

2回答

将数据从存储存储桶导入到datalab

pandas、google-cloud-storage、google-cloud-datalab

我真的很失望，我花了多少时间试图找出如何将数据从google存储导入到jupyter的datalab项目中。我刚刚使用了floydhub和colabratory，它们要简单得多。为什么colabratory和datalab对GCS有不同的API！？这没有任何意义。我愿意为使用GC付费，除非我认为这些服务可以非常无缝地使用。我在存储桶的子文件夹中有tsv文件，我想通过迭代将它们导入到pandas数据帧中。在文档中并不清楚如何做到这一点，这是一个主要的疏忽，因为这是一个基本和通用的操作。

浏览 16提问于2018-02-26得票数 2

2回答

如何将数据帧中的值转换为值

python、dataframe

对python编码非常陌生，但我正在尝试理解如何将dataframe中的值转换为没有该结构的简单值。我之所以这样做，是因为我从SQL中提取了一个值，并将其传递给一个不接受数据帧的函数，但我的SQL查询结果却停留在数据帧中。详细信息如下：我运行了两个查询，从数据表中提取第一个纬度和经度值。 nyc= bq_helper.BigQueryHelper(active_project= "bigquery-public-data", dataset_name = "new_york") que

浏览 110提问于2018-06-09得票数 -1

回答已采纳

1回答

从TextFileReader对象转换为pandas DataFrame

python、pandas、dataframe

我有这样的代码： f = pd.read_csv(data,delimiter=",",chunksize=1000000) print(f) f.head() 它使用pandas从变量数据中读取带有名称的csv文件。我不能使用head函数，因为它是一个打印对象( TextFileReader (F)的输出是"pandas.io.parsers.TextFileReader object at 0x78a9180da6d8“) 我收到的错误是: AttributeError：'TextFileReader‘对象没有'head’属性如何将此对象转换为p

浏览 123提问于2020-02-08得票数 0

1回答

Python:从Dataframes到DB

python、sqlite、pandas

我有以下从excel文件文件夹创建的数据帧字典： import os import glob import pandas as pd files = glob.glob(os.path.join("staging" + "/*.csv")) print(files) # Create an empty dictionary to hold the dataframes from csvs dict_ = {} # Write the files into the dictionary for file in files: dict_[file]

浏览 10提问于2017-07-14得票数 2

回答已采纳

2回答

将.zip归档中的大文件写入Pandas数据帧

python、pandas、csv、urllib、zipfile

这是一个下载压缩文件的链接，该压缩文件包括由英国政府国家统计局发布的1 1GB邮政编码级别数据：有关数据的信息可在此处找到：我在Python中的数据科学应用程序中使用了这些数据，并将其加载到Pandas数据帧中。我已经将其集成到一个简单的网页中，并将其部署到云中。我不想在我的存储库中包含我从亚马逊网络服务EC2实例访问的大数据。因此，据我所知，我有两个选择： 1)将压缩文件包含在存储库中，并将CSV读取到Pandas数据帧中。 2)打开url，在文件中流式传输，并在脚本中解压，然后将CSV读取到Pandas数据帧中。这两种方法的问题是zip文件包含的内容不是我需要的csv文件，我不确定如

浏览 24提问于2019-11-14得票数 2

回答已采纳

2回答

从Outlook中的Excel附件创建数据帧

python、excel、pandas、outlook

是否可以从Outlook附件中读取Excel文件而不保存该文件，并从附件中返回pandas数据帧？该文件将始终采用相同的格式。

浏览 28提问于2018-12-28得票数 1

回答已采纳

2回答

pd.read_html()导入列表而不是数据帧

python、html、pandas

我使用pd.read_html()从网页中导入一个表，但是Python没有将数据结构化为dataframe，而是将其导入为列表。如何将数据作为数据帧导入？谢谢! 代码如下： import pandas as pd import html5lib url = 'http://www.fdic.gov/bank/individual/failed/banklist.html' dfs = pd.read_html(url) type(dfs) Out[1]: list

浏览 0提问于2016-09-27得票数 16

4回答

Python从文件夹中删除不在列表中的文件

python

我在下面的代码中寻找帮助，在这里我可以从文件夹中删除那些在给定的csv文件中不可用的文件。我读取熊猫数据帧中的输入文件，并将其转换为列表，然后从文件夹中读取fileName，并将fileName与文件夹中的可用文件进行比较，如果存在，则继续删除。但是它正在删除所有文件，包括不匹配的文件。我只想删除在我正在使用熊猫数据帧读取的文件中不存在的文件。 import os import pandas as pd path = "Adwords/" flist = pd.read_csv('C:/mediaops/mapping/adword/file_name.csv&#

浏览 2提问于2019-05-03得票数 1

回答已采纳

2回答

如何使用pandas读取大型CSV文件中的几行内容？

python、pandas、csv

我有一个不适合我的系统内存的CSV文件。使用Pandas，我想读取散布在整个文件中的少量行。我想我可以在没有熊猫的情况下做到这一点，遵循这里的步骤：How to read specific lines of a large csv file 在pandas中，我尝试使用skiprows来只选择我需要的行。 # FILESIZE is the number of lines in the CSV file (~600M) # rows2keep is an np.array with the line numbers that I want to read (~20) rows2skip

浏览 21提问于2019-05-14得票数 3

回答已采纳