我对python很陌生,我正在运行一个fuzzywuzzy字符串,该字符串与列表中的逻辑匹配,其中包含200万条记录。代码正在运行,它也提供输出。问题是它是极其慢的。在3小时内,它只处理80行。我希望通过使其同时处理多行来加快速度。
如果它有帮助的话--我正在用16 it内存和1.9 GHz双核CPU在我的机器上运行它。
下面是我正在运行的代码。
d = []
n = len(Africa_Company) #original list with 2m string records
for i in range(1,n):
choices = Africa_Company[i+1:n]
我试图在csv文件中进行多个关键字搜索,只是在列注释中。由于某些原因,当我尝试搜索时,我得到这个错误消息'DataFrame‘对象没有属性'description’
例如
table1.csv
id_Acco, user_name, post_time comments
1543603, SameDavie , "2020/09/06" The car in the house
1543595, Johntim, "2020/09/11" You can
我有一个列表,巨大的扭曲数据列表存储在文本中,我需要做一些争论,但只是找不出什么是最好和最有效的方法。考虑到的另一个因素是,这些数据相当庞大。样本量为160万行,产量达10s /百万。
In [200]:data=['Bernard 51','Ber%nard Bachelor','BER78NARD$ bsc','BERnard$d B.']
In [201]:test=pd.DataFrame(data,columns=['Names'])
In [2020:test
Out[202]:
Name
我希望能够获得一个具有DataFrame的大型multiIndex,并根据索引是否出现在列表中创建两个新的索引。
举个例子,假设我有一个DataFrame,它有一个MultiIndex of ['Name', 'Surname'],列有不同的测试结果['Score1', 'Score2']。给定一个名称列表,我希望能够创建两个新的DataFrames,一个包含名字在列表中的条目,另一个不是。
In [1]:
data = {'Name':['Jake', 'Jack', 'J
我希望将列放在包含banned_columns列表中任何单词的pyspark中,并从其余列中形成一个新的dataframe。
banned_columns = ["basket","cricket","ball"]
drop_these = [columns_to_drop for columns_to_drop in df.columns if columns_to_drop in banned_columns]
df_new = df.drop(*drop_these)
banned_columns的思想是删除以basket和cricket
我想定义一些类似nameFilters的内容,然后从给定的字符串列表中检查是否有任何nameFilters适合字符串,这样某种伪代码看起来就像:
if any from filters in strings:
#do the job
实际上,过滤器只是我们想要在字符串中找到的一个子字符串。
当然,这样做是很困难的:
for filter in filters:
for string in strings:
if filter in string:
# do the job
但它是不可读的,有很多嵌套。Python通常是一种语言,在这种语言
如果我以删除第一个元素的方式更新我的数据(例如,在列表中的第一个元素太小的情况下,按半径过滤一个圆圈列表),我希望第一个元素缩小,剩下的两个元素保持不变。相反,第三个缩小了,第一个滑到第二个位置,第二个滑到第三个位置。我做错了什么?
用于呈现我的圆圈的代码如下:
update = (data) ->
circle = svg.selectAll('circle').data data
circle.enter().append('circle')
.attr('r', 0)
circle
我有一个城市名称列表,我正在尝试使用python匹配给定字符串中的名称。例如,我的字符串-> '142 franc drive apt 125 Antelope Creek North Dakota‘其中'Antelope Creek’=城市名称(来自Dataframe城市列)还有一个城市叫做'Antelope‘和'Antelope Lake’
我正在使用re.findall方法查找所有匹配项。执行以下re.findall(re.compiled城市列表,我的字符串)后。它给我的输出只有'Antelope‘而不是{'Antelope'
我正在尝试LabelEncode数据帧的特定列。我已经将这些列名存储在一个列表(Cat_features)中。现在,我想使用For循环来迭代这个列表的元素(字符串),并使用这些元素来访问dataframe的列。但上面写着
TypeError: argument must be a string or number
因为我正在访问列表的元素,它已经是一个字符串。所以我不明白为什么它会抛出这个错误。请帮助我理解为什么它不能工作,以及我可以做些什么来使它工作。
cat_features = [x for x in features if x not in features_to_scale]
fr
对熊猫来说还挺新鲜的,所以我在努力解决这个问题。
我有一个更大的DataFrame,它的记录被一个包含DatetimeIndex的MultiIndex索引,一个更小的DataFrame索引了开始日期和结束日期,这两个都是DatetimeIndex。下面是它们的样子:
更大的DataFrame:
Data
PatId EntryDate Id
725 2005-01-03 1422 X
2005-01-04 1563 X
2005-01-
我正在使用DataFrame构造函数创建一个熊猫DataFrame对象。我的数据是由列表和分类数据系列对象组成的。当我将索引传递给构造函数时,我的分类数据序列会被NaN值重置。这里发生了什么事?提前感谢!
示例:
import pandas as pd
import numpy as np
a = pd.Series(['a','b','c'],dtype="category")
b = pd.Series(['a','b','c'],dtype="object")
我有一个数据帧列表,但是在一些情况下,列表也可以包含一个字符串。
df = pd.DataFrame({"df_column":["df_value"]})
a = ['skip',df]
if "skip" in a:
print("yes")
上面的输出是yes,因为列表包含一个字符串。
但是如果列表中不包含一个字符串
df = pd.DataFrame({"df_column":["df_value"]})
a = [df,df]
if
我有一个dataframe,df,格式如下:
df =
index Text
----------------
0 My name is George and I don't like football
1 Hey find me on instagram to play basketball
2 I am down for Saturday night
...
1000 text1000
我还有一个包含一些关键词的列表,这个列表的名字是,
key_word = [football, basketball, tennis]
我还有另