我需要帮助在pyspark数据帧主题。我有一个数据框架,比如1000+列和100000+ rows.Also,我有10000+ if elif条件,在每个if else条件下,只有很少的全局变量被一些值递增。现在我的问题是,我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数,它们根据条件返回行,我需要检查这些10000+ if else条件并执行一些操作。
任何帮助都将不胜感激。
如果你能给出一个小数据集的例子,那将会有很大的帮助。
谢谢你
我计划验证我的数据框中的列,如下所示... def validateCol1(val):
#validate
#write invalid entries to my error tracking list with row reference
df['col1'].apply(validateCol1) 但是,尽管这会将列值传递给我的函数,但我希望能够访问发生错误的行。有人知道我是怎么做到的吗?
我有几列数据。第一列包含我只想显示一次的所有唯一值。第二列可以具有相同数据的多个条目。这导致第一列显示多个条目,第二列中的每个条目对应一个条目。
示例:
A 123
A 432
A 2352
B 5342
C 34256
C 23423
我只想看到A的一行、B的一行和C的一行。我不关心第二列中的哪个值为每个A/B/C行显示。
我有一个很大的字符串数组,我将其存储为名为np_base:np.shape(np_base) Out[32]: (65000000, 1)的nparray
我打算做的是垂直切片数组,以便将其分解为多个列,稍后我将以独立的方式存储这些列,因此我尝试循环遍历行索引并附加:
for i in range(65000000): INCDN.append(np.base[i, 0][0:5]),但这显示了一个内存错误。
有没有人可以帮我解决这个问题,我已经寻找了几天的时间来寻找另一种切分字符串数组的方法。
谢谢,
我有2D数据,我想对其应用多个函数。实际的代码使用xlrd和一个.xlsx文件,但我将提供以下样板,以便易于重现输出。
class Data:
def __init__(self, value):
self.value = value
class Sheet:
def __init__(self, data):
self.data = [[Data(value) for value in row.split(',')] for row in data.split('\n')]
self.ncols
我定义了以下函数:
def clearString(myString):
forbidden = r'/\:*?"<>|'
for character in forbidden:
if character in myString:
myString = myString.replace(character,'')
return myString
若要删除文件名中不需要的字符,请执行以下操作。我有一个列中有书名的数据框架,我试图将函数应用到所有的字符串中,清除它们,但是一直无法,我一
我是Apache的新手,我尝试完成三项任务。
从表中阅读前30项
从桌子上阅读前30位商店
从bigquery中选择必需列,并对列Item、和Stores应用筛选器。
我有下面的代码,以执行管道
with beam.Pipeline(options=pipeline_args) as p:
#read the dataset from bigquery
query_top_30_items = (
p
| 'GetTopItemNumbers' >> beam.io
对于生成器表达式,我有一组条件,这些条件会有所不同,如果可能的话,我想尝试将条件作为字符串连接起来,并在生成器表达式中使用这个字符串变量:
下列各项运作良好:
Total = sum(sale["Date"] == date for sale in Sales_Store)
如果日期是整数,而Sales_Store是具有相同键的字典列表,则" date“是键名之一。它返回满足此条件的销售商店中的销售数量。
但这会产生错误:不支持的操作数类型(S)表示+:'int‘和'str’
strTest = "sale[\"Date\"] =
对于如何解决这个难题,我将非常感激,我在快照中有这个dataFrame的结构,我正在尝试用这个列表(MyList)中的值替换业余爱好列中的值,这些值目前并不存在于业余爱好列的每一行中。
myList =["Dancing","Climbing,"Singing"]
这就是我尝试过的,我似乎离正确的解决方案还很远。
df.apply(lambda x:df['Hobbies'],(for i in myList: if i not in x : x.append(i)))
谢谢你的投入。
我有一个numpy数组,它有3列。有100,000行,但以下是前两行:
burger flipper part time 12-5.00
spam flipper full time 98-10.00
问题是,工作代码(12和98)以某种方式与小时工资(5.00和10.00)相结合。
在numpy中是否有一种简单的方法可以将该列分成两部分,并去掉不必要的“-”字符,如:
burger flipper part time 12 5.00
spam flipper full time 98 10.00
提前谢谢。
我有一个包含两个列的dataframe,foo包含一个文本字符串,bar包含一个搜索词字符串。对于我的数据中的每一行,我想检查搜索词是否在文本字符串中,其中包含单词边界。
例如
import pandas as pd
import numpy as np
import re
df = pd.DataFrame({'foo':["the dog is blue", "the cat isn't orange"], 'bar':['dog', 'cat is']})
df
bar
我想在C列中设置一个字符串,而B列中的值是>= 2(是的,if>=是真的,如果>=是假的,则不是)。产出应如下:
A B C
1 A 2 'yes'
2 B 3 'yes'
3 C 4 'yes'
4 D 5 'yes'
5 A 6 'yes'
6 B 7 'yes'
7 C 0 'no'
8 D 1 'no'
9 A 2 'yes'
10 B 3 'yes'
11