我试图绘制不同颜色的数据,这取决于它们的分类。数据位于nx3数组中,第一列为x位置,第二列为y位置,第三列为定义其分类值的整数。我可以通过对整个数组运行for循环并单独绘制每个点来做到这一点,但我发现这样做会大大减缓一切。
所以,这很管用。
data = np.loadtxt('data.csv', delimiter = ",")
colors = ['r', 'g', 'b']
fig = plt.figure():
for i in data:
plt.scatter(i[0], i[1], color =
我有大量的数据,我想对其进行kmean分类。数据集太大了,我无法将文件加载到内存中。
我的想法是在数据集的某一部分上运行分类,然后将分类逐个应用于数据集的其余部分。
import pandas as pd
import pickle
from sklearn.cluster import KMeans
frames = [pd.read_hdf(fin) for fin in ifiles]
data = pd.concat(frames, ignore_index=True, axis=0)
data.dropna(inplace=True)
k = 12
x = pd.concat(
我尝试使用columns.fillna(column.mean)从两列中删除空格和空格,并将它们替换为各自列中的平均值,但在实现以下代码时,它告诉我“列未定义”。 如何定义在数据框中定义为参数的列,以便应用columns.fillna(column.mean)方法? import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
points = data = pd.read_csv (r'brain_disease
我有一个数据帧DF,它看起来像这样:
col1 col2 col3 test_results
(Some discrete values) Ok
Ok
NOK
Finished
..... NOK
现在我已经在这上面应用了主成分分析来减少维数,这将是一个名为reduced_cr的数值数组,之后我应用了KMeans,找到了3个集群解决方案作为最佳解决方案,并将集群
我有一个包含分类数据和NaN值的COLOR列的熊猫数据框-
ZIP YEAR COLOR
11111 1990 0
11111 1990 1
11111 1990 NaN
11111 1990 1
22222 2000 0
22222 2000 NaN
22222 2000 NaN
22222 2000 1
如何按ZIP和YEAR列(df.groupby(['ZIP', 'YEAR']))聚合
假设我有一个滑雪训练数据:
features, labels = assign_dataSets() #assignment operation
这里,feature是一个二维数组,而label是一个由值[0,1]组成的一维数组。
分类操作:
f1x = [features[i][0] for i in range(0, len(features)) if labels[i]==0]
f2x = [features[i][0] for i in range(0, len(features)) if labels[i]==1]
f1y = [features[i][1] for i in ran
我对蟒蛇很陌生,我试图用不同的颜色来画一些点。点的颜色应由点本身的值来决定。
数据集是一个三维矩阵,第一个二维是绘图,第三个是分类。根据分类的不同,点应该有不同的颜色。
我正在使用一个for循环和一个if在里面。不知何故,它的行为就像所有的分类值是-1,打印所有的点与该颜色,尽管打印正确的价值。
import numpy as np
import math
import matplotlib.pyplot as plt
p = 10
datacord = np.array([[1,1,1],[1,2,1],[2,2,1],[1,3,1],[2,3,1],[5,5,-1],[5,6,-1],
我正在尝试对一个名为MegaData的数据框中的二项式分布数据运行方差分析,该数据框的前4列是带有单位、年份和物种的分类变量。下面是我的R代码,当我试图在数据框的不同列中循环运行我的模型时,它不起作用。
mod <- list()
for (i in MegaData[,5:36]) {
for(j in length(MegaData[,5:36])){
mod[[j]] <- glm(i/number ~ Unit*BeginYear*species_raw,
family = binomial(link = logit), weight=number,
我正在绘制一个散点图,根据数据中的一个条件使用两个不同的符号。在遍历数据行的for循环中,如果满足条件,则用圆圈绘制点,如果不满足,则用正方形绘制点:
for i in thick.index:
if thick['Interest'][i] == 1:
plt.scatter(thick['NiThickness'][i], thick['GdThickness'][i], marker = 'o', color = 'b')
else:
plt.scatter(t
我的数据框中有一个分类变量(A,B,C)。然后,我对其进行编码(使其数值化),以便传递到神经网络中。
然而,我的最终可视化图形向我显示了分类变量的编码值,并且我在将其映射回其原始值时遇到了困难。
我首先使用以下命令将分类变量(数据type=object)编码为数值:
encoders = {}
for x in df.columns:
if df[x].dtypes=='object':
le = preprocessing.LabelEncoder()
df[x]=le.fit_transform(df[x].astype(str))
我有一个熊猫数据框,两列“频率”,“颜色”,看起来如下:
name frequency color
0 351 r
1 122 r
2 30 g
3 85 r
4 195 r
5 88 g
6 130 r
7 85 r
8 41 r
9 9 g
我想绘制‘频率’排序,并取决于颜色。我试过这个:
plt.scatter(y=np.sort(data['frequency']),x=range(len(data['frequency'])),c=np.sort(dat
基于包含两列的数据帧,一列具有日期和时间,另一列具有价格值,我得到了以下图表:
import seaborn as sns
# Use seaborn style defaults and set the default figure size
sns.set(rc={'figure.figsize':(20, 7)})
df['value'].plot(linewidth=0.5);
cols_plot = ['value']
axes = df[cols_plot].plot(marker='.', alpha=0.5, l