我希望使用sklearn/Scikit-learn实现自定义的GLM。使用statsmodel也是可能的,例如使用statsmodel,我们可以使用下面的代码 import pandas as pd
import statsmodels.api as sm
data = [(300,1),(200,0),(170,1),(420,1),(240,1),(133,0),(323,1),(150,0),(230,0),(499,0)]
Labels = ['datapoint','value']
df = pd.DataFrame.from_records(dat
使用以下代码:
from sklearn.utils import all_estimators
from sklearn import base
# Print all regressors
estimators = all_estimators(type_filter="regressor")
for name in estimators:
print(name[0], name[1])
...renders这个响应:
ARDRegression <class 'sklearn.linear_model._bayes.ARDRegression
为了在sklearn的上下文中使用统计模型的泊松GLM模型,我试图建立一个自己的模型,它继承自GLM,BaseEstimator和RegressorMixin。我的目标是做一些像交叉验证这样的事情。这是我的代码:
import statsmodels.api as sm
from sklearn.base import BaseEstimator, RegressorMixin
class GLM_sklearn(sm.GLM, BaseEstimator, RegressorMixin):
def __init__(self, X, y, family=sm.families.Po
我在R,python状态模型和sklearn中做了一些logistic回归的实验。虽然R和状态模型给出的结果是一致的,但与滑雪板返回的结果有一定的差异。我想知道这些结果为何不同。据我所知,这可能不是相同的优化算法下使用的木材。
具体来说,我使用标准的Default数据集(在中使用)。下面的Python代码将数据读入数据Default。
import pandas as pd
# data is available here
Default = pd.read_csv('https://d1pqsl2386xqi9.cloudfront.net/notebooks/Default.cs
如何使用GLM回归模型进行交叉验证?
我已经创建了一个glm模型sm.GLM(endog, exog, family=sm.families.Gamma(link=sm.families.links.log())).fit(),我需要交叉验证结果,但是我无法找到一种使用sm.GLM模型的方法。找到使用model = LogisticRegression()的多个示例,但这不适用于我的数据。
以下是代码:
import pandas as pd
import statsmodels.api as sm
from sklearn.model_selection import train_test_
我已经使用scikit-learn库进行了文本分类,导入了以下分类器:
from sklearn.linear_model import RidgeClassifier
from sklearn.svm import LinearSVC
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import Perceptron
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.naive_bayes impo
我有一个多类分类问题,下面的代码可以在多类级别对数据进行分类。
from sklearn import datasets
from sklearn.preprocessing import label_binarize
from sklearn.multiclass import OneVsRestClassifier
from sklearn.model_selection import cross_val_predict
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis as QDA
iris
如何在包装在()中的scikit learn分类器上调用partial_fit()?
我正在尝试使用SGDClassifier构建一个可增量训练的文本分类器,如下所示:
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sk
我尝试使用knn进行分类任务,我的数据集包含分类特征,这些特征是一个热门的编码、数字特征(如价格等).以及文本列的向量。
我知道knn受缩放的影响。所以我搞不懂这里用什么?
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import normalize
我试图让一个非常简单的scikit OneVsRest分类器工作,但遇到了一个奇怪的问题。
以下是代码
import numpy as np
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
fro
我有一个分类问题,我必须使用投票分类器方法找到前3个特征,其中包含PCA,xgboost,随机森林,逻辑注册和决策树。
我是一个初学者,我不知道如何使用投票分类器来获得特征重要性。
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.decomposition import PCA
fro
我有一个分类问题,我希望在sklearn中使用roc_auc值来获得cross_validate值。我的代码如下。
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data[:, :2] # we only take the first two features.
y = iris.target
from sklearn.ensemble import RandomForestClassifier
clf=RandomForestClassifier(random_state = 0, class_weig
我想在神经轴管道中使用分类器,例如sklearn.linear_model.SGDClassifier,并使用partial_fit在线安装它。我将分类器封装在带有SKLearnWrapper的use_partial_fit=True中,如下所示:
from neuraxle.pipeline import Pipeline
from neuraxle.steps.sklearn import SKLearnWrapper
from sklearn.linear_model import SGDClassifier
p = Pipeline([
SKLearnWrapper(SGDC
我在Python (3.7版)上做了一个简单的脚本来对卫星图像进行分类,但它只能对卫星图像的剪辑进行分类。当我尝试对整个卫星图像进行分类时,它返回以下内容: Traceback (most recent call last):
File "v0-3.py", line 219, in classification_tool
File "sklearn\cluster\k_means_.py", line 972, in fit
File "sklearn\cluster\k_means_.py", line 312, in k_m
有几篇关于如何将分类数据编码到Sklearn决策树的文章,但是从Sklearn文档中,我们得到了以下内容
决策树的一些优点是:
(...)
能够处理数字和分类数据。其他技术通常专门用于分析只有一种类型变量的数据集。有关更多信息,请参见算法。
但是运行以下脚本
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
data = pd.DataFrame()
data['A'] = ['a','a','b','a']
data
根据文档,OneVsRest分类器支持多标签分类:
下面是我要运行的代码:
from sklearn import metrics
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.multiclass import OneVsRestClassifier
from sklearn.cross_validation import train_test_split
from sklearn.svm import SVC
x = [[1,2,3],[3,3,2],[8,8,7],[3,7,1],[4,5,6]]
我正在尝试oneHotEncode我的Pandas数据帧的分类变量,其中包括分类变量和连续变量。我意识到使用pandas .get_dummies()函数可以很容易地做到这一点,但我需要使用管道,以便稍后可以生成PMML文件。
这是创建映射器的代码。我想要编码的分类变量存储在一个名为'dummies‘的列表中。
from sklearn_pandas import DataFrameMapper
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
我有一个在matlab2015a中生成的分类模型
glm = fitglm(Ttrain,...)
我想保留glm并传递给它,但是matlab也将训练数据(Ttrain一个表)绑定到对象上。如果您有许多模型+大型培训数据集(您可以很容易地耗尽内存),这可能会变得非常困难。然而,做一些天真的事情,比如设置:
glm.Variables= [];
给出
Error using classreg.regr.FitObject/subsasgn (line 753)
The Variables property for class GeneralizedLinearModel is read-onl
我有一个工业数据集和测试分类性能使用决策树(DT),随机森林(RF)和集成分类器(EL),如套袋,提升等。
,,问题是,对于所有的分类器,我都得到了相当相似的准确性。RF和EL依赖DT吗?在学术论文中比较DT、RF和EL的性能是否公平?
我查看了现有的问题(),(),但目标与我的问题不同。Python
from sklearn.tree import DecisionTreeClassifier % Decision Tree
from sklearn.ensemble import RandomForestClassifier % Random forest
from sklearn.ens