首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >[Kaggle] Digit Recognizer 手写数字识别

[Kaggle] Digit Recognizer 手写数字识别

作者头像
Michael阿明
发布2020-07-13 15:15:31
发布2020-07-13 15:15:31
1.4K0
举报

1. Baseline

  • 读取数据
代码语言:javascript
复制
import pandas as pd
train = pd.read_csv('train.csv')
X_test = pd.read_csv('test.csv')
  • 特征、标签分离
代码语言:javascript
复制
train.head()
y_train = train['label']
X_train = train.drop(['label'], axis=1)
X_train
代码语言:javascript
复制
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score
# help(KNeighborsClassifier)
para_dict = [
    {'weights':["uniform", "distance"], 'n_neighbors':[3,4,5], 'leaf_size':[10,20]}
]
knn_clf = KNeighborsClassifier()
grid_search = GridSearchCV(knn_clf, para_dict, cv=3,scoring='accuracy',n_jobs=-1)
grid_search.fit(X_train, y_train)
代码语言:javascript
复制
输出
GridSearchCV(cv=3, estimator=KNeighborsClassifier(), n_jobs=-1,
             param_grid=[{'leaf_size': [10, 20], 'n_neighbors': [3, 4, 5],
                          'weights': ['uniform', 'distance']}],
             scoring='accuracy')
  • 最佳参数
代码语言:javascript
复制
grid_search.best_params_
# {'leaf_size': 10, 'n_neighbors': 4, 'weights': 'distance'}
  • 最好得分
代码语言:javascript
复制
grid_search.best_score_
# 0.9677619047619048
  • 生成 test 集预测结果
代码语言:javascript
复制
y_pred = grid_search.predict(X_test)
  • 写入结果文件
代码语言:javascript
复制
image_id = pd.Series(range(1,len(y_pred)+1))
output = pd.DataFrame({'ImageId':image_id, 'Label':y_pred})
output.to_csv("submission.csv",  index=False) # 不要index列
  • 预测结果

排行榜

以上 KNN 模型得分 0.97067,目前排名2467

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/06/20 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Baseline
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档