前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习必刷题-手撕推导篇(1)

机器学习必刷题-手撕推导篇(1)

作者头像
小萌哥
发布2020-07-20 14:44:28
6840
发布2020-07-20 14:44:28
举报
文章被收录于专栏:算法研习社

本专题对高频机器学习面试题进行了搜集、分类和整理,主要包括”手撕推导篇“、“模型比较篇”、“工程经验篇”以及“基础概念篇”等多个子系列,考前刷一刷,面试更好过!

手撕逻辑回归

手写k-means算法

1. 算法原理 (1) 初始随机选取k个中心点; (2) 遍历每个样本,选取距离每个样本最近的中心点,归为该类; (3) 更新中心点为每类的均值; (4) 重复(2)(3)迭代更新,直至误差小到某个值或者到达一定的迭代步数.

2. 伪代码

3. 代码实现(python)

代码语言:javascript
复制
def kmeans(k):
    m, n = 100, 20  # 构造样本:100行、20列
    x = 10 * np.random.random((m, n))

    # 随机选择k个初始中心点
    init_cent_sample = set()
    while len(init_cent_sample) < k:
        init_cent_sample.add(np.random.randint(0, m))
    cent = x[list(init_cent_sample)]

    # 记录每个样本的类归属
    cluster_assessment = np.zeros((m, 2))

    # 记录每个类的中心点在本次迭代后是否有过改变
    cent_changed = True
    while cent_changed:
        cent_changed = False

        for j in range(m):
            # 记录每个样本距离最近的类
            min_inx = -1
            # 记录每个样本的最小类距
            min_dist = math.inf

            for i in range(k):
                d = distance(x[j], cent[i])
                if d < min_dist:
                    min_dist = d
                    min_inx = i

            # 记录此样本的中心点是否发生变化
            if min_inx != cluster_assessment[j][0]:
                cluster_assessment[j] = np.array([min_inx, min_dist])
                cent_changed = True
        print(cluster_assessment)

        # 更新每个类的中心点:均值
        for i in range(k):
            cent_i_samples = np.where(cluster_assessment[:, 0] == i)
            if len(cent_i_samples) > 0:
                print(cent_i_samples)
                cent[i] = np.mean(x[cent_i_samples], axis=0)


# 计算距离
def distance(a, b):
    return math.sqrt(sum(pow(a - b, 2)))
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 手撕逻辑回归
  • 手写k-means算法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档