乳腺癌预测

最近更新时间:2019-08-23 15:36:21

场景背景

近年来,人工智能的风潮也为医疗行业带来一场全新革命,AI 在辅助诊断、疾病预测、疗法选择等方面发挥着重要作用。机器学习领域的特征选择和有监督学习建模方法越来越多地用于疾病预测和辅助诊断,常用的算法包括决策树算法等。

乳腺癌是目前发病率仅次于肺癌的最常见癌症,机器学习算法能够分析已有的临床乳腺癌数据,得到与乳腺癌发病关系最密切的特征,这能够极大地帮助医生进行早期诊断,及时拯救患者。

本文通过智能钛机器学习平台,利用决策树算法搭建乳腺癌预测模型。用户无须编写代码,只要拖动相应的组件搭建模型架构,便可以在二十分钟以内快速上手,解决该场景下的实际问题。

数据集介绍

本次任务我们采用公开的 乳腺癌数据集,该数据集共包含569个样本,其中357个阳性(y = 1)样本,212个阴性(y = 0)样本;每个样本有32个特征,但本次实验中选取其中10个特征。
数据集具体字段信息如下(表格中包括每列字段的名称和对应取值范围):

特征和标签(Attribute) 取值范围(domain)
Clump Thicknedd 1 ≤ n ≤ 10
Uniformity of Cell Size 1 ≤ n ≤ 10
Uniformity of Cell Shape 1 ≤ n ≤ 10
Marginal Adhsion 1 ≤ n ≤ 10
Single Epithelial Cell Size 1 ≤ n ≤ 10
Bare Nuclei 1 ≤ n ≤ 10
Bland Chromation 1 ≤ n ≤ 10
Normal Nucleoli 1 ≤ n ≤ 10
Mitoses 1 ≤ n ≤ 10
(标签y)Class (2 for begin,4 for maligant)

数据集具体内容抽样展示如下(前9列是特征取值,最后1列是标签取值):

整体流程

工作流整体流程如下:

在乳腺癌研究场景中,我们采用的机器学习算法是决策树。整个模型完成预计需要15分钟。工作流整体流程如下:

  1. 本地数据准备。
  2. 将数据集切分为训练集和测试集。
  3. 将训练数据喂给决策树算法训练模型,然后将测试集数据喂给训练好的模型进行预测。
  4. 利用测试集对模型进行性能评估。

详细流程

一. 数据准备

  1. 数据集下载
  2. 为方便用户操作,我们直接提供本实验所需的数据集(cancer.csv)下载链接,请直接下载并保存到本地。
  3. 在智能钛控制台的左侧导航栏,选择【输入】>【数据源】>【 本地数据】,并拖入画布中。
  4. 在【 本地数据】对应右边弹出的设置窗口中选择【算法 IO 参数】中的"数据文件"上传,单击【数据文件】输入框,选择刚保存到本地的 cancer.csv 数据集上传,单击【确定】

二. 切分数据

在模型训练时我们通常会将所有的数据分成三部分:训练集 training set、验证集 validation set、测试集 test set。训练集用来训练模型,验证集用于调节模型超参数,测试集用来整体评估模型性能。
本实验将数据切割成训练集和测试集,比例为 8 : 2(80%用于训练,20%用于测试)。

  1. 在控制台的左侧导航栏,选择【算法】>【机器学习算法】>【数据预处理】>【Spliter】,并拖入画布中。
  2. 将【本地数据】的输出桩连接到【Spliter】的输入桩。
  3. 填写参数:
    • 【算法 IO 参数 】中的各个数据路径参数均为自动生成,无需更改。
    • 切分比例:0.8(【Spliter】第一个输出桩为80%的训练数据,第二个输出桩为20%的测试数据)。
    • 其余参数可保持不变。

三. 决策树分类

  1. 在控制台的左侧导航栏,选择【算法】>【机器学习算法】>【分类】>【DecisionTree】,并拖入画布中。
  2. 将【Spliter】左边的输出桩连接到【DecisionTree】左边的输入桩,表示训练数据输入模型;右边的输出桩连接到【DecisionTree】最左侧的蓝色小烧杯处,表示将测试数据输入模型。
  3. 填写【DecisionTree】参数:
    • 特征列:0-8。
    • 标签列:9。
    • 输入数据包含 header 信息:是。
    • 输入数据分隔符:逗号。
    • 模型保存格式:PMML。
    • 其余参数可保持不变。
  4. 左侧蓝色小烧杯代表模型,单击填写模型参数:
    • 模型更新方式:手动运行
    • 模型运行方式:自动运行
    • 特征列:0 - 8。
    • 输入/输出数据包含 header 信息:是。
    • 输入/输出数据分隔符:逗号。
    • 模型导入格式:PMML。

四. 模型评估

  1. 在智能钛机器学习平台控制台的左侧导航栏,选择【算法】>【机器学习算法】>【评估算子】>【二分类任务评估】,并拖入画布。
  2. 单击【二分类任务评估】,填写参数:
    • 标签列:9。
    • 是否是打分项:否。
    • 输入数据是否包含 header 信息:是。
    • 输入数据分隔符:逗号。
    • 预测列:10。
    • 其余参数可默认。

五. 运行调度及模型评估

单击画布上方运行按钮可运行工作流,详情请参考 运行工作流
运行成功后,右键单击【二分类任务评估】>【评估指标】,即可查看模型效果。