Java 机器学习库Smile实战(一)SVM

本文不会介绍SVM的基本原理,如果想了解SVM基本原理,请参阅相关书籍。

要使用Java机器学习库Smile,需首先在项目的Maven配置文件pom.xml中添加如下的maven依赖项:

<dependency>
    <groupId>com.github.haifengl</groupId>
    <artifactId>smile-core</artifactId>
    <version>1.4.0</version>
</dependency>

Smile中的SVM是一个泛型类,他可以支持二分类和多分类两种使用方法,而且这两种使用方法差异较大,所以分开介绍。

1. 二分类

Smile 库的SVM类是一个泛型类型,默认情况下进行二分类,选择参数为核函数类型和惩罚项参数。

import smile.classification.SVM;
import smile.math.kernel.GaussianKernel;

public class Demo {
    public static void main(String[]args){

        double gamma = 1.0;
        double C = 1.0;

        //通过某种方式获取训练数据及其类标
        double[][] data = ...
        int[] label = ...

        SVM<double[]> svm = new SVM<double[]>(
           new GaussianKernel(gamma), C);
        
        svm.learn(data, label); //训练模型
        svm.finish();

        //获取测试数据
        double[][] testData = ...
        int[] result = new int[testData.length];
        for(int i=0; i < testData.length; i++){
            result[i] = svm.predict(testData[i]);
        }
    }
}

2. 多分类

接下来是我利用SVM对iris数据集进行分类的程序。首先我们将iris数据保存iris.txt文件,如下结构:

5.1 3.5 1.4 0.2 0

4.9 3 1.4 0.2 0

...

每一行代表一个测试数据项,前4列是属性向量,最后一列是类标(在Smile中类标不能为负数,并且只能是从0开始的正整数,所以上述类标为:0、1、2)。检测的完整的源代码如下:

import smile.classification.SVM;
import smile.math.kernel.GaussianKernel;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

/**
 * Created by zhanghuayan on 2017/1/16.
 */
public class ClassificationTest {

    public static void main(String[] args) throws Exception {

        List<List<Double>> datas = 
            new ArrayList<List<Double>>();
        List<Double> data = new ArrayList<Double>();
        List<Integer> labels = new ArrayList<Integer>();

        String line;
        List<String> lines;
        File file = new File("iris.txt");
        BufferedReader reader = 
        new BufferedReader(new FileReader(file));
        
        while ((line = reader.readLine()) != null) {
            lines = Arrays.asList(line.trim().split("\t"));
            for (int i = 0; i < lines.size() - 1; i++) {
                data.add(Double.parseDouble(lines.get(i)));
            }
            labels.add(Integer.parseInt(
                  lines.get(lines.size() - 1)));

            datas.add(data);
            data = new ArrayList<Double>();

        }

        //转换label
        int[] label = new int[labels.size()];
        for (int i = 0; i < label.length; i++) {
            label[i] = labels.get(i);
        }

        //转换属性
        int rows = datas.size();
        int cols = datas.get(0).size();
        double[][] srcData = new double[rows][cols];
        for (int i = 0; i < rows; i++) {
            for (int j = 0; j < cols; j++) {
                srcData[i][j] = datas.get(i).get(j);
            }
        }

        SVM<double[]> svm = new SVM<double[]>(
           new GaussianKernel(1.0), 1.0, 3, 
           SVM.Multiclass.ONE_VS_ALL);

        svm.learn(srcData, label);
        svm.finish();

        double right = 0;
        for (int i = 0; i < srcData.length; i++) {
            int tag = svm.predict(srcData[i]);
            if (tag == label[i]) {
                right += 1;
            }
        }
        right = right / srcData.length;

        System.out.println(
        "Accrurate: " + right * 100 + "%");
    }
}

原文发布于微信公众号 - 机器学习算法全栈工程师(Jeemy110)

原文发表时间:2017-08-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏余林丰

8.动态规划(1)——字符串的编辑距离

  动态规划的算法题往往都是各大公司笔试题的常客。在不少算法类的微信公众号中,关于“动态规划”的文章屡见不鲜,都在试图用最浅显易懂的文字来描述讲解动态规划,甚至...

4159
来自专栏逆向技术

逆向知识十三讲,汇编中数组的表现形式,以及还原数组

            逆向知识十三讲,汇编中数组的表现形式,以及还原数组 讲解数组之前,要了解数组的特性 1.数据具有连续性 2.数据类型相同 比如:   i...

1837
来自专栏desperate633

LintCode 硬币排成线题目分析代码

有 n 个硬币排成一条线。两个参赛者轮流从右边依次拿走 1 或 2 个硬币,直到没有硬币为止。拿到最后一枚硬币的人获胜。

652
来自专栏程序生活

hdu-1098 Ignatius's puzzle(费马小定理)费马小定理同余式证明应用Ignatius's puzzle运行结果

费马小定理 费马小定理是数论中的一个定理:假如a是一个整数,p是一个质数,那么 ? 是p的倍数,可以表示为 ? 如果a不是p的倍数,这个定理也可以写成(同余式...

3524
来自专栏Java Web

最长公共子序列问题

问题描述: 求两个字符序列的公共最长子序列。 ---- 最长公共子串 在回到子序列问题之前,先来了解一下子串的问题。 例如,HISH和FISH两个字符序列的公...

3024
来自专栏PPV课数据科学社区

【学习】K近邻算法基础:KD树的操作

Kd-树概念 Kd-树其实是K-dimension tree的缩写,是对数据点在k维空间中划分的一种数据结构。其实,Kd-树是一种平衡二叉树。 举一示例: 假设...

2865
来自专栏Bingo的深度学习杂货店

Q152 Maximum Product Subarray

Find the contiguous subarray within an array (containing at least one number) wh...

3897
来自专栏逸鹏说道

码农眼中的数学之~数学基础

写在前面:文章里面的图片公式都是逆天一个个打出来画出来的,公式系列基本上都提供了源码

1497
来自专栏云霄雨霁

子字符串查找----各种算法总结

1750
来自专栏Python绿色通道

Numpy归纳整理

说明本文主要是关于Numpy的一些总结,包括他们的一些运算公式,我整理一下方便日后查阅公式!

652

扫码关注云+社区