如何将数据转换libsvm格式文件_软件运维

运行FormatDataLibsvm.xls（注意这时会有一个关于“宏已禁宏”的安全警示，点击“选项”，选择“启用此内容”，确定即可庆唤）；1，先运行FormatDataLibsvm.xls然后将数据粘贴到sheet1的topleft单元。

2、

打开data.xls,(注：网上很多的介绍都是直接将数据粘誉陆凯贴到sheet1的topleft单元)，要特别注意的是这时候的数据排列顺序应该是：

条件属性a

条件属性b

...

决策属性

...

3、"工具"-->"宏"-->执行悉坦下面有一个选项（FormatDatatoLibsvm）-->执行，要选中这个然后点击“运行”

，这时候数据讲变成：

决策属性

条件属性a

条件属性b

...

1:7

2:5

...

1:4

2:2

...

等数据转换完成后，将该文件保存为.txt文件。这时数据转换的问题就解决了。

到目前为止，github上的LightLDA还没有出比较详尽的文档，所以我在使用前进行了一番摸索。本文主要是对LightLDA单机版使用的一些简单说明嫌尘，包括输入输出的格式说明，参数说明和自己实现的java版本的输入输出接口。

输入数据需要放在一个文件夹下，输入需要先把输入数据转化为libsvm格式，再由LightLDA提供的独立的 dump_binary 工具将libsvm格式转化为可用的格式。example目录下有 text2libsvm.py 文件，可以将 UCI文件转化为libsvm文件。

UCI文件格式见链接不再赘述。

libsvm格式：两个文件 libsvm和 dict

libsvm:

dict:

我坦者帆写了一个可以将分词后的结果转换为 非严格 UCI格式的工具，在工具：text2UCI ，可供参考。

可以遵循 text ->UCI ->libsvm ->dump这样的步骤得到lightLDA的输入文件。或者直接生成libsvm格式，再dump。dump_binary这一步是不可少的，是lightLDA为了提升性能转化为其自定义的文件格式。

dump_binary用法

dump_binary <libsvm_input><word_dict_file_input><binary_output_dir><output_file_offset>

-num_vocabs数据集中包含的单词数目，是词汇表中的词的数目，可以比实际值偏大

-num_topics 要训练的主题数目，经验值是sqrt(#docs)/3，可以用HDP或交叉验证确定

-num_iterations 迭代次数，越多越好

-alpha 对称Dirichlet分布的参数alpha，经验值设置为 50/#topics

-beta对称Dirichlet分布的参数beta, 经验值设置为0.1

-max_num_document 训练的文档数目

-input_dir 训练数据所在目录，目录下需有转化为lightlda自定义的输入格式文件

-data_capacity 至少要最大的block文件的size，block文件是由dump_binary生成的。

-model/alias/delta capacity 可以指定任意值，一般model/alias大小是同义数量级，delta相对会小很多。

$bin/lightlda -num_vocabs 111400 -num_topics 1000 -num_iterations 100 -alpha 0.1 -beta 0.01 -mh_steps 2 -num_local_workers 1 -num_blocks 1 -max_num_document 300000 -input_dir $dir -data_capacity 800

每轮训练时间会随让雹着迭代次数增加而减少，本地实验中，153W+个词汇，14W+篇文档，共耗时4h。输出结果主要是4个文件

输出给出了每个词的主题次数分布和每篇文档的主题次数分布，没有给出文档-主题的概率分布和主题-词的概率分布。但是根据这个结果已经可以得到概率分布，需要自己写一个接口，进行频数统计。

如果是来了一篇新文档，可以利用已知的词分布，也可以通过采样得到新文档的主题分布。也可以通过lightLDA的对新文档的接口 infer方法，得到转化结果。

我写了个转化接口，可以让结果看起来更直观一点， lightLDA输出接口-java版本。

一：libsvm包下载与使用：

LIBSVM是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，他不但提供了编译好的可在Windows系列系统的执行文件，还提供了源代码，方便改进.

把包解压在C盘之中，如：C:\libsvm-3.18

因为要用libsvm自带的脚本grid.py和easy.py,需要去官网下载绘图早告工具gnuplot,解压到c盘

进入c:\libsvm\tools目录下，用文本编辑器（记事本，edit都可以）修改grid.py和easy.py两个文件，找到其中关于gnuplot路径的那项，根据实际路径进行修改，并保存

4python与libsvm的连接（参考SVM学习笔记（2）LIBSVM在python下的使用）

a.打开IDLE(python GUI)，输入

>>>import sys

>>>sys.version

如果你的python是32位，将出现如下字符：

‘2.7.3 (default, Apr 10 2012, 23:31:26) [MSC v.1500 32 bit (Intel)]’

这个时候LIBSVM的python接口设置将非常简单。在libsvm-3.16文件夹下的windows文件夹中找到动态链接库libsvm.dll，陆含明将其添加到系统目录，如`C:\WINDOWS\system32\’，即可在python中使用libsvm

b.如果你是64位的请参考文献，请参考上述连接。

5.执行一个小例子

import os

os.chdir('C:\libsvm-3.18\python')#请根据实际路径修改

from svmutil import *

y, x = svm_read_problem('../heart_scale')#读取自带数据

m = svm_train(y[:200], x[:200], '-c 4')

p_label, p_acc, p_val = svm_predict(y[200:], x[200:], m)

##出现如下结果，应该是正确安装了

optimization finished, #iter = 257

nu = 0.351161

obj = -225.628984, rho = 0.636110

nSV = 91, nBSV = 49

Total nSV = 91

Accuracy = 84.2857% (59/70) (classification)

二几个简单的例子

从下载实验数据集。并且将数据集拷贝到C:\libsvm-3.18\windows下（因为之后我们需要利用该文件夹下的其他文件，这样比较方便，当然之后你用绝对地址也可以了）

建立一老或个py文件，写下如下代码：

例1：

import os

os.chdir('C:\libsvm-3.18\windows')#设定路径

from svmutil import *

y, x = svm_read_problem('train.1.txt')#读入训练数据

yt, xt = svm_read_problem('test.1.txt')#训练测试数据

m = svm_train(y, x )#训练

svm_predict(yt,xt,m)#测试

执行上述代码，精度为：Accuracy = 66.925% (2677/4000) (classification)

常用接口

svm_train() : train an SVM model#训练

svm_predict() : predict testing data#预测

svm_read_problem() : read the data from a LIBSVM-format file.#读取libsvm格式的数据

svm_load_model() : load a LIBSVM model.

svm_save_model() : save model to a file.

evaluations() : evaluate prediction results.

- Function: svm_train#三种训练写法

There are three ways to call svm_train()

>>>model = svm_train(y, x [, 'training_options'])

>>>model = svm_train(prob [, 'training_options'])

>>>model = svm_train(prob, param)

有关参数的设置（read me 文件夹中有详细说明）：

Usage: svm-train [options] training_set_file [model_file]

options:

-s svm_type : set type of SVM (default 0)#选择哪一种svm

0 -- C-SVC (multi-class classification)

1 -- nu-SVC (multi-class classification)

2 -- one-class SVM

3 -- epsilon-SVR (regression)

4 -- nu-SVR (regression)

-t kernel_type : set type of kernel function (default 2)#是否用kernel trick

0 -- linear: u'*v

1 -- polynomial: (gamma*u'*v + coef0)^degree

2 -- radial basis function: exp(-gamma*|u-v|^2)

3 -- sigmoid: tanh(gamma*u'*v + coef0)

4 -- precomputed kernel (kernel values in training_set_file)

-d degree : set degree in kernel function (default 3)

-g gamma : set gamma in kernel function (default 1/num_features)

-r coef0 : set coef0 in kernel function (default 0)

-c cost : set the parameter C of C-SVC, epsilon-SVR, and nu-SVR (default 1)

-n nu : set the parameter nu of nu-SVC, one-class SVM, and nu-SVR (default 0.5)

-p epsilon : set the epsilon in loss function of epsilon-SVR (default 0.1)

-m cachesize : set cache memory size in MB (default 100)

-e epsilon : set tolerance of termination criterion (default 0.001)

-h shrinking : whether to use the shrinking heuristics, 0 or 1 (default 1)

-b probability_estimates : whether to train a SVC or SVR model for probability estimates, 0 or 1 (default 0)

-wi weight : set the parameter C of class i to weight*C, for C-SVC (default 1)

-v n: n-fold cross validation mode

-q : quiet mode (no outputs)

三提高预测的准确率：

通过一定的过程，可以提高预测的准确率(在文献2中有详细介绍)：

a.转换数据为libsvm可用形式.(可以通过下载的数据了解格式）

b.进行一个简单的尺度变换

c.利用RBF kernel，利用cross-validation来查找最佳的参数 C 和 r

d.利用最佳参数C 和 r ，来训练整个数据集

e.测试

再看例子1：

1.进入cmd模式下，输入如下代码，将现有数据进行适度变换，生成变换后的数据文件train.1.scale.txt

参数说明：

-l 变换后的下限

-u 变换后的上限

-s 参考上文

2执行以下代码

import os

os.chdir('C:\libsvm-3.18\windows')#设定路径

from svmutil import *

y, x = svm_read_problem('train.1.scale.txt')#读入训练数据

yt, xt = svm_read_problem('test.1.scale.txt')#训练测试数据

m = svm_train(y, x )#训练

svm_predict(yt,xt,m)#测试

精确度为Accuracy = 95.6% (3824/4000) (classification)。

可见我们只是做了简单的尺度变换后，预测的正确率大大提升了。

3通过选择最优参数，再次提高预测的准确率：（需要把tools文件下的grid.py拷贝到'C:\libsvm-3.18\windows'下）

import os

os.chdir('C:\libsvm-3.18\windows')#设定路径

from svmutil import *

from grid import *

rate, param = find_parameters('train.1.scale.txt', '-log2c -3,3,1 -log2g -3,3,1')

y, x = svm_read_problem('train.1.scale.txt')#读入训练数据

yt, xt = svm_read_problem('test.1.scale.txt')#训练测试数据

m = svm_train(y, x ,'-c 2 -g 4')#训练

p_label,p_acc,p_vals=svm_predict(yt,xt,m)#测试

执行上面的程序，find_parmaters函数，可以找到对应训练数据较好的参数。后面的log2c,log2g分别设置C和r的搜索范围。搜索机制是以2为底指数搜索，如 –log2c –3 , 3,1 就是参数C,从2^-3，2^-2，2^-1…搜索到2^3.

搜索到较好参数后，在训练的时候加上参数的设置。

另外，读者可以自己试试数据集2,3.

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12537064.html

如何将数据转换libsvm格式文件

发表评论

评论列表（0条）