sklearn.datasets.dump_svmlight_file

sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)

[源码]

以svmlight / libsvm文件格式转储数据集。

此格式是基于文本的格式,每行一个示例。它不存储零值特征,因此适用于稀疏数据集。

每行的第一个元素可用于存储目标变量以进行预测。

参数 说明
X {array-like, sparse matrix} of shape (n_samples, n_features)
训练向量,其中n_samples是样本数,n_features是特征数。
y {array-like, sparse matrix}, shape = [n_samples (, n_labels)]
目标值。 对于多标签分类,类标签必须是整数或浮点数,或者是整数或浮点的类数组对象。
f string or file-like in binary mode
如果为字符串,则指定将包含数据的路径。如果是类似文件结构,则数据将被写入f。 f应该以二进制模式打开。
zero_based boolean, optional
列索引应该写为从0开始(zero-based)(True)还是从1开始(one-based)(False)。
comment string, optional
注释以插入文件头部。 这应该是将被编码为UTF-8的Unicode字符串,或者是ASCII字节字符串。 如果给出了注释,则该注释之前将带有一个标识该文件已被scikit-learn转储的文件。 请注意,并非所有工具都在SVMlight文件中显示注释。
query_id array-like of shape (n_samples,)
数组包含成对首选项约束(svmlight格式的qid)。
multilabel boolean, optional
每个样本可能都有几个标签(请参阅https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html)
版本0.17中的新功能:参数多标签以支持多标签数据集。

sklearn.datasets.dump_svmlight_file使用示例