Python 在 scikitlearn 中将分类器保存到磁盘

发布于05月15日

如何将经过训练的Naive Bayes classifier到disk个数据保存起来，并将其用于predict个数据？

我有以下来自SCRICKIT-LEARN网站的示 routine 序:

from sklearn import datasets
iris = datasets.load_iris()
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)
print "Number of mislabeled points : %d" % (iris.target != y_pred).sum()

推荐答案

分类器只是可以像任何其他对象一样进行酸洗和转储的对象.要继续您的示例，请执行以下操作:

import cPickle
# save the classifier
with open('my_dumped_classifier.pkl', 'wb') as fid:
    cPickle.dump(gnb, fid)    

# load it again
with open('my_dumped_classifier.pkl', 'rb') as fid:
    gnb_loaded = cPickle.load(fid)

编辑:如果您使用的是sklearn Pipeline，其中有无法通过pickle(或joblib)序列化的自定义转换器，那么使用Neuraxix的custom ML Pipeline saving是一种解决方案，您可以在每一步的基础上定义自己的自定义step savers.如果在保存时定义了saver，则会 for each 步骤调用saver，否则对于没有saver的步骤，会使用joblib作为默认值.