import numpy as npfrom sklearn.pipeline import Pipelinefrom sklearn.grID_search import gridsearchcvfrom sklearn.base import transformerMixinfrom sklearn import clusterclass FeatureGenerator(transformerMixin): def __init__(self,num_features=None): self.num_features = num_features def fit(self,X,y=None,**fit_params): return self def transform(self,**transform_params): return np.array( range(self.num_features*self.num_features) ).reshape(self.num_features,self.num_features) def get_params(self,deep=True): return {"num_features": self.num_features} def set_params(self,**parameters): self.num_features = parameters["num_features"] return self
这个变压器在起作用. G.被称为这样:
pipeline = Pipeline([ ('pick_features',FeatureGenerator(100)),('kmeans',cluster.KMeans())])pipeline = pipeline.fit(None)classes = pipeline.predict(None)print classes
一旦我尝试对此管道进行网格搜索,它就变得棘手:
parameter_sets = { 'pick_features__num_features' : [10,20,30],'kmeans__n_clusters' : [2,3,4]}pipeline = Pipeline([ ('pick_features',FeatureGenerator()),cluster.KMeans())])g_search_estimator = gridsearchcv(pipeline,parameter_sets)g_search_estimator.fit(None,None)
网格搜索期望样本和标签作为输入,并且不像管道那样健壮,管道不会抱怨None作为输入参数:
TypeError: Expected sequence or array-like,got <type 'nonetype'>
这是有道理的,因为网格搜索需要将数据集划分为不同的cv分区.
除了上面的例子,我有很多参数,可以在数据集生成步骤中进行调整.因此,我需要一个解决方案,将此步骤包含在我的参数选择交叉验证中.
问题:有没有办法从第一个变换器内部设置GrIDSearch的X和y?或者解决方案怎么样,用多个不同的数据集(最好是并行)调用GrIDSearch?或者有没有人试图自定义gridsearchcv或可以指向一些阅读材料?
解决方法 您的代码非常干净,因此很高兴为您提供这种快速而肮脏的解决方案:g_search_estimator.fit([1.,1.,1.],[1.,0.,0.])g_search_estimator.best_params_
输出:
[tons of int64 to float64 conversion warnings]{'kmeans__n_clusters': 4,'pick_features__num_features': 10}
请注意,您需要3个样本,因为您正在进行(默认)3倍交叉验证.
你得到的错误是因为gridsearchcv对象执行的检查,所以它发生在变换器有可能做任何事情之前.所以我会对你的第一个问题说“不”:
Is there a way to set the Xs and ys of the GrIDSearch from insIDe the
first transformer?
编辑:
我意识到这是不必要的混淆,以下三行是等价的:
g_search_estimator.fit([1.,0.])
g_search_estimator.fit([1.,无)
g_search_estimator.fit([1.,1.])
很抱歉在那里匆匆扔了随机的ys.
关于网格搜索如何计算不同网格点的得分的一些解释:当你将得分=无传递给gridsearchcv构造函数时(这是默认值,这就是你在这里得到的),它会向估算器询问得分函数.如果有这样的功能,它将用于评分.对于KMeans,默认分数函数基本上与到集群中心的距离之和相反.
这是一个无监督的指标,因此这里不需要y.
把它包装起来,你将永远能够:
set the Xs of the GrIDSearch from insIDe the first transformer
只需将输入X“转换”为完全不相关的东西,没有人会抱怨它.你确实需要一些输入random_X.
现在,如果您想使用受监督的指标(我从您的问题中得到这种感觉),您还需要指定y.
一个简单的场景是你有一个固定的y向量,你想尝试几个X.然后你可以这样做:
g_search_estimator.fit(random_X,y,scoring=my_scoring_function)
它应该运行正常.如果你想搜索y的不同值,它可能会有点棘手.
总结以上是内存溢出为你收集整理的python – scikit-learn管道:网格搜索变压器参数以生成数据全部内容,希望文章能够帮你解决python – scikit-learn管道:网格搜索变压器参数以生成数据所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)