Sklearn调优之网格搜索与随机搜索原理介绍_F11 - 专业站长和开发者的学习网站

分享到

Sklearn调优之网格搜索与随机搜索原理介绍

python 来源：互联网作者：佚名发布时间：2023-02-12 19:18:43 人浏览

摘要

前言超参调优是模型调优（Model Tuning)阶段最主要的工作，是直接影响模型最终效果的关键步骤，然而，超参调优本身却是一项非常低级且枯燥的工作，因为它的策略就是：不断变换参

前言

超参调优是“模型调优”（Model Tuning)阶段最主要的工作，是直接影响模型最终效果的关键步骤，然而，超参调优本身却是一项非常低级且枯燥的工作，因为它的策略就是：不断变换参数值，一轮一轮地去“试”，直到找出结果最好的一组参数。显然，这个过程是可以通过编程封装成自动化的工作，而不是靠蛮力手动去一遍一遍的测试。为此，Sklearn提供了多种（自动化）超参调优方法（官方文档），其中网格搜索（Grid Search）和随机搜索（Randomized Search）是最基础也是最常用的两个：

方法名称	对应类/函数	官方文档
网格搜索（Grid Search）	sklearn.model_selection.GridSearchCV	文档链接
随机搜索（Randomized Search）	sklearn.model_selection.RandomizedSearchCV	文档链接

对应类/函数的后缀CV是Cross-Validation的意思，因为它们每尝试一种超参组合时，都会使用Cross-Validation进行效果评估，所以调用它们时也都需要显式指定cv参数，即：验证的轮次（K-Fold的份数）。

网格搜索（Grid Search）

网格搜索（Grid Search）的逻辑其实非常简单，就是由开发者针对每个超参设定多个值去尝试，找出效果最好的那个，由于超参会有很多个，而每一个超参又有多个尝试值，所以就变成了一个“排列组合”问题。例如我们想针对两个超参进行调优，第一个超参设置了2个尝试值，第二个超参设置了3个尝试值，则超参设置总共会有 2 × 3 = 6 种组合，理论上模型要被训练6次，如果再加上交叉验证的轮次参数cv，假设cv=3，则总得的训练次数将变为：6 × 3 = 18 次。以下是《Hands-On ML, 2nd Edition》一书中提供的GridSearchCV示例代码：

from sklearn.model_selection import GridSearchCV

param_grid = [

{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},

{'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},

]

forest_reg = RandomForestRegressor()

grid_search = GridSearchCV(forest_reg, param_grid, cv=5,

scoring='neg_mean_squared_error',

return_train_score=True)

grid_search.fit(housing_prepared, housing_labels)

在这份示例代码中，作者提供针对bootstrap、n_estimators和max_features三个超参，给出了两套参数设定：

第一套：{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]} 总计：3 × 4 = 12 种组合

第二套：{'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]} 总计：1 × 2 × 3 = 6 种组合

合在一起一共：12 + 6 = 18 种组合，加上交叉验证设定cv=5，所以最终将训练 18 × 5 = 90 次！这里我们可以看到param_grid是一个list，里面每一个元素是一个dict，一个dict就代表了一套参数设定，每套参数设定根据赋值情况又会产生多种参数组合。其实上面两套组合也可以用下面的一套设定覆盖：

param_grid = [

{'bootstrap': [True, False], 'n_estimators': [3, 10, 30], 'max_features': [2, 3, 4, 6, 8]}

]

但在此情况下，总的训练次数将会变为：(2 × 3 × 5) × 5 = 150 次。由此可见，Sklearn这种允许设定多套参数的设计（即一个list下可配置多个dict）还是有可取之处，会方便开发人员更具经验设定最有希望的取值集合，减少训练次数。

随机搜索（Randomized Search）

网格搜索适用于参数组合数比较少的情况，当参数组合大到一定程度后，模型训练所占用的资源和持续时间将会超用户的可接受范围，此时往往就要改用随机搜索（Randomized Search）了。随机搜索的工作原理和网格搜索其实差不多，都是“暴力尝试”，不同之处在于：网格搜索的参数取值集合是用户设定的，而随机搜索的参数取值则是指定好区间（最大值和最小值）由随机数发生器随机生成的，而想要生成多少种组合是可以设置的。以下是《Hands-On ML, 2nd Edition》一书中提供的RandomizedSearchCV示例代码：

from sklearn.model_selection import RandomizedSearchCV

from scipy.stats import randint

param_distribs = {

'n_estimators': randint(low=1, high=200),

'max_features': randint(low=1, high=8),

}

forest_reg = RandomForestRegressor(random_state=42)

rnd_search = RandomizedSearchCV(forest_reg, param_distributions=param_distribs,

n_iter=10, cv=5, scoring='neg_mean_squared_error', random_state=42)

rnd_search.fit(housing_prepared, housing_labels)

在这份代码中，作者针对n_estimators和max_features两个超参分别设定了 1 ~ 200 和 1 ~ 8 的取值区间，然后通过设定参数n_iter=10将参数组合数设定为10，当然，叠加上交叉验证cv=5后，实际的训练就是 5 × 10 = 50 次了。

您可能感兴趣的文章 :

原文链接 : https://blog.csdn.net/bluishglc/article/details/128896730

Tag : sklearn(4)

Python正则表达式中group与groups的用法介绍

在Python中，正则表达式的group和groups方法是非常有用的函数，用于处理匹配结果的分组信息。 group方法是re.MatchObject类中的一个函数，用于返
Sklearn调优之网格搜索与随机搜索原理介绍

前言超参调优是模型调优（Model Tuning)阶段最主要的工作，是直接影响模型最终效果的关键步骤，然而，超参调优本身却是一项非常低级且枯
Flask接口签名sign原理与实例代码

作用防止有人不停的刷接口，对接口作限制比如说，登录接口，按道理说，应该只有app会请求这个接口但是，如果有人抓取app的请求，就
Python机器学习利用鸢尾花数据绘制ROC和AUC曲线

一、ROC与AUC 很多学习器是为了测试样本产生的一个实值或概率预测，然后将这个预测值与一个分类阈值（threshold）进行比较，若大于阈值则
python字符串大小写转换的三种方法

python中，为了方便字符串的大小写转换，为我们提供了三种方法: title() lower() upper() python title()方法 title()方法用于将字符串中的每个单词的
C# DataGridView行列转换的具体实现

初始表格需要进行行列转置转换后的效果实现代码如下 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 voi
Pycharm更换安装源与添加第三方库方法介绍

今天继续给大家介绍Python相关知识，本文主要内容是Pycharm更换安装源和添加第三方库详解。一、Pycharm更换安装源在下载安装好Pycharm后，一
Python利用D3Blocks绘制可动态交互的图表

今天小编给大家来介绍一款十分好用的可视化模块，D3Blocks，不仅可以用来绘制可动态交互的图表，并且导出的图表可以是HTML格式，方便在
Python经典案例之图像漫水填充分割介绍

一.图像漫水填充图像漫水填充（FloodFill）是指用一种特定的颜色填充联通区域，通过设置可连通像素的上下限以及连通方式来达到不同的填
python在pygame中设置字体并显示中文的介绍

一、查看可用字体 1 2 import pygame print(pygame.font.get_fonts()) 二、设置字体 1.使用系统字体 1 2 self.font=pygame.font.SysFont(None,48)#None系统默认字体 s