LightGBM参数_随笔

LightGBM参数

文章目录

Core Parameters参数
一、pandas是什么？
二、使用步骤
- 1.引入库
- 2.读入数据
总结

Core Parameters参数参数别名默认值类型含义选项configconfig_file“”string配置文件路径tasktask_typetrainenum数据的用途train-用于训练
predict-用于预测
convert_model-将模型文件转换为if-else格式
refit-用于用新数据改装现有模型
save_binary-加载训练（和验证）数据，然后将数据集保存到二进制文件objectiveobjective_type, app, application, lossregressionenum学习的任务类型*回归应用
regression-L2损失
regression_l1-L1损失
huber-Huber loss
fair-Fair loss
poisson-Poisson regression
quantile-Quantile regression
mape-MAPE loss
gamma-Gamma regression with log-link.如对保险索赔的严重程度建模，或可能是伽马分布的目标
tweedie-Tweedie regression with log-link.如对保险中的总损失进行建模，或可能是花呢分布的目标
*二元分类应用
binary-二元对数损失分类（或逻辑回归）
需要{0,1}中的标签
*多类分类应用
multiclass-softmax目标函数
multiclassova-一对多二元目标函数
num_class也要设置
*交叉熵应用
cross_entropy-交叉熵的目标函数
cross_entropy_lambda-交叉熵的替代参数化
*排名申请
lambdarank-lambdarank目标
rank_xendcg-排名目标函数(更快)boostingboosting_type, boostgbdtenum集成学习算法gbdt-传统的梯度提升决策树(gbrt)
rf-随机森林(random_forest)
dart-Dropouts遇到多个加法回归树
goss-基于梯度的单边采样datatrain, train_data, train_data_file, data_filename“”string训练数据的路径，LightGBM 将从这些数据中训练-validtest, valid_data, valid_data_file, test_data, test_data_file, valid_filenames“”string验证/测试数据的路径，LightGBM 将输出这些数据的指标，支持多个验证数据以‘,’ 分隔-num_iterationsnum_iteration, n_iter, num_tree, num_trees, num_round, num_rounds, nrounds, num_boost_round, n_estimators, max_iter100int训练的迭代次数>=0;通常大于100learning_rateshrinkage_rate, eta0.1double收缩因子，类似于学习率，为每一棵树都添加一个收缩因子，从而减少每棵树的影响> 0.0;通常为0.1，0.01，0.003，0.001num_leavesnum_leaf, max_leaves, max_leaf, max_leaf_nodes31int每棵树的最大叶子数防止过拟合;1 < num_leaves <= 131072tree_learnertree, tree_type, tree_learner_typeserialenum训练时的并行方式serial-不并行
feature-特征并行
data-数据并行
voting-投票并行device_typedevicecpuenum训练的硬件设备cpu, gpu, cudaseedrandom_seed, random_stateNoneint随机种子-

# Learning Control参数参数别名默认值类型含义选项max_depth--1int单棵树的最大深度，避免过拟合-min_data_in_leafmin_data_per_leaf, min_data, min_child_samples, min_samples_leaf20int每个叶子节点的最小样本数，避免过拟合>= 0.0min_sum_hessian_in_leafmin_sum_hessian_per_leaf, min_sum_hessian, min_hessian, min_child_weight1e-3double每个叶子节点的最小二阶梯度和，避免过拟合>= 0.0bagging_fractionsub_row, subsample, bagging1.0doublebagging迭代抽样比例，不重抽样，加速训练，避免过拟合0.0 < bagging_fraction <= 1.0;进行bagging，则bagging_freq应取为非零值bagging_freqsubsample_freq0int执行bagging迭代次数，每次迭代，LightGBM 将随机选择 bagging_fraction * 100% 的数据用于迭代进行bagging，则bagging_fraction应取值小于等于1bagging_seedbagging_fraction_seed3int用于bagging的随机种子feature_fractionsub_feature, colsample_bytree1.0double每一轮迭代训练（树）时，随机选择的特征比例，加速训练，避免过拟合0.0 < feature_fraction <= 1.0feature_fraction_bynodesub_feature_bynode, colsample_bynode1.0double每个树节点上，随机选择的特征比例，避免过拟合0.0 < feature_fraction_bynode <= 1.0feature_fraction_seed-2int用于选择特征的随机种子extra_treesextra_treefalsebool使用极其随机的树，当评估节点分裂时 LightGBM 将只检查每个特征的一个随机选择的阈值，加速训练，避免过拟合extra_seed-6int选择阈值的随机种子early_stopping_roundearly_stopping_rounds, early_stopping, n_iter_no_change0int控制早停的最大轮数，如果验证集上的某一评价指标在最近的early_stopping_round轮内没有提升，则停止训练，加速训练<=0表示没有早停控制first_metric_only-falseboolLightGBM 允许您提供多个评估指标，true时，使用第一个指标进行提前停止max_delta_stepmax_tree_output, max_leaf_output0.0double控制输出的最大叶子数，其最大叶子数为learning_rate * max_delta_step<= 0.0表示没有限制lambda_l1reg_alpha, l1_regularization0.0doubleL1 正则化>= 0.0lambda_l2reg_lambda, lambda, l2_regularization0.0doubleL2 正则化>= 0.0linear_lambda-0.0double(*回归)线性树正则化，对应于方程中的参数 lambda>= 0.0min_gain_to_splitmin_split_gain0.0double控制节叶点是否分割的最小增益，加速训练>= 0.0drop_raterate_drop0.1double0.0 <= drop_rate <= 1.0 一、pandas是什么？

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

二、使用步骤 1.引入库

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下（示例）：

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5522073.html

LightGBM参数

发表评论

评论列表（0条）