根据我的经验,sklearn RandomForestClassifier的三个功能按重要性顺序值得探讨:
n_estimators
max_features
criterion
n_estimators确实不值得优化。您提供的估算值越多,效果就会越好。通常500或1000就足够了。
max_features值得探索许多不同的价值。这可能会对RF的行为产生很大影响,因为它决定了RF中每棵树在每个分割处考虑多少个特征。
criterion可能会产生很小的影响,但通常默认设置为罚款。如果有时间,请尝试一下。
尝试这些参数时,请确保使用sklearn的GridSearch(最好是GridSearchCV,但您的数据集大小太小)。
但是,如果我正确理解您的问题,那么您只有9个样本和3个类?大概每个课有3个样本?除非它们是好的,有代表性的记录,否则您的RF很可能会过少地容纳少量数据。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)