区块链分析中的过度拟合是怎么一回事_技术

当与区块链数据集一起使用时，机器学习模型往往会过度拟合。什么是过度拟合，如何解决？

使用机器学习来分析区块链数据集的想法乍一看非常吸引人，但它充满了挑战。在这些挑战中，缺少标记的数据集仍然是应用机器学习方法到区块链数据集时需要克服的最大困难。

这些限制导致许多机器学习模型使用非常小的数据样本进行训练和过度优化，从而导致一种称为过度拟合的现象。今天，我想深入探讨一下区块链分析中的过度拟合问题，并提出一些解决方法。

过度拟合被认为是现代深度学习应用中最大的挑战之一。从概念上讲，当模型生成的假设过于针对特定数据集而导致无法适应新数据集时，就会发生过度拟合。

理解过度拟合的一个有用的类比是将其视为模型中的幻觉。本质上，当一个模型从数据集中推断出不正确的假设时，它就会产生幻觉/过度拟合。

自从早期的机器学习以来，已经有很多关于过度拟合的文章，所以我不认为有任何聪明的方法来解释它。在区块链数据集的情况下，过度拟合是缺乏标记数据的直接结果。区块链是大型的、半匿名的数据结构，在这种结构中，所有东西都用一组公共结构表示，比如交易、地址和区块。

从这个角度来看，区块链记录的限定信息是最少的。是交易、转账还是付款？是个人投资者的钱包还是交易所的冷钱包？这些限定词对于机器学习模型是必不可少的。

假设我们正在创建一个模型来检测一组区块链中的交换地址。这个过程需要我们使用现有的区块链地址数据集来训练模型，我们都知道这些数据集并不常见。如果我们使用EtherScan或其他来源的小数据集，模型可能会过度拟合并做出错误的分类。

使过度拟合如此具有挑战性的一个方面是，很难在不同的深度学习技术中推广。卷积神经网络倾向于形成与递归神经网络不同的过拟合模式，而递归神经网络又不同于生成模式，这种模式可以外推到任何类型的深度学习模型。

具有讽刺意味的是，过度拟合的倾向与深度学习模型的计算能力成线性关系。由于深度学习代理可以生成复杂的假设，而且几乎不需要任何成本，因此过度拟合的倾向就会增加。在机器学习模型中，过度拟合是一个持续的挑战，但在处理区块链数据集时，它几乎是一个给定的问题。解决过度拟合的明显方法是使用更大的训练数据集，但这并不总是可行的。在IntoTheBlock，我们经常遇到过度拟合的挑战。

在区块链数据集中对抗过度拟合的三个简单策略

与过度拟合作斗争的首要原则是认识到它。虽然没有防止过度拟合的灵丹妙药，但实践经验表明，一些简单的、几乎是常识的规则有助于在深度学习应用中防止这种现象。

在已经发布的防止过度拟合的几十个最佳实践中，有三个基本的思想包含了其中的大多数。

数据/假设比率

过度拟合通常发生在一个模型产生了太多的假设而没有相应的数据来验证它们的时候。因此，深度学习应用程序应该尝试在测试数据集和应该评估的假设之间保持适当的比例。然而，这并不总是一个选择。

有许多深度学习算法，如归纳学习，依赖于不断产生新的，有时更复杂的假设。在这些场景中，有一些统计技术可以帮助估计正确的假设数量，从而优化找到接近正确的假设的机会。

虽然这种方法不能提供准确的答案，但它有助于保持假设数量和数据集组成之间的统计平衡。哈佛大学教授莱斯利·瓦兰特在他的书中精采地解释了这一概念。