1、结构化数据和非结构化数据:
结构化数据,可以从名称中看出,是高度组织和整齐格式化的数据。它是可以放入表格和电子表格中的数据类型。它可能不是人们最容易找到的数据类型,
结构化数据也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。
典型的结构化数据包括:xyk号码、日期、财务金额、电话号码、地址、产品名称等。
非结构化数据本质上是结构化数据之外的一切数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频等。非结构化数据其格式非常多样,标准也是多样性的。
2、logistic回归:逻辑回归,不同于线性回归。
原本y=wx+b,加入了x_0=1,变成了矩阵乘法,y=(θ^T)X 其中θ_0=b,
因为防止y的输出不是0和1 引入了sigmoid函数 使其变成
3、损失函数: 损失函数又叫做误差函数,用来衡量算法的运行情况,Loss function:퐿(푦^ , 푦).
用于二分类,即目标x的标签y只取0或者1
我们通过这个퐿称为损失函数,来衡量预测输出值和实际值有多接近。一般我们用预测值和实际值的平方差或者它们平方差的一半,但是通常在逻辑回归中我们不这么做,因为当我们在学习逻辑回归参数的时候,会发现我们的优化目标不是凸优化,只能找到多个局部最优值,梯度下降法很可能找不到全局最优值,虽然平方差是一个不错的损失函数,但是我们在逻辑回归模型中会定义另外一个损失函数。
我们在逻辑回归中用到的损失函数是:
我们想要让损失函数尽可能小
损失函数是在单个训练样本中定义的,它衡量的是算法在单个训练样本中表现如何,为了衡量算法在全部训练样本上的表现如何,我们需要定义一个算法的代价函数
4、算法的代价函数:是对푚个样本的损失函数求和然后除以푚:
损失函数只适用于单个训练样本,而代价函数是参数的总代价。
相同点是都是衡量w和b选取好坏的函数,即用来判断算法是否合理。
5、梯度下降法
dw表示 J(w)对w求导 不是指w的微分!
这个迭代公式的效果:
比如是上升曲线,那么导数带上负号就会让w减小,就会下降
如果是下降曲线,导数小于0,带上负号就会让w增加,也会下降
6、python中的dot和*区别
np.dot(a,b)在 a 和 b 上执行矩阵乘法
而“a * b”执行元素方式的乘法,要求a和b的维数一模一样(除非你可以广播成一模一样的)
7、
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)