scale意为“刻度、数值范围”,表示该字段的小数位数。
举个简单的例子
123.45:precision
=
5
,scale
=
2
precision
数据长度
scale
小数长度
问题一:什么是召回率与精度 一直搞不清搜索引擎的查全率和查准率是什么意思,只知道这两个是衡量一个搜索引擎性能的. 今个 看一篇 南大的学士论文的时候, 又碰到这个问题. 所以决定把他搞清楚, 上百度搜了一下, 所获很多. 查全率[召回率]与精度[查准率] 之辨析:召回率(recall rate)和精度(precision)定义: 从一个大规模数据 *** 中检索文档的时,可把文档分成四组 -系统检索到的相关文档(A)- 系统检索到的不相关文档(B)- 相关但是系统没有检索到的文档(C)- 相关但是被系统检索到的文档(D)相关不相关检索到AB未检索到CD直观的说,一个好的检索系统检索到的相关文档越多越好,不相关文档越少越好.召回率和精度是衡量信息检索系统性能最重要的参数.召回率R:用检索到相关文档数作为分子,所有相关文档总数作为分母,即 R=A/(A+C)精度P: 用检索到相关文档数作为分子,所有检索到的文档总数作为分母.即 P=A/(A+B). 下面举例说明召回率和精度之间的关系:一个数据库有500个文档, 其中有50个文档符合定义的问题.系统检索到75个文档,但是只有45个符合定义的问题. 召回率 R=45/50=90%精度P=45/75=60%本例中, 系统检索是比较有效的,召回率为90%. 但是结果有很大的噪音, 有近一半的检索结果是不相关. 研究表明: 在不牺牲精度的情况下,获得一个高召回率是很困难的.召回率越高,精度下降的很快,而且这种趋势不是线性的.来自:召回率与精度
问题二:召回率是什么意思 召回率检索出相关文档数和文档库所有相关文档数比率衡量检索系统查全率;精度检索出相关文档数与检索出文档总数比率衡量检索系统查准率对于检索系统来讲召回率和精度能两全其美:召回率高时精度低精度高时召回率低所常常用11种召回率下11种精度平均值来衡量检索系统精度对于搜索引擎系统来讲因没有搜索引擎系统能够搜集所有WEB网页所召回率难计算目前搜索引擎系统都非常关心精度
影响搜索引擎系统性能有多因素主要信息检索模型包括文档和查询表示方法、评价文档和用户查询相关性匹配策略、查询结排序方法和用户进行相关度反馈机制
问题三:召回率是什么意思 是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
问题四:召回率的计算方法 召回率和精度示意图假定:从一个大规模数据 *** 中检索文档的时,可把文档分成四组:- 系统检索到的相关文档(A)- 系统检索到的不相关文档(B)- 相关但是系统没有检索到的文档(C)- 不相关且没有被系统检索到的文档(D)则:- 召回率R:用检索到相关文档数作为分子,所有相关文档总数作为分母,即R = A / ( A + C )- 精度P:用检索到相关文档数作为分子,所有检索到的文档总数作为分母.即P = A / ( A + B ).举例来说:一个数据库有500个文档,其中有50个文档符合定义的问题。系统检索到75个文档,但是只有45个符合定义的问题。召回率R=45/50=90%精度P=45/75=60%本例中,系统检索是比较有效的,召回率为90%。但是结果有很大的噪音,有近一半的检索结果是不相关。研究表明:在不牺牲精度的情况下,获得一个高召回率是很困难的
问题五:模式识别 召回率代表什么 实际为真且检测为真的/(实际为真且检测为真的+实际为真且检测为假的)
问题六:如何解释召回率与准确率 数据集中 : 正例 反例
你的预测 正例 : A B
你的预测 反例 : C D
准确率就是A/(A+B) 大白话就是“你的预测有多少是对的”
召回率就是A/(A+C) 大白话就是“正例里你的预测覆盖了多少”
问题七:如何解释召回率与准确率 数据集中:正例反例你的预测正例:AB你的预测反例:CD准确率就是A/(A+B)大白话就是“你的预测有多少是对的”召回率就是A/(A+C)大白话就是“正例里你的预测覆盖了多少”
问题八:召回率的常用名词 TP ―― True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率TN ―― True Negative(真负 , TN)被模型预测为负的负样本 ;可以称作判断为假的正确率FP ――False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率FN――False Negative(假负 , FN)被模型预测为负的正样本;可以称作漏报率True Positive Rate(真正率 , TPR)或灵敏度(sensitivity) TPR = TP /(TP + FN) 正样本预测结果数 / 正样本实际数True Negative Rate(真负率 , TNR)或特指度(specificity) TNR = TN /(TN + FP) 负样本预测结果数 / 负样本实际数False Positive Rate (假正率, FPR) FPR = FP /(FP + TN) 被预测为正的负样本结果数 /负样本实际数False Negative Rate(假负率 , FNR) FNR = FN /(TP + FN) 被预测为负的正样本结果数 / 正样本实际数
问题九:如何提高机器学习算法的召回率 最近在做文本分类,遇到了一些问题,想问问大家有没有好的方法。为了节省时间,我只采取了部分数据来跑算法(全部数据跑了之后的结果和这个差不多)
训练集:4837 documents
测试集:2074 documents
样本比例:正样本:负样本 = 1:3
预测结果中,有的算法在正样本中预测的精确率还行(0.95-1.00之间),但是召回率非常差,通常只有0.01和0.02左右,KNeighbors和DecisionTree的精确率和召回率都是0,只有NaiveBayes和BernoulliNB的PR和Recall比较平均,但是也没有到0.8。
问题:我查了一下那些召回率较低(0.01)的算法,475个样本中(正样本),实际上只有5个被预测正确了的,但是具体原因没有查出来。
我想请问一下:1.召回率低是因为样本极度不平衡造成的吗?(虽然我认为1:3的比例不算极度不平衡。)2.在这种样本不平衡的问题上,有没有什么好的方法可以提高召回率?我试过SMOTE方法(过采样和欠采样都有试过),但对于我的数据集并没有什么好的效果,不止到有没有有什么好的方法可以解决这个问题?谢谢!
添加评论
分享
查看全部 11 个回答
0赞同反对,不会显示你的姓名
Elvin 全是细枝末节,做一个乐于分享的人
两个问题一并回答一下,根据你的描述,我觉得问题应该不是出在正负样本比上,1比3这个比例不但不是非常不均衡,相反在我看来已经是非常均衡了。以前做比赛有处理过正负比1比10000的数据,我觉得这才叫不平衡,才需要使用类似上采样,下采样,以及SMOTE算法(都用过),而且这样的情况下recall,F1等指标的提升是显著的。我觉得正负比例在1:1至1:100间差别都不会太大,需要根据具体问题做离线交叉验证去找到最好的比例。
所以我建议你不用再纠结正负样本比的问题,可以再回头看一看你的数据集,一方面看一看代码是否有误?数据集是否太小?(总觉得你的数据集太小,而且测试集相对于训练集太大)另外训练集,测试集的划分是否正确?或者重新划分一下训练测试集做一下交叉验证看一看各项指标再具体研究。
问题十:f-measure的准确率/精确率/召回率 准确率(accuracy),精确率(Precision)和召回率(Recall) 是信息检索,人工智能,和搜索引擎的设计中很重要的几个概念和指标。中文中这几个评价指标翻译各有不同,所以一般情况下推荐使用英文。 先假定一个具体场景作为例子。假如某个班级有男生80人,女生20人,共计100人.目标是找出所有女生.某人挑选出50个人,其中20人是女生,另外还错误的把30个男生也当作女生挑选出来了.作为评估者的你需要来评估(evaluation)下他的工作首先我们可以计算准确率(accuracy),其定义是: 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率 .这样说听起来有点抽象,简单说就是,前面的场景中,实际情况是那个班级有男的和女的两类,某人(也就是定义中所说的分类器)他又把班级中的人分为男女两类。accuracy需要得到的是此君分正确的人占总人数的比例。很容易,我们可以得到:他把其中70(20女+50男)人判定正确了,而总人数是100人,所以它的accuracy就是70 %(70 / 100).由准确率,我们的确可以在一些场合,从某种意义上得到一个分类器是否有效,但它并不总是能有效的评价一个分类器的工作。举个例子,google抓取了argcv 100个页面,而它索引 *** 有10,000,000个页面,随机抽一个页面,分类下,这是不是argcv的页面呢?如果以accuracy来判断我的工作,那我会把所有的页面都判断为不是argcv的页面,因为我这样效率非常高(return false,一句话),而accuracy已经到了99.999%(9,999,900/10,000,000),完爆其它很多分类器辛辛苦苦算的值,而我这个算法显然不是需求期待的,那怎么解决呢?这就是precision,recall和f1-measure出场的时间了.在说precision,recall和f1-measure之前,我们需要先需要定义TP,FN,FP,TN四种分类情况.按照前面例子,我们需要从一个班级中的人中寻找所有女生,如果把这个任务当成一个分类器的话,那么女生就是我们需要的,而男生不是,所以我们称女生为正类,而男生为负类. 相关(Relevant),正类无关(NonRelevant),负类被检索到(Retrieved)true positives(TP 正类判定为正类,例子中就是正确的判定这位是女生)false positives(FP 负类判定为正类,存伪,例子中就是分明是男生却判断为女生,当下伪娘横行,这个错常有人犯)未被检索到(Not Retrieved)false negatives(FN 正类判定为负类,去真,例子中就是,分明是女生,这哥们却判断为男生--梁山伯同学犯的错就是这个)true negatives(TN 负类判定为负类,也就是一个男生被判断为男生,像我这样的纯爷们一准儿就会在此处)通过这张表,我们可以很容易得到例子中这几个分类的值:TP=20,FP=30,FN=0,TN=50.精确率(precision)的公式是 ,它计算的是所有被检索到的item(TP+FP)中,应该被检索到的item(TP)”占的比例。在例子中就是希望知道此君得到的所有人中,正确的人(也就是女生)占有的比例.所以其precision也就是40%(20女生/(20女生+30误判为女生的男生)).召回率(recall)的公式是 ,它计算的是所有检索到的item(TP)占......>>
目前Oracle 数据库大概有26个字段类型,大体分为六类,分别是字符串类型、数字数据类型、日期时间数据类型、大型对象(LOB)数据类型、RAW和LONG RAW数据类型、ROWID和UROWID数据类型。当然Oracle还提供用户自定义的数据类型,但在我这篇不做讨论。字符串类型
Char
char数据类型存储固定长度的字符值。一个CHAR数据类型可以包括1到2000个字符。如果对CHAR没有明确地说明长度,它的默认长度则设置为1。 如果对某个CHAR类型变量赋值,其长度小于规定的长度,那么Oracle自动用空格填充。
注意:如果给了一个比固定长度更长的值,其尾部带有空格,则空格会被删除到固定的长度。如果值太大Oracle会返回一个错误,
Varchar
用于保存变长的字符串数据。其中最大字节长度由(size)指定。每行长度可变,最大长度为每行4000字节。设置长度(size)前需考虑字符集为单字节或多字节。
注意:varchar是被废弃的类型,oracle目前都推荐使用varchar2。虽然varchar也可以用,但不确保未来的版本是否还支持
Varchar2
用于保存变长的字符串数据。其中最大字节长度由(size)指定。每行长度可变,最大长度为每行4000字节。设置长度(size)前需考虑字符集为单字节或多字节。由于VARCHAR2数据类型只存储为该列所赋的字符(不加空格),所以VARCHAR2需要的存储空间比CHAR数据类型要小。
区别:varchar2把所有字符都占两字节处理(一般情况下),varchar只对汉字和全角等字符占两字节,数字,英文字符等都是一个字节;VARCHAR2把空串等同于null处理,而varchar仍按照空串处理;大部分情况下建议使用varchar2类型,可以保证更好的兼容性。
Nchar
Unicode数据类型,根据字符集而定的固定长度字符串,最大长度2000bytes。
Nvarchar2
Unicode数据类型,根据字符集而定的可变长度字符串,最大长度4000bytes。
Long
可变长字符列,最大长度限制为2GB,用于不需要作字符串搜索的长串数据。
说明:此类型是一个遗留下来的而且将来不会被支持的数据类型,逐渐被BLOB,CLOB,NCLOB等大的数据类型所取代。
数字类型
Number
NUMBER数据类型精度可以高达38位,它有两个限定符,如:column NUMBER(precision,scale)。precision表示数字中的有效位。如果没有指定precision的话,Oracle将使用38 作为精度。scale表示小数点右边的位数,scale默认设置为0。如果把scale设成负数,Oracle将把该数字取舍到小数点左边的指定位数。
Decimal
Oracle只是在语法上支持decimal类型,但是在底层实际上它就是number类型,支持decimal类型是为了能把数据从Oracle数据库移到其他数据库中。
Float
FLOAT类型也是NUMBER的子类型。其格式Float(n),数 n 指示位的精度,可以存储的值的数目。N 值的范围可以从1 到 126。若要从二进制转换为十进制的精度,请将n 乘以 0.30103。要从十进制转换为二进制的精度,请用 3.32193乘小数精度。126 位二进制精度的最大值是大约相当于 38 位小数精度。
BINARY_FLOAT
BINARY_FLOAT 是一种 32 位,单精度浮点数字数据类型。每个 BINARY_FLOAT 值需要5 字节存储空间,其中 1字节用于存储数据值的长度。支持 NUMBER 数据类型所提供的基本功能。但采用二进制精度,而NUMBER 采用十进制精度。因此能够提供更快的数学运算速度,且能减少占用的存储空间。
BINARY_DOUBLE
BINARY_DOUBLE 是一种 64 位,双精度浮点数字数据类型。每个 BINARY_DOUBLE 值需要9 字节存储空间,其中1 字节用于存储数据值的长度。支持 NUMBER 数据类型所提供的基本功能。但采用二进制精度,而NUMBER 采用十进制精度。因此能够提供更快的数学运算速度,且能减少占用的存储空间。
日期数据类型
Date
ORACLE最常用的日期类型,它可以保存日期和时间,常用日期处理都可以采用这种类型。DATE表示的日期范围可以是公元前4712年1月1日至公元9999年12月31日。
date类型在数据库中的存储固定为7个字节, 第1字节:世纪+100、 第2字节:年、第3字节:月、第4字节:天、第5字节:小时+1、第6字节:分+1、第7字节:秒+1。
Timestamp
ORACLE常用的日期类型,它与date的区别是不仅可以保存日期和时间,还能保存小数秒,小数位数可以指定为0-9,默认为6位,所以最高精度 可以到ns(纳秒),数据库内部用7或者11个字节存储,如果精度为0,则用7字节存储,与date类型功能相同,如果精度大于0则用11字节存储。第1字节:世纪+100、第2字节:年、第3字节:月、第4字节:天、 第5字节:小时+1、第6字节:分+1、第7字节:秒+1、 第8-11字节:纳秒,采用4个字节存储,内部运算类型为整形
注:TIMESTAMP日期类型如果与数值进行加减运算会自动转换为DATE型,也就是说小数秒会自动去除。
TIMESTAMP WITH TIME ZONE
对TIMESTAMP进行了扩展,用于存储时区。时间戳以及时区位移值,其中fractional_seconds_precision是数字在第二日期时间字段的小数部分数字的所有值。可接受的值是0到9。默认是6。默认格式是确定明确的NLS_DATE_FORMAT参数或隐式的NLS_TERRITORY参数。大小固定为13字节。此数据类型包含日期时间字段YEAR,MONTH,日,小时,分钟,秒TIMEZONE_HOUR和TIMEZONE_MINUTE。它有一个明确的分数秒和时区。
TIMESTAMP WITH LOCAL TIME ZONE
所有的TIMESTAMP WITH TIME ZONE值,但下列情况除外:数据标准化数据库的时区时,存储在数据库中。当数据被检索,用户可以看到在会话时区中的数据。
默认格式是确定明确的NLS_DATE_FORMAT参数或隐式的NLS_TERRITORY参数。的大小不同的7至11个字节,取决于精度。
INTERVAL YEAR TO MONTH
存储期间年数和月的时间,其中year_precision是数字的年份日期时间字段的数量。可接受的值是0到9。默认是2。大小固定为5个字节。
INTERVAL DAY TO SECOND
其格式为:INTERVAL DAY [(day_precision)] TO SECOND [(fractional_seconds)],是存储一段时间以天,小时,分钟和秒,其中day_precision是数字在DAY日期时间字段的最大数量。可接受的值是0到9。默认是2。fractional_seconds_precision是数字中的第二个字段的小数部分的数量。可接受的值是0到9。默认是6。大小固定为11个字节。
INTERVAL YEAR TO MONTH
Oracle语法:INTERVAL YEAR [(year_precision )] TO MONTH,用来表示一段时间差, 只精确到年和月. year_precision是数字年的时间段,接受的值为0到9。默认值是2。大小固定为5个字节。
大型对象(LOB)数据类型
Clob
最大4G,存储单字节字符型数据。适用于存储超长文本。
Nclob
最大4G,存储多字节国家字符型数据。适用于存储超长文本。
Blob
最大4G,存储二进制数据。适用于存储图像、视频、音频等。
BFile
最大长度是4GB,在数据库外部保存的大型二进制对象文件,最大长度是4GB。这种外部的LOB类型,通过数据库记录变化情况,但是数据的具体保存是在数据库外部进行的。 Oracle 可以读取、查询BFILE,但是不能写入,不参与事务。
RAW和LONG RAW数据类型
RAW
raw(n)格式,其中n=1 to 2000,可变长二进制数据,在具体定义字段的时候必须指明最大长度n,Oracle 用这种格式来保存较小的图形文件或带格式的文本文件,如Miceosoft Word文档。raw是一种较老的数据类型,将来会逐渐被BLOB、CLOB、NCLOB等大的对象数据类型所取代。
LONG RAW
最大长度是2GB。可变长二进制数据,最大长度是2GB。Oracle 用这种格式来保存较大的图形文件或带格式的文本文件,如Miceosoft Word文档,以及音频、视频等非文本文件。在同一张表中不能同时有long类型和long raw类型,long raw也是一种较老的数据类型,将来会逐渐被BLOB、CLOB、NCLOB等大的对象数据类型所取代。
ROWID和UROWID数据类型
Rowid
ROWID为该表行的唯一标识,是一个伪列,可以用在SELECT中,但不可以用INSERT, UPDATE来修改该值。ROWID列,Oracle使用ROWID列来建立内部索引。你可以引用ROWID的值,但ROWID并不存放在数据库中,你可以创建一个表包含ROWID数据类型。但Oracle不保证该值是合法的rowids。用户必须确保该rowid值是真实合法的。
Urowid
UROWID支持逻辑和物理的rowids,列UROWID类型可以存储各种rowids, 从8.1以后的Oracle才有UROWID类型,它也可以用来保存以前的ROWID类型数据信息。
特殊数据类型
Xmltype
XMLType是Oracle从9i开始特有的数据类型,是一个继承了Blob的强大存在,可以用来存储xml并提供了相当多的 *** 作函数,用来直接读取xml文档和管理节点。理论上可以保存2G大小的数据。作为XML数据的特殊存储类型。Xmltype提供了适合的保存、检索和 *** 作的支持。
Xmlindex
XMLIndex 索引可用于 SQL/XML 函数 XMLExists()、XMLTable() 和 XMLQuery(),而且它在查询的任何部分都有效;它并不限于用在 WHERE 子句中。而您可能用于 XML 数据的其他任何索引都无法做到这一点。
XMLIndex 因此可提高对 SELECT 列表数据和 FROM 列表数据的访问速度,对 XML 片段提取尤为有用。基于函数的索引和 CTXXPath 索引。您无需预先了解将在查询中使用的XPath 表达式。XMLIndex 完全是通用的,而基于函数的索引则不同。可将 XMLIndex 索引用于基于 XML 模式或非基于模式的数据。它可用于二进制 XML 和非结构化存储模型。B 树索引仅适用于以对象关系方式存储(结构化存储)的基于模式的数据;它对于存储在二进制XML 或CLOB 实例中的基于 XML 模式的数据效率低下。可使用 XMLIndex 索引通过 XPath 表达式进行搜索,这些表达式的目标是集合(即文档中出现多次的节点)。而函数索引则不然。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)