IDF文件是什么?

IDF文件是什么?,第1张

IDF文件的全称是:Import Declaration Form,(意思为“进口许缓桐棚可证”),这个IDF文件由肯尼亚进口商在当地办理,然后交给出口商,有了IDF文件后,就可以做PVOC证书了,也叫COC证书。

肯尼亚标准局(KEBS)于2005年9月扰则29日开始实施出口前标准符合性验证计划(PVOC)。PVOC目录内的产品必须在出货前获得符合轮穗性证书(COC),到港时提供给肯尼亚海关,否则将无法入境。如果没有COC特殊情况下可由KEBS决定对该批货物实施检验,并处以罚款。出口肯尼亚的朋友可以直接找艾多检测咨询下。

idf文件是一种简单的能定义数据结构的文本形式的文件,著名建筑能耗分析软件Energy

plus即是用的这种文件格式来描述一个复杂建筑的构成,物兆包括人员、墙壁分布和构成等,例如本例中的in.idf。

可以用开普云表单读写器(Ucap

Reader)打开。该乎蚂物软件支持打开zdf/idf文件两种文件格式,也可以叫做idf文件浏岁液览器。

词频-逆文档频度(Term Frequency - Inverse Document Frequency,液知核TF-IDF) 技术,是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加 ,但同时会 随着它在语料库中出现的频率成反比下降 。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。

以统计一篇文档的关键词为例,最简单的方法就是计算每个词的词频。

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。

出现频率最高的词就是这篇文档的关键词。但是一篇文章中出现频率最高的词肯定是“的”、‘是’、‘也’……这样的词,这些词显然不能闹掘反应文章的意思,此时就需要对每个词加一个权重,最常见的词("的猛团"、"是"、"在")给予最小的权重,较少见的但能反应这篇文章意思的词给予较大的权重,这个权重叫做逆文档频率。

**逆文档频率(nverse Document Frequency,IDF) **是一个词语普遍重要性的度量,它的大小与一个词的常见程度成反比,计算方法是语料库的文档总数除以语料库中包含该词语的文档数量,再将得到的商取对数。

知道了TF和IDF以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。

可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/8185615.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-14
下一篇 2023-04-14

发表评论

登录后才能评论

评论列表(0条)

保存