-
randn函数:返回一个或一组样本,具有标准正态分布。参数为每个维度的大小
-
ip 函数:用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
-
如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号 *** 作符,可以将元组解压为列表。
-
-
np.dot:矩阵乘法
-
range:的返回值就是一个list,在你调用range的时候,Python会产生所有的元素。而xrange是一个特别设计的可迭代对象,它在建立的时候仅仅保存终止值。
-
fit()函数:求得训练集X的均值,方差,最大值,最小值这些训练集X固有的属性。可以理解为一个训练过程
-
transform(): 在fit的基础上,进行标准化,降维,归一化等 *** 作(看具体用的是哪个工具,如PCA,StandardScaler等)
-
fit_transform(): 是fit和transform的组合,既包括了训练又包含了转换。
-
with open(路径,'r',encoding='')as f:打开路径指定文件
-
tf_dic.get(w,0):get函数的用法是在字典中找到对应的key对应的值,如果不存在,则设置为0
-
sorted函数的参数:要排序的序列,进行排序的依据,reverse为false时是升序排序,为true时表示是降序排序
-
#lambda:匿名函数,语法:参数:函数体
-
os.path.dirname()#去掉文件名,返回目录
-
os.path.abspath:获取当前脚本的完整路径
-
os.path.exists():#判断括号里的文件是否存在的意思,括号内的可以是文件路径。
-
urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)
-
将URL表示的网络对象复制到本地文件。如果URL指向本地文件,则对象将不会被复制,除非提供文件名。返回一个元组()(filename,header),
-
其中filename是可以找到对象的本地文件名,header是urlopen()返回的对象的info()方法(用于远程对象)。
-
第二个参数(如果存在)指定要复制到的文件位置(如果没有,该位置将是一个生成名称的tempfile)。第三个参数,如果存在,则是一个回调函数,它将在建立网络连接时调用一次,并且在此后每个块读取后调用一次。这个回调函数将传递三个参数;到目前为止传输的块计数,以字节为单位的块大小,以及文件的总大小。
-
第三个参数可能是-1,在旧的FTP服务器上,它不返回文件大小以响应检索请求。
-
-
- with gzip.open(file_path, 'rb') as f:
- 压缩文件打开后,拥有普通文件对象一样的方法,如read、readline、readlines、write、writelines等
- 读取内容,可以获得解压缩后的数据
- 写入内容,能够完成对数据的压缩
- np.frombuffer:用于实现动态数组。接受 buffer 输入参数,以流的形式读入转化成 ndarray(ndarray对象是用于存放同类型元素的多维数组) 对象。
- pickle.dump(dataset, f, -1)#将 Python 中的对象序列化成二进制对象,并写入文件;
- pickle.load(f)#读取指定的序列化数据文件,并返回对象。
- enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。
- astype()方法强制转换数据的类型
- f.readline() #用于读取文件中的一行,包含最后的换行符“\n”
- string.punctuation:找出字符串中的所有的标点
- re.escape: 可以对字符串中所有可能被解释为正则运算符的字符进行转义的应用函数。如果字符串很长且包含很多特殊技字符,而你又不想输入一大堆反斜杠,或者字符串来自于用户(比如通过raw_input函数获取输入的内容),且要用作正则表达式的一部分的时候,可以使用这个函数。
- str.format():基本语法是通过 {} 和 : 来代替以前的 % 。format 函数可以接受不限个参数,位置可以不按顺序。
- re.compile()是用来优化正则的,它将正则表达式转化为对象
- pattern.sub:会逐个找出text(string)中与field_pat(pattern)中匹配的字符串并将其替换成replacement(repl)返回的字符串。
- filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表
- 该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判断,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。
- ' '.join():将括号中的容器(可以是字符串,列表,元组等)中的元素拆分以‘ ’中的的符号分割,并返回一个字符串
- startswith():#用于检查字符串是否是以指定子字符串开头,如果是则返回 True,否则返回 False。如果参数 beg 和 end 指定值,则在指定范围内检查。
- set() 函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等。
- items() 函数以列表返回可遍历的(键, 值) 元组数组。
- keys() 方法以列表形式(并非直接的列表,若要返回列表值还需调用list函数)返回字典中的所有的键。
- sign()是Python的Numpy中的取数字符号(数字前的正负号)的函数。
- cmp_to_key:将比较函数(comparison function)转化为关键字函数
- reverse()方法没有返回值,但是会对列表的元素进行反向排序。
- pickle.load(f)#读取指定的序列化数据文件,并返回对象。
- pickle.dump(self.A_dic,f):将 Python 中的对象序列化成二进制对象,并写入文件;
- line.strip():用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
- if not line:判断line是否为null
- extend(list)#
- 将分割出来的每一个部分进行标记
- 用于在列表末尾一次性追加另一个序列中的多个值(用新列表扩展原来的列表)
- find() 方法检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,如果包含子字符串返回开始的索引值,否则返回-1
- os.path.join()函数:连接两个或更多的路径名组件
- 如果各组件名首字母不包含’/’,则函数会自动加上
- 如果有一个组件是一个绝对路径,则在它之前的所有组件均会被舍弃
- 如果最后一个组件为空,则生成的路径以一个’/’分隔符结尾
- write()可以向文件中写入指定内容。
- TfidfTransformer():
- 输入:词频TF
- 输出:词频逆反文档频率TF-IDF(即词频TF与逆反文档频率IDF的乘积,IDF的标准计算公式为 :idf=log[n/(1+df)],其中n为文档总数,df为含有所计算单词的文档数量,df越小,idf值越大,也就是说出现频率越小的单词意义越大)
- train_test_split,所在包:sklearn.model_selection,功能:划分数据的训练集与测试集
#参数:特征数据和标签数据,测试集/训练集的大小,随机种子(一个整数),其实就是一个划分标记,对于同一个数据集,如果- rondom_state相同,则划分结果也相同。 - jieba.cut生成的是一个生成器,generator,也就是可以通过for循环来取里面的每一个词
jieba.lcut 直接生成的就是一个list - split函数:
- 当不给split函数传递任何参数时,分隔符sep会采用任意形式的空白字符:空格、tab、换行、回车以及formfeed。
- maxsplit参数表明要分割得到的list长度。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)