【北京理工大学-嵩天python语言程序设计-7-文本和数据格式化】_python

第七章学习内容

文件和数据格式化：将一组数据按照一定的规格和样式进行规范表示、存储、运算等。

包括
1.文件的使用
2.自动轨迹绘制
3.一维数据格式化和处理
4.二维数据格式化和处理
5.模块6 wordcloud库的使用
6.政府报告分析

通过本节的学习，达到的目标：
方法论
1.从python 的角度理解文件和数据表示
实践能力
2.学会编写带有文件输入输出的程序，并且实现对数据的表示和 *** 作。

文件的使用
-文件的类型
-文件的打开和关闭
-文件内容的读取
-数据的文件写入

–掌握对文件的读、写等 *** 作相关的能力。

文件的理解
-文件是数据的抽象和集合
-文件是存储在辅助存储器上的数据序列
-文件是数据存储的一种形式
-文件展现形态：文本文件和二进制文件
其中文本文件和二进制文件形态只是文件的展示方式
-本质上，所有文件都是二进制形式存储
-形式上，所有文件都采用2种方式展示

什么是文本文件？
-由单一特定编码组成的文件，如UTF-8编码
-由于存在编码，文本文件也被看成是存储着的长字符串
-适用如：txt文件和py文件

什么是二进制文件呢？
-直接由0和1组成，没有统一字符编码
-一般存在二进制0和1的组织结构，及文件的格式
-如常见的png文件和avi（视频文件）文件等

所有的我呢见都可以以二进制的文件展示。

如文本文件“中国是一个伟大的国家”
其可以转换成二进制形式

python读取文件

f.txt文件内容："中国是一个伟大的国家！"
#文本形式打开
tf=open("f.txt","rt",encoding="utf-8")  ###以文本格式打开，中文的时候需要考虑编码格式
print(tf.readline())
tf.close()

####以二进制的形式读取文件
f.txt文件内容："中国是一个伟大的国家！"
#二进制形式打开
tf=open("f.txt","rb")  ###以二进制格式打开，将文本打开中的rt换成rb，并去掉编码格式
print(tf.readline())
tf.close()

得到的结果是

7.2文件的打开和关闭
文件处理的步骤：打开- *** 作和关闭

注意：Windows路径使用\，\ 在Python中为转义字符，所以用 / 或者 \ 表示 \

文件的打开模式

文件关闭
<变量名>.close()

文件内容的读取

遍历全文本

注意：它们读完之后再读是接着后面读，不是从头开始，文件 *** 作指针停在当前位置。

按数量读入，逐步处理
文件的写入

.seek（offset)
能够按照要求改变指针的位置

fo= open("output.txt","w+")
ls = ["中国","法国","美国"]
fo.writelines(ls)
for line in fo:
	print(line)
fo.close()
>>> (没有任何输出)
###此时写入信息后，指针位于当前位置，因此在打印的时候，是从当前最新的位置打印，因此没有信息输出，而seek函数能够调整指针的位置，因此可以打印数据出来

fo= open("output.txt","w+")
ls = ["中国","法国","美国"]
fo.writelines(ls)
fo.seek(0) ###让指针位于文件的开头，因此此时可以读出写入的新的信息
for line in fo:
	print(line)
fo.close()
>>> 中国法国美国

小结

第二节自动轨迹绘制
步骤1：定义数据文件格式（接口）
步骤2：编写程序，根据文件接口解析参数，绘制图形
步骤3：编制数据文件

问题分析及预期
需要通过一组数据接口实现自动绘制轨迹

import turtle as t

t.title("自动轨迹绘制")
t.setup(800,600,0,0)
t.pencolor("red")
t.pensize(5)
#数据读取
datals=[]
f=open("Desktop/data.txt")
for line in f:
    line=line.replace("\n","")
    datals.append(list(map(eval,line.split(","))))
f.close()

##自动绘制
for i in range(len(datals)):
    t.pencolor(datals[i][3],datals[i][4],datals[i][5])
    t.fd(datals[i][0])
    if datals[i][1]:
        t.right(datals[i][2])
    else:
        t.left(datals[i][2])

一维数据的格式化和处理
7.3.1数据组织的维度
-一维数据：由对等关系的有序或者无序数据构成，采用线性方式组织，对应列表、数组和集合等概念
-二维数据：由多个一维数据构成，是一维数据的组合形式，表格
-多维数据：由一维或二维数据在新的维度上扩展形成
-高维数据：仅利用最基本的二元关系展示数据间的复杂结构，键值对
数据的 *** 作周期：存储–表示– *** 作

7.3.2 一维数据的表示
-如果数据间有序：使用列表类型
-如果数据间无序，采用集合类型
采用for循环进行遍历

7.3.3 一维数据的存储
-存储方式1：空格分隔
存储方式2：逗号分隔
存储方式3：其他特殊符号或者符号组合分割，如$，建议采用特殊符号

7.3.4一维数据的处理
-一维数据的读入处理：从空格分隔符的文件读入数据

txt= open("Desktop/threekingdoms.txt", "r", encoding="utf-8").read()
ls = txt.split()
f.close()

-一维数据的写入处理：
采用空格分割方式将数据写入文件

ls = ['中国','美国','日本']
f = open("Desktop/Iron.txt", 'w')
f.write(" ".join(ls))
f.close()

7.4.1二维数据的表示
-列表类型可以表达二维数据
-使用二维列表，使用两层for循环遍历每个元素

7.4.2CSV数据存储格式
-CSV：Comma-Separated Values(逗号分隔的值）
-国际通用的一二维数据存储格式，一般以CSV为扩展名
-Excel 和一般的编辑软件都可以读入或存储为CSV格式
-如果某个元素缺失，逗号仍要保留
-二维数据的表头可以作为数据存储，也可以另行存储
-逗号为英文半角逗号，逗号与数据之间无需额外空格

7.4.3二维数据的存储
-一般索引习惯：ls[row][column]
-根据习惯：外层列表每个元素是一行，按照行存。

7.4.4 二维数据的处理
-从CSV格式的文件中读入数据

fo= open("Desktop/通风橱.csv",encoding="utf-8")
ls = []
for line in fo:
    line = line.replace("\n","")
    ls.append(line.split(",")) 
fo.close()
ls

for row in ls:
    for column in row:
        print(column)

-将数据写入CSV格式的文件

ls = [[],[],[]] #二维列表
f = open("Desktop/通风橱2.csv",'w')
for item in ls:
    f.write(','.join(item) + '\n') 
f.close()
f
ls

-二维数据的逐一处理

ls = [[1,2],[3,4],[5,6]] #二维列表
for row in ls:
    for column in row:
    	print(column)

本小节总结二维数据的格式化和处理

-二维数据的表示：列表类型，其中每个元素也是一个列表
-CSV格式：逗号分割表示一维，按行分割表示二维
-二维数据的处理：for循环+.split()和.join()

7.4.5wordcloud可视化词汇
wordcloud的安装
https://blog.csdn.net/misshanbao/article/details/104965985
wordcloud是一个优秀的词云展示第三方库
-wordcloud.WordCloud(）代表一个文本对应的词云对象
-可以根据文本中词语出现的频率等参数绘制词云
-词云的绘制形状和尺寸可以根据需要自行设置
wordcloud库的常规用法

首先将wordcloud.WordCloud(）赋给w，随后使用其不同的功能

import wordcloud
w = wordcloud.WordCloud()  # 配置对象参数
w.generate("wordcloudby Python")  # 加载词云文本
w.to_file("Desktop/pywordcloud.png")  # 输出词云文件

wordcloud在进行文本处理绘制词云的时候进行过哪些默认 *** 作？

wordcloud库在使用时候参数配置

import wordcloud
txt = "life is short, you need python"
w = wordcloud.WordCloud(background_color= "white")
w.generate(txt)
w.to_file("pywcloud.png")

import jieba
import wordcloud
txt = "程序设计语言是计算机能够理解和\
识别用户 *** 作意图的一种交互体系，它按照\
特定规则组织计算机指令，使计算机能够自\
动进行各种运算处理。"
w = wordcloud.WordCloud( width=1000,\
font_path="msyh.ttc",height=700)
w.generate(" ".join(jieba.lcut(txt)))
w.to_file("pywcloud.png")

政府工作报告词云绘制
http://www.gov.cn/xinwen/2021-03/13/content_5592681.htm

import jieba
import wordcloud

f=open("Desktop/政府工作报告.txt","r",encoding="utf-8")
t = f.read()
f.close()
ls = jieba.lcut(t)
txt = " ".join(ls)
w = wordcloud.WordCloud(font_path="msyh.ttc",
                        width=1000, height=700, background_color="white",mask=mask,
                        stopwords={'的', '和', '是', '在', '以', '为', '对',"等"})
w.generate(txt)
w.to_file("Desktop/grwordcloud12345.png")

得到的结果

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/870649.html