普通字符串可以用多种方式编码成unicode字符串,具体要看你究竟选择了哪种编码:
unicodestring
=
u"hello
world"
#
将unicode转化为普通python字符串:"encode"
utf8string
=
unicodestringencode("utf-8")
asciistring
=
unicodestringencode("ascii")
isostring
=
unicodestringencode("iso-8859-1")
utf16string
=
unicodestringencode("utf-16")
#
将普通python字符串转化为unicode:"decode"
plainstring1
=
unicode(utf8string,
"utf-8")
plainstring2
=
unicode(asciistring,
"ascii")
plainstring3
=
unicode(isostring,
"iso-8859-1")
plainstring4
=
unicode(utf16string,
"utf-16")
assert
plainstring1
==
plainstring2
==
plainstring3
==
plainstring4
1什么是pandas numpy模块和pandas模块都是用于处理数据的模块。 numpy主要用于针对数组进行统计计算,处理数字数据比较方便。 pandas除了可以处理数字数据,还可
# ===========找出DataFrame之间的相同行========
(1)问题描述:
在两个DataFrame之间,想要找出相同的行。(类似于求集合之间的交集)
(2)执行命令:
import pandas as pd
same_df = pdmerge(df1, df2, on = ['col1', 'col2', 'col3'], how = 'inner')
(3)使用实例(以下数据都是模拟数据,非真实数据):
df1 =
weather add time
1 台风 重庆市江北区 2018-11-20 00:14:59
2 大雾 重庆市南岸区 2018-11-20 00:44:41
3 暴雨 重庆市渝中区 2018-11-20 11:18:47
df2 =
weather add time
2 大雾 重庆市南岸区 2018-11-20 00:44:41
3 暴雨 重庆市渝中区 2018-11-20 11:18:47
4 重庆市忠县 2018-11-20 21:56:51
same_df_1 = pdmerge(df1, df2)
same_df_1
weather add time
0 大雾 重庆市南岸区 2018-11-20 00:44:41
1 暴雨 重庆市渝中区 2018-11-20 11:18:47
same_df_2 = pdmerge(df1, df2, on = ['weather', 'add', 'time'], how = 'inner')
weather add time
0 大雾 重庆市南岸区 2018-11-20 00:44:41
1 暴雨 重庆市渝中区 2018-11-20 11:18:47
# ========DataFrame内行去重=========
(1)问题描述:
如果DataFrame之间存在相同的行,想要去除里面的重复行
(2)执行命令:
import pandas as pd
dfdrop_duplicates(subset = ['col1', 'col2'])
(3)使用实例(以下都是虚拟数据):
import pandas as pd
data1 = {
"address":['北京','天津','山西','广东','重庆','天津','山西'],
"preference_level": ['4','35','3','35','45','35','3']
}
df = pdDataFrame(data1)
df2 = dfdrop_duplicates(subset=['address','preference_level'])
# =====求DataFrame之间的差集=====
(1)问题描述:
第一种情况,当两个dataframe之间存在交集,且是包含与被包含之间的关系时;第二种情是两者不是包含关系,但是确实存在交集。当然第一种情况的使用方法也适用于第二种。在这两种情况下,如何从df1中删除df1与df2之间相同的元素,仅保留df1中独有的元素??
(2)使用命令:
针对第一种情况
import pandas as pd
df1append(df2)
df1append(df2)
df1 = df1drop_duplicates(subset=['col1', 'col2'], keep=False)
针对第二种情况
df1append(df2)
df1 = df1drop_duplicates(subset=['col1', 'col2'], keep=False)
(3)使用实例(以下都是虚拟数据)
当df1和df2是一种包含关系时,仅使用一次append即可
(4)求解思路:
将df2的内容追加到df1中,如果df1完全包含df2中的内容,则只使用一次append即可,如果df1不完全包括df2中的内容,则需要使用两次append,这是为了保证在在使用drop_duplivates时能够删除df2的全部内容。
先看一个小例子
from pandas import Series, DataFrame
data = DataFrame({'k': [1, 1, 2, 2]})
print data
IsDuplicated = dataduplicated()
print IsDuplicated
print type(IsDuplicated)
data = datadrop_duplicates()
print data
执行结果是:
k
0 1
1 1
2 2
3 2
0 False
1 True
2 False
3 True
k
0 1
2 2
以上就是关于python关于string(字符串)的问题: 删除重复的字母全部的内容,包括:python关于string(字符串)的问题: 删除重复的字母、python(pandas模块)、python DataFrame找出相同行,去重,求差集等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)