python关于string(字符串)的问题: 删除重复的字母

python关于string(字符串)的问题: 删除重复的字母,第1张

普通字符串可以用多种方式编码成unicode字符串,具体要看你究竟选择了哪种编码:

unicodestring

=

u"hello

world"

#

将unicode转化为普通python字符串:"encode"

utf8string

=

unicodestringencode("utf-8")

asciistring

=

unicodestringencode("ascii")

isostring

=

unicodestringencode("iso-8859-1")

utf16string

=

unicodestringencode("utf-16")

#

将普通python字符串转化为unicode:"decode"

plainstring1

=

unicode(utf8string,

"utf-8")

plainstring2

=

unicode(asciistring,

"ascii")

plainstring3

=

unicode(isostring,

"iso-8859-1")

plainstring4

=

unicode(utf16string,

"utf-16")

assert

plainstring1

==

plainstring2

==

plainstring3

==

plainstring4

1什么是pandas numpy模块和pandas模块都是用于处理数据的模块。 numpy主要用于针对数组进行统计计算,处理数字数据比较方便。 pandas除了可以处理数字数据,还可

#   ===========找出DataFrame之间的相同行========

(1)问题描述:

在两个DataFrame之间,想要找出相同的行。(类似于求集合之间的交集)

(2)执行命令:

import pandas as pd

same_df = pdmerge(df1, df2, on = ['col1', 'col2', 'col3'], how = 'inner')

(3)使用实例(以下数据都是模拟数据,非真实数据):

df1 =

    weather       add                time

1      台风  重庆市江北区  2018-11-20 00:14:59

2      大雾  重庆市南岸区  2018-11-20 00:44:41

3      暴雨  重庆市渝中区  2018-11-20 11:18:47

df2 =

     weather       add                time

2      大雾  重庆市南岸区  2018-11-20 00:44:41

3      暴雨  重庆市渝中区  2018-11-20 11:18:47

4               重庆市忠县      2018-11-20 21:56:51

same_df_1 = pdmerge(df1, df2)

same_df_1

  weather    add                time

0      大雾  重庆市南岸区  2018-11-20 00:44:41

1      暴雨  重庆市渝中区  2018-11-20 11:18:47

same_df_2 = pdmerge(df1, df2, on = ['weather',  'add',  'time'], how = 'inner')

  weather    add                time

0      大雾  重庆市南岸区  2018-11-20 00:44:41

1      暴雨  重庆市渝中区  2018-11-20 11:18:47

#  ========DataFrame内行去重=========

(1)问题描述:

如果DataFrame之间存在相同的行,想要去除里面的重复行

(2)执行命令:

import pandas as pd

dfdrop_duplicates(subset = ['col1', 'col2'])

(3)使用实例(以下都是虚拟数据):

import pandas as pd

data1 = {

    "address":['北京','天津','山西','广东','重庆','天津','山西'],

    "preference_level": ['4','35','3','35','45','35','3']

}

df = pdDataFrame(data1)

df2 = dfdrop_duplicates(subset=['address','preference_level'])

# =====求DataFrame之间的差集=====

(1)问题描述:

第一种情况,当两个dataframe之间存在交集,且是包含与被包含之间的关系时;第二种情是两者不是包含关系,但是确实存在交集。当然第一种情况的使用方法也适用于第二种。在这两种情况下,如何从df1中删除df1与df2之间相同的元素,仅保留df1中独有的元素??

(2)使用命令:

针对第一种情况

import pandas as pd

df1append(df2)

df1append(df2)

df1 = df1drop_duplicates(subset=['col1', 'col2'], keep=False)

针对第二种情况

df1append(df2)

df1 = df1drop_duplicates(subset=['col1', 'col2'], keep=False)

(3)使用实例(以下都是虚拟数据)

当df1和df2是一种包含关系时,仅使用一次append即可

(4)求解思路:

将df2的内容追加到df1中,如果df1完全包含df2中的内容,则只使用一次append即可,如果df1不完全包括df2中的内容,则需要使用两次append,这是为了保证在在使用drop_duplivates时能够删除df2的全部内容。

先看一个小例子

from pandas import Series, DataFrame

data = DataFrame({'k': [1, 1, 2, 2]})

print data

IsDuplicated = dataduplicated()

print IsDuplicated

print type(IsDuplicated)

data = datadrop_duplicates()

print data

执行结果是:

k

0 1

1 1

2 2

3 2

0 False

1 True

2 False

3 True

k

0 1

2 2

以上就是关于python关于string(字符串)的问题: 删除重复的字母全部的内容,包括:python关于string(字符串)的问题: 删除重复的字母、python(pandas模块)、python DataFrame找出相同行,去重,求差集等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/9759914.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存