zl程序教程

您现在的位置是:首页 >  后端

当前栏目

《Python数据科学实践指南》一2.2 字符串

Python数据 指南 字符串 2.2
2023-09-11 14:16:11 时间

本节书摘来自华章出版社《Python数据科学实践指南》一书中的第2章,第2.2节,纪路 著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 字符串

在第1章中我们已经接触过字符串了,Python不像其他语言一样有字符类型,在Python中,一个字符仅仅是包含一个字符的字符串。而且字符串也能够进行运算,主要支持两种运算符“+”和“*”,示例代码如下:

 "a" + "b"

 "a"*3

aaa

 a b

这两个运算符很容易理解,“+”代表字符串拼接,可以组合两个字符串;“”代表复制多份然后拼接,“”后面的数字就是需要复制的份数;当比较两个字符串时是按照字典顺序比较大小的。称为运算符的重载。由于字符串类型是一种序列类型,所以当我们只想取得这个序列中的一部分时,可以使用Python中的分片操作:

 s = abcdefg

 s[1:-1]

bcdef

 s[1]

 s[-1]

这里首先将字符串“abcdefg”赋值给变量s,然后在s后面用一对方括号将两个数字和一个冒号括起来,输出的结果正好是去掉第一个和最后一个字符,这就是Python中对于序列类型的对象所进行的分片操作,冒号前后的两个值为分片的位置。1代表序列中位置为1的值,–1代表序列中倒数第一个值。这里需要注意的是,在Python中序列索引是以0开始的,而且支持负数索引,不过负数索引是从–1开始的,这很容易理解,因为数学里的实数域没有–0这个值。而且区间是左闭右开的,即[1:–1]代表从索引为1(并且包括1)的值开始,直到索引为–1(不包括–1)的值。初学编程的人可能会难以理解序列分片为什么要这样设计,但实际上这种左闭右开的区间是很方便的一种结构,在2.2节讲解循环的时候会做进一步讲解。另外针对序列分片还有一个小技巧:

 s[1:-1:2]

bdf

 s[1:-1:1]

bcdef

如果在代表分片的方括号中再增加一个冒号之后跟一个数字,那么这个数字就代表以什么样的步长进行分片?假设这个值为2,分片会前进两个字符再取出一个字符,就会得到“bdf”这样的结果。实际上如果不指定则最后一个数字默认的步长为1,s[1:-1:1]”与“s[1:-1]”的结果是一致的。当然步长也可以是负数,聪明的读者肯定一下子就会明白我的用意:

 s[::-1]

gfedcba

这里在步长为–1时左右颠倒了这个字符串。而且当选取整个序列时,起始和终止索引可以省略,只留下两个冒号即可。所以在Python中分片的完整表达式如下:
s[start:end:step]
当指定的索引超出了字符串的长度时,我们就会得到一个异常:

 s[-11]

Traceback (most recent call last):

 File " stdin ", line 1, in module 

IndexError: string index out of range

Python的异常是从上向下阅读,最后一行“IndexError”代表错误的类型,“File”开始的这一行中“line 1”代表出错程序在文件中的行号,这些信息有助于我们找到程序出错的位置,后续的章节会有专门介绍异常处理的内容。
最后,对于一个字符串,要知道如何确定其长度,代码如下:

 len(s)

这很容易,“len()”是一个内置的函数,可以获取任意序列类型对象的长度,在这里s字符串拥有7个字符。


比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南 本文介绍t-SNE聚类算法,分析其基本原理。并从精度上与PCA等其它降维算法进行比较分析,结果表明t-SNE算法更优越,本文最后给出了R、Python实现的示例以及常见问题。t-SNE算法用于自然语音处理、图像处理等领域很有研究前景。