Python与文件流

Python读写文件非常简单,本文除了介绍简单的读写字符文件和字节文件以外,还会介绍文件对象的属性方法和文件流的一些操作,文章内容包含以下方面:

  1. 字符文件和字节文件
  2. 读写字符文件
  3. 读写字节文件
  4. 上下文with操作文件
  5. 分析文件对象的源码
  6. 文件流的属性方法

字符文件和字节文件

字符文件通常是一些存储字符串的文本文件。在windows记事本创建的txt文件,程序的源代码文件,网页的html文件都是字符文件;字节文件是指存储字节码的文件,也是二进制的文件。比如windows下可执行的exe文件,图片,音频视频文件都是二进制文件。这些文件由0和1构成。

理论上说所有在计算机上面的文件最终存储形式都是0和1的文件,下面是一个图片文件的二进制,通常是转为16进制,就长这样子:

00000000: 8950 4e47 0d0a 1a0a 0000 000d 4948 4452  .PNG........IHDR
00000010: 0000 0374 0000 0370 0806 0000 0067 0128  ...t...p.....g.(
00000020: ad00 0004 1969 4343 506b 4347 436f 6c6f  .....iCCPkCGColo
00000030: 7253 7061 6365 4765 6e65 7269 6352 4742  rSpaceGenericRGB
00000040: 0000 388d 8d55 5d68 1c55 143e bb73 6723  ..8..U]h.U.>.sg#
00000050: 24ce 536c 3485 74a8 3f0d 250d 9356 34a1  $.Sl4.t.?.%..V4.
00000060: b4ba 7fdd dd36 6e96 4936 da22 e864 f6ee  .....6n.I6.".d..
00000070: ce98 c9ce 3833 bbfd a14f 4550 7c31 ea9b  ....83...OEP|1..
00000080: 14c4 bfb7 8020 28f5 0fdb 3eb4 2f95 0a25  ..... (...>./..%
00000090: dad4 2028 3eb4 f883 50e8 8ba6 eb99 3b33  .. (>...P.....;3
000000a0: 9969 bab1 de65 ee7c f39d ef9e 7bee b967  .i...e.|....{..g
000000b0: ef05 e8b9 aa58 9691 1401 169a ae2d 1732  .....X.......-.2
000000c0: e273 878f 883d 2b90 8487 a017 06a1 5751  .s...=+.......WQ
000000d0: 1d2b 5da9 4c02 364f 0b77 b55b df43 c27b  .+].L.6O.w.[.C.{
000000e0: 5fd9 d5dd fe9f adb7 461d 1520 711f 62b3  _.......F.. q.b.
000000f0: e6a8 0b88 8f01 f0a7 55cb 7601 7afa 911f  ........U.v.z...
00000100: 3fea 5a1e f662 e8b7 3140 c42f 7ab8 e163  ?.Z..b..1@./z..c

根据文件类型通常分为字符文件和字节文件(二进制文件),于是Python中操作这两种文件都有对应的方法,不要用混了。

读写字符文件

读写普通的字符文件非常容易。比如创建一个字符文件,并且往里面写入1-100的数字。每个数字占一行。

filename = "demo.txt"
# 以写入的方式创建文件,如果不存在则直接创建
# 如果存在则会覆盖
fd = open(filename, 'w')

for num in range(1, 101):
    # 写入比如是str的字符
    # 拼接换行符
    fd.write(str(num) + "\n")
# 关闭文件对象
fd.close()

接下来读取这个文件,并且计算出这些数字的总和。

total = 0

for line in open("demo.txt"):
    total += int(line.strip()) # 去除末尾换行符

print(total)

# 5050

读取文件一行代码就能搞定。

读写字节文件

字节文件的读取与字符文件读取基本一样,唯一的区别在于指定读写文件模式,open函数有一个参数mode,字节文件的读取为“rb”,写入为“wb”,其中b的意思是binary。

首先读取图片,然后再把这张图片写入另外的字节文件,有点像复制与粘贴。先来看读取字节码文件,然后打印出来:

fd = open("pic.png", "rb")
content = fd.read()
print(content)
fd.close()

输出内容是:

x94\x9cqk\x04\x9c\x8cQMa\xb0S\xe9\xdb\x9d\xdb\xbc\x9dYxMO\x13...

这个就是unicode编码,Python在处理数据时,在内存中统一的编码都是unicode码。我们把读取的unicode编码写入字节文件,就得到原始的图片了。

fd = open("pic.png", "rb")
content = fd.read()
print(content)
fd.close()

fw = open("out.png", "wb")
fw.write(content)
fw.close()

明白了这个原理,用Python在网上下载图片或者视频的时候就能用上了,本质上就是把网上的字节文件,写入本地磁盘。就是这么容易。

上下文with操作文件

with语句是一种上下文资源管理协议,使用with语句格式可以专注于你的操作,而忽视资源的关闭。因为资源打开以后,可能会有问题,导致资源无法回收而占用系统资源。使用with可以这样操作。

with open("demo.txt") as fd:
    for num in range(1, 101):
        # 写入比如是str的字符
        # 拼接换行符
        fd.write(str(num) + "\n")
with open("pic.png", "rb") as fd:
    content = fd.read()
    print(content)

with open("out.png", "wb") as fw:
    fw.write(content)

省掉了关闭文件的操作,在with的语境下,你的程序出现异常,文件依然能够保证关闭。

分析文件对象的源码

open函数的源码使用C语言实现的,属于builtins方法(内建方法)。我们来看看几个关键参数:

def open(file, mode='r',
         buffering=None, 
         encoding=None, 
         errors=None, 
         newline=None, 
         closefd=True):  # known special case of open
         """
         Open file and return a stream.  Raise OSError upon failure...
         """
    pass

file 不需要多说,文件的名称。mode用很多参数,r和w以及b都已经用过了,a是append的意思,以写的方式打开,追加的文件最后。+号的含义是以更新的方式打开,包括读和写操作。

 ===============================================================
    Character Meaning
    --------- ---------------------------------------------------------------
    'r'       open for reading (default)
    'w'       open for writing, truncating the file first
    'x'       create a new file and open it for writing
    'a'       open for writing, appending to the end of the file if it exists
    'b'       binary mode
    't'       text mode (default)
    '+'       open a disk file for updating (reading and writing)
    'U'       universal newline mode (deprecated)
    ========= ===============================================================

buffering 参数表示缓冲区的的策略。分别取值为None,0,1,大于1。None表示默认的策略,数据块大小为8192个字节,每次读写的单位就是这个数据块大小。读写文件首先会读写在一块缓冲区,然后再把内容flush进文件,对于大文件的操作会修改这个参数,例如要给一个大于内存的文件内容进行排序或者搜索,只能分块读入内存中。其余策略可以参考源码。

encoding 编码方式,只能在字符文件中有效,字节文件没有编码方式。不指定这个参数通常会根据系统的来决定,如果读取文件出现乱码,则考虑指定文件的编码方方式,最常用的就是utf-8和gbk两种。

看完了这几个参数我们来看看返回值,就是io模块下的TextIOWrapper类。于是我们打开这个类,顺便打印出属性和方法:

>>> open("file1.txt")
>>> <_io.TextIOWrapper name='file1.txt' mode='r' encoding='UTF-8'>
>>> from io import TextIOWrapper
>>> for each in dir(TextIOWrapper):
   ...: if not each.startswith("_"):
   ...:     print(each)
   # 内容较多省略

如果使用IDE查看源码最方便,打开源码我们发现这个类又是内建模块。我们接下来看看文件流的一些常用方法。

文件流的属性方法

open函数返回的对象就是文件流(_Open file and return a stream. Raise OSError upon failure_)。上面我们看到返回的是__io.TextIOWrapper_这个类。文件流有很多方法,上面已经用到了一些,例如read读取全部内容,write写入内容。接下来我们通过一个例子来说明这些方法。

# 创建文件,写入1-100,并且每个一个数字占一行
In [5]: with open("demo.txt", 'w') as fd:
   ...:     for num in range(1, 101):
   ...:         fd.write(str(num)+"\n")
   ...:
   In [8]: fd = open("demo.txt")

In [9]: fd
Out[9]: <_io.TextIOWrapper name='demo.txt' mode='r' encoding='UTF-8'>

In [10]: help(fd.readline)

In [11]: fd.readline() # 每次读取一行
Out[11]: '1\n'

In [12]: fd.readline()
Out[12]: '2\n'

In [13]: fd.readline()
Out[13]: '3\n'

In [14]: fd.readline()
Out[14]: '4\n'

In [15]: fd.readline()
Out[15]: '5\n'

In [16]: fd.readline()
Out[16]: '6\n'
# 每次读取两个字符,指针的位置在第13个字符的位置了(从0开始)
In [17]: fd.tell() # 查看指针位置
Out[17]: 12

In [18]: fd.read() # 从当前指针位置读取剩余全部内容
Out[18]: '7\n8\n9\n10\n11\n12\n13\n14\n15\n16\n17\n18\n19\n20\n21\n22\n23\n24\n25\n26\n27\n28\n29\n30\n31\n32\n33\n34\n35\n36\n37\n38\n39\n40\n41\n42\n43\n44\n45\n46\n47\n48\n49\n50\n51\n52\n53\n54\n55\n56\n57\n58\n59\n60\n61\n62\n63\n64\n65\n66\n67\n68\n69\n70\n71\n72\n73\n74\n75\n76\n77\n78\n79\n80\n81\n82\n83\n84\n85\n86\n87\n88\n89\n90\n91\n92\n93\n94\n95\n96\n97\n98\n99\n100\n'

In [19]: fd.read() # 再往下读为空了
Out[19]: ''
In [20]: fd.tell() # 查看指针的位置
Out[20]: 292 # 292意味着已经输出了292个字符长度了

很容易计算出来9\times 2 +3\times90 + 4=292,指针的偏移量为292个字符,已经到了文件的末尾了。既然可以获取到文件的指针位置,那么如何移动文件指针的位置呢?这就用到seek方法了。

In [21]: fd.read()
Out[21]: ''
# 再次read发现指针的位置不会变化了
In [22]: fd.tell()
Out[22]: 292
In [23]: fd.seek(0) # 指针回到开始位置
Out[23]: 0
In [24]: fd.tell() # 获取指针位置
Out[24]: 0
In [25]: data = fd.readlines()# 这次我们读取所有行

In [26]: data[:10] # 查看前10个元素
Out[26]: ['1\n', '2\n', '3\n', '4\n', '5\n', '6\n', '7\n', '8\n', '9\n', '10\n']

readlines方法按行读取所有的数据(注意每个元素包含了换行符)。这里补充seek(offset,reference_point),其中offset是偏移量,reference_point相对指针的位置,取值为0表示开始位置,1表示当前位置,2表示结束位置。这种情况只适用于字节方式打开的文件,如果以字符方式打开,无法实现相对位置的偏移

In [1]: fd = open("demo.txt", "rb") # 二进制方式打开文件

In [2]: fd.readline()
Out[2]: b'1\n'

In [3]: fd.readline()
Out[3]: b'2\n'

In [4]: fd.tell()
Out[4]: 4

In [5]: fd.seek(-10, 2) # 支持相对位置偏移量
Out[5]: 282

In [6]: fd.read(10)
Out[6]: b'98\n99\n100\n'

除了这几个常用的方法以外,还有一些方法不是很常用,例如detach,isatty,reconfigure等等,如果在实际中碰到复杂的文件流问题,需要进一步查看底层的C语言源码,或者用C写扩展方法。

总结一下

本文重点整理了Python操作字符文件和字节文件的方法,对于基本的读写使用,几行代码就能搞定;除此之外建议使用with的上下文语句,这样避免手动进行资源管理;后续进一步介绍了文件流对象,以及对象的部分方法,重点介绍了文件指针的操作,操作文件指针时字节文件和字符文件是存在差别的。碰到复杂的问题,例如需要对同一个文件进行读写操作,会用到文件指针。

关注机器学习和算法的码农,喜欢编程和读书
文章已创建 66

发表评论

电子邮件地址不会被公开。

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部