跳转至

多进程和多线程

由于全局锁GIL(Global interpreter lock)限制了Python中的多线程,同一时刻只能有一个线程运行,无法发挥多核CPU的优势。首先需要明确GIL并不是Python的特性,它是在实现Python解析器(CPython)时所引入的一个概念。就好比C++是一套语言(语法)标准,可以用不同的编译器来编译成可执行代码,比较有名的编译器如GCC、INTEL C++、Visual C++等。Python也一样,同样一段代码可以通过CPython、PyPy、Psyco等不同的Python执行环境来执行,像其中的CPython 就没有GIL。然而因为CPython是大部分环境下默认的Python执行环境,所以在很多人的概念里CPython就是Python,也就想当然地把GIL归结为Python语言的缺陷。因此,这里需要先明确一点:GIL并不是Python的特性,Python完全可以不依赖于GIL。GIL本质就是一把互斥锁,既然是互斥锁,那么所有互斥锁的本质就都一样,都是将并发运行变成串行,以此来控制同一时间内共享数据只能被一个任务修改,进而保证数据的安全。由于CPython的内存管理机制,因此需要确保共享数据的访问安全,即加锁处理(GIL)。有了GIL的存在,同一时刻同一进程中只有一个线程被执行,那么有读者可能要问了:进程可以利用多核,而Python的多线程却无法利用多核优势,Python的多线程是不是没用了?答案当然不是。首先明确我们线程执行的任务是什么,是做计算(计算密集型)还是做输入/输出(I/O密集型),不同的场景使用不同的方法。多核CPU,意味着可以有多个核并行完成计算,多核提升的是计算性能,但每个CPU一旦遇到I/O阻塞,仍需要等待,所以多核对I/O密集型任务没什么太高提升。

在Python中,对于计算密集型任务,多进程占优势;对于I/O密集型任务,多线程占优势。当然,对运行一个程序来说,随着CPU的增多执行效率肯定会有所提高,这是因为一个程序基本上不会是纯计算或纯I/O,所以我们只能相对的去看一个程序到底是计算密集型还是I/O密集型。

计算密集型任务 多进程和多线程的对比

计算密集型任务-多进程

from multiprocessing import Process
import os,time
#计算密集型任务
def work():
    res = 0
    for i in range(100000000):
        res *= i
if __name__ == "__main__":
    l = []
    print("本机为",os.cpu_count(),"核 CPU")
    start = time.time()
    for i in range(4):
        p = Process(target=work)
        l.append(p)
        p.start()
    for p in l:
        p.join()
    stop = time.time()
    print("计算密集任务,多进程耗时 %s" %(stop - start))

运行结果如下:

本机为 4 核 CPU
计算密集任务,多进程耗时 14.9013434234213

计算密集型任务-多线程

from threading import Thread
import os,time
#计算密集型任务
def work():
    res = 0
    for i in range(100000000):
        res *= i
if __name__ == "__main__":
    l = []
    print("本机为",os.cpu_count(),"核 CPU")
    start = time.time()
    for i in range(4):
        p = Thread(target=work)
        l.append(p)
        p.start()
    for p in l:
        p.join()
    stop = time.time()
    print("计算密集任务,多进程耗时 %s" %(stop - start))

运行结果如下:

本机为 4 核 CPU
计算密集任务,多线程耗时 23.80342342342

I/O密集型任务 多进程和多线程的对比

I/O密集型任务-多进程

from multiprocessing import Process
import os,time
#I/O密集型任务
def work():
    time.sleep(2)
    print("===>",file=open("tmp.txt","w"))

if __name__ == "__main__":
    l = []
    print("本机为",os.cpu_count(),"核 CPU")
    start = time.time()
    for i in range(400):
        p = Process(target=work)
        l.append(p)
        p.start()
    for p in l:
        p.join()
    stop = time.time()
    print("I/O密集型任务,多进程耗时 %s" %(stop - start))

运行结果如下:

本机为 4 核 CPU
I/O密集型任务,多进程耗时 21.323242342342

I/O密集型任务-多线程

from threading import Thread
import os,time
#计算密集型任务
def work():
    time.sleep(2)
    print("===>",file=open("tmp.txt","w"))

if __name__ == "__main__":
    l = []
    print("本机为",os.cpu_count(),"核 CPU")
    start = time.time()
    for i in range(400):
        p = Thread(target=work)
        l.append(p)
        p.start()
    for p in l:
        p.join()
    stop = time.time()
    print("I/O密集型任务,多进程耗时 %s" %(stop - start))

运行结果如下:

本机为 4 核 CPU
I/O密集型任务,多线程耗时 2.323242342342