多进程和多线程

由于全局锁GIL（Global interpreter lock）限制了Python中的多线程，同一时刻只能有一个线程运行，无法发挥多核CPU的优势。首先需要明确GIL并不是Python的特性，它是在实现Python解析器（CPython）时所引入的一个概念。就好比C++是一套语言（语法）标准，可以用不同的编译器来编译成可执行代码，比较有名的编译器如GCC、INTEL C++、Visual C++等。Python也一样，同样一段代码可以通过CPython、PyPy、Psyco等不同的Python执行环境来执行，像其中的CPython 就没有GIL。然而因为CPython是大部分环境下默认的Python执行环境，所以在很多人的概念里CPython就是Python，也就想当然地把GIL归结为Python语言的缺陷。因此，这里需要先明确一点：GIL并不是Python的特性，Python完全可以不依赖于GIL。GIL本质就是一把互斥锁，既然是互斥锁，那么所有互斥锁的本质就都一样，都是将并发运行变成串行，以此来控制同一时间内共享数据只能被一个任务修改，进而保证数据的安全。由于CPython的内存管理机制，因此需要确保共享数据的访问安全，即加锁处理（GIL）。有了GIL的存在，同一时刻同一进程中只有一个线程被执行，那么有读者可能要问了：进程可以利用多核，而Python的多线程却无法利用多核优势，Python的多线程是不是没用了？答案当然不是。首先明确我们线程执行的任务是什么，是做计算（计算密集型）还是做输入／输出（I/O密集型），不同的场景使用不同的方法。多核CPU，意味着可以有多个核并行完成计算，多核提升的是计算性能，但每个CPU一旦遇到I/O阻塞，仍需要等待，所以多核对I/O密集型任务没什么太高提升。

在Python中，对于计算密集型任务，多进程占优势；对于I/O密集型任务，多线程占优势。当然，对运行一个程序来说，随着CPU的增多执行效率肯定会有所提高，这是因为一个程序基本上不会是纯计算或纯I/O，所以我们只能相对的去看一个程序到底是计算密集型还是I/O密集型。

计算密集型任务多进程和多线程的对比

计算密集型任务-多进程

from multiprocessing import Process
import os,time
#计算密集型任务
def work():
    res = 0
    for i in range(100000000):
        res *= i
if __name__ == "__main__":
    l = []
    print("本机为",os.cpu_count(),"核 CPU")
    start = time.time()
    for i in range(4):
        p = Process(target=work)
        l.append(p)
        p.start()
    for p in l:
        p.join()
    stop = time.time()
    print("计算密集任务，多进程耗时 %s" %(stop - start))

运行结果如下：

本机为 4 核 CPU
计算密集任务，多进程耗时 14.9013434234213

计算密集型任务-多线程

from threading import Thread
import os,time
#计算密集型任务
def work():
    res = 0
    for i in range(100000000):
        res *= i
if __name__ == "__main__":
    l = []
    print("本机为",os.cpu_count(),"核 CPU")
    start = time.time()
    for i in range(4):
        p = Thread(target=work)
        l.append(p)
        p.start()
    for p in l:
        p.join()
    stop = time.time()
    print("计算密集任务，多进程耗时 %s" %(stop - start))

运行结果如下：

本机为 4 核 CPU
计算密集任务，多线程耗时 23.80342342342

I/O密集型任务多进程和多线程的对比

I/O密集型任务-多进程

from multiprocessing import Process
import os,time
#I/O密集型任务
def work():
    time.sleep(2)
    print("===>",file=open("tmp.txt","w"))

if __name__ == "__main__":
    l = []
    print("本机为",os.cpu_count(),"核 CPU")
    start = time.time()
    for i in range(400):
        p = Process(target=work)
        l.append(p)
        p.start()
    for p in l:
        p.join()
    stop = time.time()
    print("I/O密集型任务，多进程耗时 %s" %(stop - start))

运行结果如下：

本机为 4 核 CPU
I/O密集型任务，多进程耗时 21.323242342342

I/O密集型任务-多线程

from threading import Thread
import os,time
#计算密集型任务
def work():
    time.sleep(2)
    print("===>",file=open("tmp.txt","w"))

if __name__ == "__main__":
    l = []
    print("本机为",os.cpu_count(),"核 CPU")
    start = time.time()
    for i in range(400):
        p = Thread(target=work)
        l.append(p)
        p.start()
    for p in l:
        p.join()
    stop = time.time()
    print("I/O密集型任务，多进程耗时 %s" %(stop - start))

运行结果如下：

本机为 4 核 CPU
I/O密集型任务，多线程耗时 2.323242342342

多进程和多线程

计算密集型任务 多进程和多线程的对比

I/O密集型任务 多进程和多线程的对比

计算密集型任务多进程和多线程的对比

I/O密集型任务多进程和多线程的对比