Python 利用 multiprocessing 模块创建进程池的操作方法

2024-11-4 23:28| 发布者: 2ae29| 查看: 346| 评论: 0

摘要: 目次一、简介二、进程池简介2.1 什么是进程池？2.2 为什么利用进程池？三、利用 multiprocessing模块的基础知识3.1 创建和启动进程四、创建进程池并分配任务4.1 Pool 类的基本用法4.2 Pool.map() 方法4.3 其他常用方

一、简介

在现代盘算中，提升步伐性能的一个关键方法是并行处理，尤其是当处理大量数据或盘算麋集型任务时，单线程可能不够高效。Python 提供了多个模块来支持并行盘算，其中最常用的就是 [code]multiprocessing[/code] 模块。它答应我们在多个处理器上同时运行代码，通过多个进程同时处理任务，极大地提高了服从。

本文将先容如何利用 Python 中的 [code]multiprocessing[/code] 模块，特殊是 进程池 的概念。我们会讲解如何创建进程池并在其上分配任务，通过代码示例帮助你轻松理解这一重要技能。

二、进程池简介

2.1 什么是进程池？

进程池（Process Pool） 是指通过预先创建的一组进程来并发实行任务。通常情况下，系统的进程创建和烧毁是非常耗时的，以是利用进程池可以避免频繁的创建和烧毁开销。我们可以将任务提交给进程池，让它们分配给预先启动的进程进行处理。

进程池最常用于：

大量任务必要并行实行时。
避免频繁的进程创建和烧毁。
有限的系统资源，比方 CPU 核心数有限时，通过控制池的大小来限定并发进程数。

2.2 为什么利用进程池？

在 Python 中，由于 GIL（Global Interpreter Lock，全局表明器锁） 的存在，线程并发无法在 CPU 麋集型任务中充分发挥多核上风。[code]multiprocessing[/code] 模块通过多进程方式绕过 GIL 限定，使得步伐可以或许充分利用多核 CPU 的上风。相比于手动创建和管理多个进程，利用进程池能让我们更轻松地管理并发任务。

进程池的长处包括：

自动管理多个进程的创建和烧毁。
可以方便地并行实行多个任务。
通过池大小控制并发的进程数量，避免资源过分占用。

三、利用 multiprocessing模块的基础知识

在开始利用进程池之前，了解 Python 中 [code]multiprocessing[/code] 模块的基本概念很重要。

3.1 创建和启动进程

在 [code]multiprocessing[/code] 模块中，我们可以通过 [code]Process[/code] 类创建和启动进程。简单示比方下：

[code]import multiprocessing import time def worker(num): """ 工作函数，实行一些任务 """ print(f"Worker {num} is starting") time.sleep(2) # 模拟工作 print(f"Worker {num} is done") if __name__ == '__main__': processes = [] for i in range(5): p = multiprocessing.Process(target=worker, args=(i,)) processes.append(p) p.start() for p in processes: p.join() # 等候全部进程完成[/code]

这个示例演示了如何创建多个进程并并行实行任务，但当任务数许多时，手动管理这些进程就显得复杂了。这时，进程池就派上了用场。

四、创建进程池并分配任务

4.1 Pool 类的基本用法

[code]multiprocessing[/code] 模块中的 [code]Pool[/code] 类提供了一种方便的方式来创建进程池并分配任务。我们可以将多个任务提交给进程池，由进程池中的多个进程同时处理。

以下是利用 [code]Pool[/code] 创建进程池并实行任务的基本示例：

[code]import multiprocessing import time def worker(num): """ 工作函数，实行任务 """ print(f"Worker {num} is starting") time.sleep(2) print(f"Worker {num} is done") return num * 2 # 返回盘算结果 if __name__ == '__main__': # 创建包罗 4 个进程的进程池 with multiprocessing.Pool(processes=4) as pool: results = pool.map(worker, range(10)) print(f"Results: {results}")[/code]

4.2 Pool.map() 方法

在上述代码中，我们利用了 [code]Pool.map()[/code] 方法。它的作用类似于 Python 内置的 [code]map()[/code] 函数，可以或许将一个可迭代对象的每个元素传递给目标函数，并将结果以列表形式返回。[code]Pool.map()[/code] 会自动将任务分配给进程池中的多个进程并行处理。

比方：

[code]range(10)[/code] 生成了 10 个任务，每个任务调用一次 [code]worker[/code] 函数。
由于进程池中有 4 个进程，以是它会一次并行实行 4 个任务，直到全部任务完成。

4.3 其他常用方法

除了 [code]map()[/code] 方法，[code]Pool[/code] 类另有其他一些常用的方法：

[code]apply()[/code]：同步实行一个函数，直到该函数实行完毕后，才气继承实行主进程的代码。

[code]result = pool.apply(worker, args=(5,))[/code]

[code]apply_async()[/code]：异步实行一个函数，主进程不会等候该函数实行完毕，可以继承实行其他代码。适合用于并行处理单个任务。

[code]result = pool.apply_async(worker, args=(5,)) result.get() # 获取返回值[/code]

[code]starmap()[/code]：类似 [code]map()[/code]，但它答应传递多个参数给目标函数。

[code]def worker(a, b): return a + b results = pool.starmap(worker, [(1, 2), (3, 4), (5, 6)])[/code]

4.4 进程池大小的设置

在创建进程池时，我们可以通过 [code]processes[/code] 参数来设置进程池的大小。通常，进程池大小与系统的 CPU 核心数有关。你可以通过 [code]multiprocessing.cpu_count()[/code] 方法获取当前系统的 CPU 核心数，然后根据必要设置进程池的大小。

[code]import multiprocessing # 获取系统 CPU 核心数 cpu_count = multiprocessing.cpu_count() # 创建进程池，进程数与 CPU 核心数相同 pool = multiprocessing.Pool(processes=cpu_count)[/code]

将进程池大小设置为与 CPU 核心数相同是一个常见的选择，因为这可以充分利用系统资源。

五、进程池的高级用法

5.1 异步任务处理

在实际场景中，某些任务可能会耗时较长。假如我们不盼望等候这些任务完成再实行其他代码，可以利用异步任务处理方法，如 [code]apply_async()[/code]。它答应我们在后台实行任务，而主进程可以继承实行其他代码，任务完成后我们可以通过 [code]result.get()[/code] 获取结果。

[code]import multiprocessing import time def worker(num): time.sleep(2) return num * 2 if __name__ == '__main__': with multiprocessing.Pool(processes=4) as pool: results = [pool.apply_async(worker, args=(i,)) for i in range(10)] # 实行其他操作 print("主进程继承运行") # 获取异步任务结果 results = [r.get() for r in results] print(f"Results: {results}")[/code]

在这个例子中，我们利用 [code]apply_async()[/code] 异步实行任务，而主进程在等候任务完成之前可以实行其他操作。最终我们通过 [code]get()[/code] 方法获取每个任务的结果。

5.2 非常处理

在并发编程中，处理非常是非常重要的。假如某个进程发生非常，我们必要确保可以或许捕捉到这些非常，并做出相应的处理。[code]apply_async()[/code] 提供了 [code]error_callback[/code] 参数，可以用于捕捉异步任务中的非常。

[code]def worker(num): if num == 3: raise ValueError("模拟错误") return num * 2 def handle_error(e): print(f"捕获非常: {e}") if __name__ == '__main__': with multiprocessing.Pool(processes=4) as pool: results = [pool.apply_async(worker, args=(i,), error_callback=handle_error) for i in range(10)] for result in results: try: print(result.get()) except Exception as e: print(f"主进程捕获非常: {e}")[/code]

在这个例子中，假如某个任务抛出了非常，[code]error_callback[/code] 函数会捕捉到，并进行处理。

六、实际应用场景

6.1 CPU 麋集型任务

多进程并行处理非常适合处理 CPU 麋集型任务，如图像处理、大规模数据运算等。在这些任务中，盘算量非常大，多个进程可以同时利用系统的多个 CPU 核心，显著紧缩处理时间。

[code]def cpu_intensive_task(n): total = 0 for i in range(10**6): total += i * n return total if __name__ == '__main__': with multiprocessing.Pool(processes=4) as pool: results = pool.map(cpu_intensive_task, range(10)) print(results)[/code]

6.2 IO 麋集型任务

对于 IO 麋集型任务，如网络请求、文件读写等，由于进程大部分时间在等候外部资源相应，以是进程间的并发性能提升可能没有 CPU 麋集型任务明显。但仍旧可以通过多进程方式提高并发度，减少等候时间。

七、总结

通过本文的学习，我们了解了如何利用 Python 中的 [code]multiprocessing[/code] 模块创建进程池，并将任务分配给多个进程实行。进程池的利用可以帮助我们有效管理并发任务，提高步伐实行服从，尤其是在处理 CPU 麋集型任务时结果显著。

在实践中，利用进程池时我们还必要留意以下几点：

资源管理：确保合理利用进程池，避免创建过多进程导致系统资源不足。
任务分配：根据任务的差别范例（如 CPU 麋集型和 IO 麋集型），选择符合的并行处理方法。
非常处理：在多进程情况中捕捉和处理非常，避免因为单个进程出错而导致整个步伐瓦解。

通过把握这些本事，你可以在 Python 编程中充分利用并行处理的上风，构建更加高效的应用步伐。

到此这篇关于Python 如何利用 multiprocessing 模块创建进程池的文章就先容到这了,更多相干Python multiprocessing 模块创建进程池内容请搜索脚本之家以前的文章或继承欣赏下面的相干文章盼望大家以后多多支持脚本之家！

来源：https://www.jb51.net/python/3286098ov.htm
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

收藏分享邀请

上一篇：Python中TypeError: unhashable type: ‘list‘错误的办理方法下一篇：Python Flask 和 Django 的区别与适用场景示例分析

账号		自动登录	找回密码
密码			立即注册