python加速可以考虑的途径有：Taichi、ctypes、cython、cudf、PyPy、numba。

Taichi

Taichi主要的性能来自三点：

Taichi 是编译性的，而 Python 是解释性的
Taichi 能自动并行，而 Python 通常是单线程的
Taichi 能在 GPU 上运行，而 Python 本身是在 CPU 上运行的

Taichi与 Numpy/JAX/PyTorch/TensorFlow 比较：这几类工具都高度基于数组运算。计算的最小单位是数组，在 data science、deep learning 等领域是有明显的优势的。但是在科学计算领域，这样做导致灵活性缺失：比如说前面那个计算质数的程序，就比较难使用数组运算表示出来。Taichi 的优势就在于其灵活性，能够直接操纵循环的每一次迭代，以一种更细的粒度进行对于计算的描述，类似 C++ 和 CUDA。

Cython

使用 Cython 编写程序实现加速也是一种常见的选择。在 Numpy 和 Scipy 的官方代码中有不少模块都是使用 Cython 编写然后编译的。但按照 Cython 的要求书写代码会比较麻烦，会牺牲一些可读性。Cython 支持一定程度的并行计算，但不支持直接调用 GPU 进行计算。

Numba

Numba 顾名思义，是非常适合针对 Numpy 进行加速的方案。当你的函数是针对 Numpy 的数组向量化的操作时，使用 Numba 将其编译以后执行可以大大加速。Taichi 相比 Numba 的优势还有：

Taichi 支持各种灵活的数据类型，比如 struct, dataclass, quant, sparse 等等，你可以任意指定它们的内存排布，当数据量非常庞大时这个优势会非常明显。而 Numba 只有在针对 Numpy 的稠密数组时效果最佳。
Taichi 可以调用不同的 GPU 后端进行计算，所以写大规模并行程序（如粒子仿真、渲染器等）这种操作对 Taichi 来说是小菜一碟。但你很难想象可以用 Numba 写一个还过得去的 (哪怕离线) 渲染器。

PyPy

Pypy 是一个 Python 的 JIT 编译器，这个工具 2007 年就有了，和 Taichi 的解决方案有些类似，都是通过编译的方式加速 Python。Pypy 最大优势在于 Python 代码完全不用改变，就能通过 Pypy 加速。但是这也是 Pypy 加速比率比 Taichi 低的原因：因为 Pypy 需要在编译的同时保持 Python 所有的语言特性，所以能够进行的优化比较有限。

CTypes

ctypes 可以让用户在 Python 中调用 C 函数。C++、CUDA 编写的程序也可以用过 C 接口暴露给 Python 使用。但是，ctypes 会让工具链复杂化：为了写一段比较快的程序，用户需要同时掌握 C、Python、CMake、CUDA 等等语言.

CUDF

对标pandas库，但是其性能更高。官网说明如下：

10 Minutes to cuDF and Dask-cuDF

cuDF is a Python GPU DataFrame library (built on the Apache Arrow columnar memory format) for loading, joining, aggregating, filtering, and otherwise manipulating tabular data using a DataFrame style API in the style of pandas. Dask is a flexible library for parallel computing in Python that makes scaling out your workflow smooth and simple. On the CPU, Dask uses Pandas to execute operations in parallel on DataFrame partitions. Dask-cuDF extends Dask where necessary to allow its DataFrame partitions to be processed using cuDF GPU DataFrames instead of Pandas DataFrames. For instance, when you call dask_cudf.read_csv(...), your cluster’s GPUs do the work of parsing the CSV file(s) by calling cudf.read_csv().

LTCTM的IT技术分享

Python加速