python向量化函数向量化运算

Python——ndarray多维数组基本操作（1）

数组允许进行批量操作而无需使用for循环，因此更加简便，这种特性也被称为向量化。任何两个等尺寸之间的算术操作都应用逐元素操作的方式进行。

创新互联公司专注于沅江企业网站建设,自适应网站建设,商城网站建设。沅江网站建设公司,为沅江等地区提供建站服务。全流程按需网站策划，专业设计，全程项目跟踪，创新互联公司专业和态度为您提供的服务

同尺度数组之间的比较，会产生一个布尔型数组。

上述操作均是在同尺度数组之间进行的，对于不同尺度数组间的操作，会使用到广播特性。

索引：获取数组中特定位置元素的过程；

切片：获取数组元素子集的过程。

new_a = a.astype(new_type)

astype()方法一定会创建新的数组（原始数据的一个拷贝），即使两个类型一致。

ls = a.tolist()

转置是一种特殊的数据重组形式，可以返回底层数据的视图而不需要复制任何内容。

数组拥有 transpose 方法，也有特殊的 T 属性。

对于更高纬度的数组， transpose 方法可以接受包含轴编号的元组，用于转置轴。

ndarray的 swapaxes 方法，通过接受一对轴编号作为参数，并对轴进行调整用于重组数据。

swapaxes 方法返回的是数据的视图，而没有对数据进行复制。

Reference：

《Python for Data Analysis:Data Wrangling with Pandas,Numpy,and IPython》

优化Python编程的4个妙招

1. Pandas.apply() – 特征工程瑰宝

Pandas 库已经非常优化了，但是大部分人都没有发挥它的最大作用。想想它一般会用于数据科学项目中的哪些地方。一般首先能想到的就是特征工程，即用已有特征创造新特征。其中最高效的方法之一就是Pandas.apply()，即Pandas中的apply函数。

在Pandas.apply()中，可以传递用户定义功能并将其应用到Pandas Series的所有数据点中。这个函数是Pandas库最好的扩展功能之一，它能根据所需条件分隔数据。之后便能将其有效应用到数据处理任务中。

2. Pandas.DataFrame.loc – Python数据操作绝妙技巧

所有和数据处理打交道的数据科学家(差不多所有人了!)都应该学会这个方法。

很多时候，数据科学家需要根据一些条件更新数据集中某列的某些值。Pandas.DataFrame.loc就是此类问题最优的解决方法。

3. Python函数向量化

另一种解决缓慢循环的方法就是将函数向量化。这意味着新建函数会应用于输入列表，并返回结果数组。在Python中使用向量化能至少迭代两次，从而加速计算。

事实上，这样不仅能加速代码运算，还能让代码更加简洁清晰。

4. Python多重处理

多重处理能使系统同时支持一个以上的处理器。

此处将数据处理分成多个任务，让它们各自独立运行。处理庞大的数据集时，即使是apply函数也显得有些迟缓。

关于优化Python编程的4个妙招，青藤小编就和您分享到这里了。如果您对python编程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于python编程的技巧及素材等内容，可以点击本站的其他文章进行学习。

如何系统地自学 Python

是否非常想学好 Python，一方面被琐事纠缠，一直没能动手，另一方面，担心学习成本太高，心里默默敲着退堂鼓？

幸运的是，Python 是一门初学者友好的编程语言，想要完全掌握它，你不必花上太多的时间和精力。

Python 的设计哲学之一就是简单易学，体现在两个方面：

语法简洁明了：相对 Ruby 和 Perl，它的语法特性不多不少，大多数都很简单直接，不玩儿玄学。

切入点很多：Python 可以让你可以做很多事情，科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等，总有一个是你感兴趣并且愿意投入时间的。

废话不多说，学会一门语言的捷径只有一个： Getting Started

¶ 起步阶段

任何一种编程语言都包含两个部分：硬知识和软知识，起步阶段的主要任务是掌握硬知识。

硬知识

“硬知识”指的是编程语言的语法、算法和数据结构、编程范式等，例如：变量和类型、循环语句、分支、函数、类。这部分知识也是具有普适性的，看上去是掌握了一种语法，实际是建立了一种思维。例如：让一个 Java 程序员去学习 Python，他可以很快的将 Java 中的学到的面向对象的知识 map 到 Python 中来，因此能够快速掌握 Python 中面向对象的特性。

如果你是刚开始学习编程的新手，一本可靠的语法书是非常重要的。它看上去可能非常枯燥乏味，但对于建立稳固的编程思维是必不可少。

下面列出了一些适合初学者入门的教学材料：

廖雪峰的 Python 教程 Python 中文教程的翘楚，专为刚刚步入程序世界的小白打造。

笨方法学 Python 这本书在讲解 Python 的语法成分时，还附带大量可实践的例子，非常适合快速起步。

The Hitchhiker’s Guide to Python! 这本指南着重于 Python 的最佳实践，不管你是 Python 专家还是新手，都能获得极大的帮助。

Python 的哲学：

用一种方法，最好是只有一种方法来做一件事。

学习也是一样，虽然推荐了多种学习资料，但实际学习的时候，最好只选择其中的一个，坚持看完。

必要的时候，可能需要阅读讲解数据结构和算法的书，这些知识对于理解和使用 Python 中的对象模型有着很大的帮助。

软知识

“软知识”则是特定语言环境下的语法技巧、类库的使用、IDE的选择等等。这一部分，即使完全不了解不会使用，也不会妨碍你去编程，只不过写出的程序，看上去显得“傻”了些。

对这些知识的学习，取决于你尝试解决的问题的领域和深度。对初学者而言，起步阶段极易走火，或者在选择 Python 版本时徘徊不决，一会儿看 2.7 一会儿又转到 3.0，或者徜徉在类库的大海中无法自拔，Scrapy，Numpy，Django 什么都要试试，或者参与编辑器圣战、大括号缩进探究、操作系统辩论赛等无意义活动，或者整天跪舔语法糖，老想着怎么一行代码把所有的事情做完，或者去构想圣洁的性能安全通用性健壮性全部满分的解决方案。

很多“大牛”都会告诫初学者，用这个用那个，少走弯路，这样反而把初学者推向了真正的弯路。

还不如告诉初学者，学习本来就是个需要你去走弯路出 Bug，只能脚踏实地，没有奇迹只有狗屎的过程。

选择一个方向先走下去，哪怕脏丑差，走不动了再看看有没有更好的解决途径。

自己走了弯路，你才知道这么做的好处，才能理解为什么人们可以手写状态机去匹配却偏要发明正则表达式，为什么面向过程可以解决却偏要面向对象，为什么我可以操纵每一根指针却偏要自动管理内存，为什么我可以嵌套回调却偏要用 Promise...

更重要的是，你会明白，高层次的解决方法都是对低层次的封装，并不是任何情况下都是最有效最合适的。

技术涌进就像波浪一样，那些陈旧的封存已久的技术，消退了迟早还会涌回的。就像现在移动端应用、手游和 HTML5 的火热，某些方面不正在重演过去 PC 的那些历史么？

因此，不要担心自己走错路误了终身，坚持并保持进步才是正道。

起步阶段的核心任务是掌握硬知识，软知识做适当了解，有了稳固的根，粗壮的枝干，才能长出浓密的叶子，结出甜美的果实。

¶ 发展阶段

完成了基础知识的学习，必定会感到一阵空虚，怀疑这些语法知识是不是真的有用。

没错，你的怀疑是非常正确的。要让 Python 发挥出它的价值，当然不能停留在语法层面。

发展阶段的核心任务，就是“跳出 Python，拥抱世界”。

在你面前会有多个分支：科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等，这些都不是仅仅知道 Python 语法就能解决的问题。

拿爬虫举例，如果你对计算机网络，HTTP 协议，HTML，文本编码，JSON 一无所知，你能做好这部分的工作么？而你在起步阶段的基础知识也同样重要，如果你连循环递归怎么写都还要查文档，连 BFS 都不知道怎么实现，这就像工匠做石凳每次起锤都要思考锤子怎么使用一样，非常低效。

在这个阶段，不可避免要接触大量类库，阅读大量书籍的。

类库方面

「Awesome Python 项目」：vinta/awesome-python · GitHub

这里列出了你在尝试解决各种实际问题时，Python 社区已有的工具型类库，如下图所示：

请点击输入图片描述

vinta/awesome-python

你可以按照实际需求，寻找你需要的类库。

至于相关类库如何使用，必须掌握的技能便是阅读文档。由于开源社区大多数文档都是英文写成的，所以，英语不好的同学，需要恶补下。

书籍方面

这里我只列出一些我觉得比较有一些帮助的书籍，详细的请看豆瓣的书评：

科学和数据分析：

❖「集体智慧编程」：集体智慧编程 (豆瓣)

❖「数学之美」：数学之美 (豆瓣)

❖「统计学习方法」：统计学习方法 (豆瓣)

❖「Pattern Recognition And Machine Learning」：Pattern Recognition And Machine Learning (豆瓣)

❖「数据科学实战」：数据科学实战 (豆瓣)

❖「数据检索导论」：信息检索导论 (豆瓣)

爬虫：

❖「HTTP 权威指南」：HTTP权威指南 (豆瓣)

Web 网站：

❖「HTML CSS 设计与构建网站」：HTML CSS设计与构建网站 (豆瓣)

...

列到这里已经不需要继续了。

聪明的你一定会发现上面的大部分书籍，并不是讲 Python 的书，而更多的是专业知识。

事实上，这里所谓“跳出 Python，拥抱世界”，其实是发现 Python 和专业知识相结合，能够解决很多实际问题。这个阶段能走到什么程度，更多的取决于自己的专业知识。

¶ 深入阶段

这个阶段的你，对 Python 几乎了如指掌，那么你一定知道 Python 是用 C 语言实现的。

可是 Python 对象的“动态特征”是怎么用相对底层，连自动内存管理都没有的C语言实现的呢？这时候就不能停留在表面了，勇敢的拆开 Python 的黑盒子，深入到语言的内部，去看它的历史，读它的源码，才能真正理解它的设计思路。

这里推荐一本书：

「Python 源码剖析」：Python源码剖析 (豆瓣)

这本书把 Python 源码中最核心的部分，给出了详细的阐释，不过阅读此书需要对 C 语言内存模型和指针有着很好的理解。

另外，Python 本身是一门杂糅多种范式的动态语言，也就是说，相对于 C 的过程式、 Haskell 等的函数式、Java 基于类的面向对象而言，它都不够纯粹。换而言之，编程语言的“道学”，在 Python 中只能有限的体悟。学习某种编程范式时，从那些面向这种范式更加纯粹的语言出发，才能有更深刻的理解，也能了解到 Python 语言的根源。

这里推荐一门公开课

「编程范式」：斯坦福大学公开课：编程范式

讲师高屋建瓴，从各种编程范式的代表语言出发，给出了每种编程范式最核心的思想。

值得一提的是，这门课程对C语言有非常深入的讲解，例如C语言的范型和内存管理。这些知识，对阅读 Python 源码也有大有帮助。

Python 的许多最佳实践都隐藏在那些众所周知的框架和类库中，例如 Django、Tornado 等等。在它们的源代码中淘金，也是个不错的选择。

¶ 最后的话

每个人学编程的道路都是不一样的，其实大都殊途同归，没有迷路的人只有不能坚持的人！

希望想学 Python 想学编程的同学，不要犹豫了，看完这篇文章，

Just Getting Started ！！！

对于Python 的科学计算有哪些提高运算速度的技

一：学会正确使用numpy scipy。 numpy scipy写好的绝不自己写，比如矩阵运算等操作，pylab的实现还算不错。各种函数都有，尽量使用他们可以避免初学者大部分的速度不足问题。因为这些函数大部分都是预编译好的。

根据我几年前的测试，python的矩阵运算速度并不慢，(因为你运行的是动态链接库里面的函数而不是脚本）比mathematica快，和matlab持平。

大部分新手不擅长看文档啥都自己造轮子是不好的。当然老手把效率写的比开源库高也不算啥新闻，毕竟有对特定程序的优化

二：减少for的使用，多使用向量化函数，np.vectorlize可以把函数变成对数组逐元素的操作，比for效率高几个华莱士。

三：对内存友好，操作大矩阵的时候减少会引起整矩阵对此copy的操作

四：系统最慢的大部分时候是io，包括上面说的内存操作和频繁的读入读出以及debug输出。避免他们，在需要实时处理的时候引入类似于gpu的pipeline管线机制或者使用灵活的多线程编程可以起到奇效。

五：matplotlib的绘图效率并不高明，在使用交互绘图（plt.ion）的时候减少不必要的刷新率。

「干货」让Python性能起飞的15个技巧，你知道几个呢？

前言

Python 一直以来被大家所诟病的一点就是执行速度慢，但不可否认的是 Python 依然是我们学习和工作中的一大利器。本文总结了15个tips有助于提升 Python 执行速度、优化性能。

关于 Python 如何精确地测量程序的执行时间，这个问题看起来简单其实很复杂，因为程序的执行时间受到很多因素的影响，例如操作系统、Python 版本以及相关硬件（CPU 性能、内存读写速度）等。在同一台电脑上运行相同版本的语言时，上述因素就是确定的了，但是程序的睡眠时间依然是变化的，且电脑上正在运行的其他程序也会对实验有干扰，因此严格来说这就是实验不可重复。

我了解到的关于计时比较有代表性的两个库就是 time 和 timeit 。

其中， time 库中有 time() 、 perf_counter() 以及 process_time() 三个函数可用来计时（以秒为单位），加后缀 _ns 表示以纳秒计时（自 Python3.7 始）。在此之前还有 clock() 函数，但是在 Python3.3 之后被移除了。上述三者的区别如下：

与 time 库相比， timeit 有两个优点：

timeit.timeit(stmt='pass', setup='pass', timer= , number=1000000, globals=None) 参数说明：

本文所有的计时均采用 timeit 方法，且采用默认的执行次数一百万次。

为什么要执行一百万次呢？因为我们的测试程序很短，如果不执行这么多次的话，根本看不出差距。

Exp1：将字符串数组中的小写字母转为大写字母。

测试数组为 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗时 0.5267724000000005s ，方法二耗时 0.41462569999999843s ，性能提升 21.29%

Exp2：求两个 list 的交集。

测试数组：a = [1,2,3,4,5]，b = [2,4,6,8,10]。

方法一

方法二

方法一耗时 0.9507264000000006s ，方法二耗时 0.6148200999999993s ，性能提升 35.33%

关于 set() 的语法： | 、、 - 分别表示求并集、交集、差集。

我们可以通过多种方式对序列进行排序，但其实自己编写排序算法的方法有些得不偿失。因为内置的 sort() 或 sorted() 方法已经足够优秀了，且利用参数 key 可以实现不同的功能，非常灵活。二者的区别是 sort() 方法仅被定义在 list 中，而 sorted() 是全局方法对所有的可迭代序列都有效。

Exp3：分别使用快排和 sort() 方法对同一列表排序。

测试数组：lists = [2,1,4,3,0]。

方法一

方法二

方法一耗时 2.4796975000000003s ，方法二耗时 0.05551999999999424s ，性能提升 97.76%

顺带一提， sorted() 方法耗时 0.1339823999987857s 。

可以看出， sort() 作为 list 专属的排序方法还是很强的， sorted() 虽然比前者慢一点，但是胜在它“不挑食”，它对所有的可迭代序列都有效。

扩展：如何定义 sort() 或 sorted() 方法的 key

1.通过 lambda 定义

2.通过 operator 定义

operator 的 itemgetter() 适用于普通数组排序， attrgetter() 适用于对象数组排序

3.通过 cmp_to_key() 定义，最为灵活

Exp4：统计字符串中每个字符出现的次数。

测试数组：sentence='life is short, i choose python'。

方法一

方法二

方法一耗时 2.8105250000000055s ，方法二耗时 1.6317423000000062s ，性能提升 41.94%

列表推导（list comprehension）短小精悍。在小代码片段中，可能没有太大的区别。但是在大型开发中，它可以节省一些时间。

Exp5：对列表中的奇数求平方，偶数不变。

测试数组：oldlist = range(10)。

方法一

方法二

方法一耗时 1.5342976000000021s ，方法二耗时 1.4181957999999923s ，性能提升 7.57%

大多数人都习惯使用 + 来连接字符串。但其实，这种方法非常低效。因为， + 操作在每一步中都会创建一个新字符串并复制旧字符串。更好的方法是用 join() 来连接字符串。关于字符串的其他操作，也尽量使用内置函数，如 isalpha() 、 isdigit() 、 startswith() 、 endswith() 等。

Exp6：将字符串列表中的元素连接起来。

测试数组：oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗时 0.27489080000000854s ，方法二耗时 0.08166570000000206s ，性能提升 70.29%

join 还有一个非常舒服的点，就是它可以指定连接的分隔符，举个例子

life//is//short//i//choose//python

Exp6：交换x，y的值。

测试数据：x, y = 100, 200。

方法一

方法二

方法一耗时 0.027853900000010867s ，方法二耗时 0.02398730000000171s ，性能提升 13.88%

在不知道确切的循环次数时，常规方法是使用 while True 进行无限循环，在代码块中判断是否满足循环终止条件。虽然这样做没有任何问题，但 while 1 的执行速度比 while True 更快。因为它是一种数值转换，可以更快地生成输出。

Exp8：分别用 while 1 和 while True 循环 100 次。

方法一

方法二

方法一耗时 3.679268300000004s ，方法二耗时 3.607847499999991s ，性能提升 1.94%

将文件存储在高速缓存中有助于快速恢复功能。Python 支持装饰器缓存，该缓存在内存中维护特定类型的缓存，以实现最佳软件驱动速度。我们使用 lru_cache 装饰器来为斐波那契函数提供缓存功能，在使用 fibonacci 递归函数时，存在大量的重复计算，例如 fibonacci(1) 、 fibonacci(2) 就运行了很多次。而在使用了 lru_cache 后，所有的重复计算只会执行一次，从而大大提高程序的执行效率。

Exp9：求斐波那契数列。

测试数据：fibonacci(7)。

方法一

方法二

方法一耗时 3.955014900000009s ，方法二耗时 0.05077979999998661s ，性能提升 98.72%

注意事项：

我被执行了（执行了两次 demo(1, 2) ，却只输出一次）

functools.lru_cache(maxsize=128, typed=False) 的两个可选参数：

点运算符( . )用来访问对象的属性或方法，这会引起程序使用 __getattribute__() 和 __getattr__() 进行字典查找，从而带来不必要的开销。尤其注意，在循环当中，更要减少点运算符的使用，应该将它移到循环外处理。

这启发我们应该尽量使用 from ... import ... 这种方式来导包，而不是在需要使用某方法时通过点运算符来获取。其实不光是点运算符，其他很多不必要的运算我们都尽量移到循环外处理。

Exp10：将字符串数组中的小写字母转为大写字母。

测试数组为 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗时 0.7235491999999795s ，方法二耗时 0.5475435999999831s ，性能提升 24.33%

当我们知道具体要循环多少次时，使用 for 循环比使用 while 循环更好。

Exp12：使用 for 和 while 分别循环 100 次。

方法一

方法二

方法一耗时 3.894683299999997s ，方法二耗时 1.0198077999999953s ，性能提升 73.82%

Numba 可以将 Python 函数编译码为机器码执行，大大提高代码执行速度，甚至可以接近 C 或 FORTRAN 的速度。它能和 Numpy 配合使用，在 for 循环中或存在大量计算时能显著地提高执行效率。

Exp12：求从 1 加到 100 的和。

方法一

方法二

方法一耗时 3.7199997000000167s ，方法二耗时 0.23769430000001535s ，性能提升 93.61%

矢量化是 NumPy 中的一种强大功能，可以将操作表达为在整个数组上而不是在各个元素上发生。这种用数组表达式替换显式循环的做法通常称为矢量化。

在 Python 中循环数组或任何数据结构时，会涉及很多开销。NumPy 中的向量化操作将内部循环委托给高度优化的 C 和 Fortran 函数，从而使 Python 代码更加快速。

Exp13：两个长度相同的序列逐元素相乘。

测试数组：a = [1,2,3,4,5], b = [2,4,6,8,10]

方法一

方法二

方法一耗时 0.6706845000000214s ，方法二耗时 0.3070132000000001s ，性能提升 54.22%

若要检查列表中是否包含某成员，通常使用 in 关键字更快。

Exp14：检查列表中是否包含某成员。

测试数组：lists = ['life', 'is', 'short', 'i', 'choose', 'python']

方法一

方法二

方法一耗时 0.16038449999999216s ，方法二耗时 0.04139250000000061s ，性能提升 74.19%

itertools 是用来操作迭代器的一个模块，其函数主要可以分为三类：无限迭代器、有限迭代器、组合迭代器。

Exp15：返回列表的全排列。

测试数组：["Alice", "Bob", "Carol"]

方法一

方法二

方法一耗时 3.867292899999484s ，方法二耗时 0.3875405000007959s ，性能提升 89.98%

根据上面的测试数据，我绘制了下面这张实验结果图，可以更加直观的看出不同方法带来的性能差异。

从图中可以看出，大部分的技巧所带来的性能增幅还是比较可观的，但也有少部分技巧的增幅较小（例如编号5、7、8，其中，第 8 条的两种方法几乎没有差异）。

总结下来，我觉得其实就是下面这两条原则：

内置库函数由专业的开发人员编写并经过了多次测试，很多库函数的底层是用 C 语言开发的。因此，这些函数总体来说是非常高效的（比如 sort() 、 join() 等），自己编写的方法很难超越它们，还不如省省功夫，不要重复造轮子了，何况你造的轮子可能更差。所以，如果函数库中已经存在该函数，就直接拿来用。

有很多优秀的第三方库，它们的底层可能是用 C 和 Fortran 来实现的，像这样的库用起来绝对不会吃亏，比如前文提到的 Numpy 和 Numba，它们带来的提升都是非常惊人的。类似这样的库还有很多，比如Cython、PyPy等，这里我只是抛砖引玉。

原文链接：

分享名称：python向量化函数向量化运算
URL标题：http://bjjierui.cn/article/hgoohj.html

定制建站费用3500元

品牌网站建设费用6000元

商城网站建设费用8000元

手机微信网站建站3000元

建站知识

python向量化函数向量化运算

Python——ndarray多维数组基本操作（1）

优化Python编程的4个妙招

如何系统地自学 Python

对于Python 的科学计算有哪些提高运算速度的技

「干货」让Python性能起飞的15个技巧，你知道几个呢？

其他资讯

定制建站费用3500元

品牌网站建设费用6000元

商城网站建设费用8000元

手机微信网站建站3000元

建站知识

python向量化函数 向量化运算

Python——ndarray多维数组基本操作（1）

优化Python编程的4个妙招

如何系统地自学 Python

对于Python 的科学计算有哪些提高运算速度的技

「干货」让Python性能起飞的15个技巧，你知道几个呢？

其他资讯

python向量化函数向量化运算