python统计频次函数,次数统计函数

如何高效地使用Python统计数据的频率

之前用 Python 写过一个脚本，用来处理上千万用户的一些数据，其中有一个需求是统计用户的某一数据的去重数量。为了加快程序的速度，我启用了多进程。但不幸的是，程序跑了近一个星期，还没处理完。这时，我感觉到了不对，于是开始查看程序的性能瓶颈。

站在用户的角度思考问题，与客户深入沟通，找到云梦网站设计与云梦网站推广的解决方案，凭借多年的经验，让设计与互联网技术结合，创造个性化、用户体验好的作品，建站类型包括：网站设计制作、成都网站制作、企业官网、英文网站、手机端网站、网站推广、空间域名、虚拟空间、企业邮箱。业务覆盖云梦地区。

对于统计去重数，我是将用户的数据放到一个列表中，然后用 len(set(data)) 去统计去重数量。刚开始我以为这的数据量并不大，每个用户的数据不会过百，我并没有注意到有的用户会有上万条的数据，因此消耗了大量的时间（其实我的脚本消耗时间最大的地方是因为从远程 redis 中取大量数据时发生长时间的阻塞，甚至连接超时，最后我采用的方式分而治之，每次取少量的数据，这样大大的提高了性能）。

为了做优化，我开始寻求高效的方法。我发现，有大量的人认为采用字典效率会更高，即：

data_unique = {}.fromkeys(data).keys() len(data_unique)

于是，我做了下测试：

In [1]: import random In [2]: data = [random.randint(0, 1000) for _ in xrange(1000000)] In [3]: %timeit len(set(data)) 10 loops, best of 3: 39.7 ms per loop In [4]: %timeit len({}.fromkeys(data).keys()) 10 loops, best of 3: 43.5 ms per loop

由此可见，采用字典和采用集合的性能是差不多的，甚至可能还要慢些。

在 Python 中其实有很多高效的库，例如用 numpy、pandas 来处理数据，其性能接近于 C 语言。那么，我们就用 numpy 和 pandas 来解决这个问题，这里我还比较了获取去重数据的性能，代码如下：

import collections import random as py_random import timeit import numpy.random as np_random import pandas as pd DATA_SIZE = 10000000 def py_cal_len(): data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)] len(set(data)) def pd_cal_len(): data = np_random.randint(1000, size=DATA_SIZE) data = pd.Series(data) data_unique = data.value_counts() data_unique.size def py_count(): data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)] collections.Counter(data) def pd_count(): data = np_random.randint(1000, size=DATA_SIZE) data = pd.Series(data) data.value_counts() # Script starts from here if __name__ == "__main__": t1 = timeit.Timer("py_cal_len()", setup="from __main__ import py_cal_len") t2 = timeit.Timer("pd_cal_len()", setup="from __main__ import pd_cal_len") t3 = timeit.Timer("py_count()", setup="from __main__ import py_count") t4 = timeit.Timer("pd_count()", setup="from __main__ import pd_count") print t1.timeit(number=1) print t2.timeit(number=1) print t3.timeit(number=1) print t4.timeit(number=1)

运行结果：

12.438587904 0.435907125473 14.6431810856 0.258564949036

利用 pandas 统计数据的去重数和去重数据，其性能是 Python 原生函数的 10 倍以上。

python count的函数用法是什么？

以下代码的功能是统计列表中重复项的出现次数

这里面就用到了 count() 函数

mylist = ['apple', 'banana', 'grape', 'banana', 'apple', 'grape', 'grape']

myset = set(mylist)

for item in myset:

print("the %s has been found %d times" % (item, mylist.count(item)))

函数COUNT在计数时，将把数值型的数字计算进去；但是错误值、空值、逻辑值、日期、文字则被忽略。

如果参数是一个数组或引用，那么只统计数组或引用中的数字；数组中或引用的空单元格、逻辑值、文字或错误值都将忽略。如果要统计逻辑值、文字或错误值，请使用函数COUNTA（COUNTIF按EXCEL的说明也行，但常出毛病）。

排序过程

假设输入的线性表L的长度为n，L=L1,L2,..,Ln；线性表的元素属于有限偏序集S，|S|=k且k=O(n)，S={S1,S2,..Sk}；则计数排序可以描述如下：

1、扫描整个集合S，对每一个Si∈S，找到在线性表L中小于等于Si的元素的个数T(Si)；

2、扫描整个线性表L，对L中的每一个元素Li，将Li放在输出线性表的第T(Li)个位置上，并将T(Li)减1。

以上内容参考：百度百科-计数排序

python编写函数计算任意字符串出现次数

python本身就有一个count（）函数可以用来统计字符串中单个字母出现次数

def fun(s):

count = string.count('a')

return count

string = input('请输入字符串：')

a = input('请输入你要查找的字符：')

print(fun(a))

python 统计函数运行次数。

你好：

我对代码做了注释：

#last是一个列表，里面只有一个元素，就是1，说明已经运行一次

def counter(last=[1]):

#last[0]将列表里面的第一个元素取出，然后加1，赋值给next

next = last[0] + 1

#修改列表里面第一个元素的值

last[0] = next

#返回此时运行的次数

return next

python想统计数据框中指定一列的频数,要使用以下哪个函数？

Python想统计数据框中指定的一列数，那么再说函数的时候，你可以使用if函数或者是其他的函数都可以。

当前题目：python统计频次函数,次数统计函数
文章源于：http://bjjierui.cn/article/dscsiji.html

定制建站费用3500元

品牌网站建设费用6000元

商城网站建设费用8000元

手机微信网站建站3000元

建站知识

python统计频次函数,次数统计函数

如何高效地使用Python统计数据的频率

python count的函数用法是什么？

python编写函数计算任意字符串出现次数

python 统计函数运行次数。

python想统计数据框中指定一列的频数,要使用以下哪个函数？

其他资讯

定制建站费用3500元

品牌网站建设费用6000元

商城网站建设费用8000元

手机微信网站建站3000元

建站知识

python统计频次函数,次数统计函数

如何高效地使用Python统计数据的频率

python count的函数用法是什么？

python编写函数计算任意字符串出现次数

python 统计 函数运行 次数。

python想统计数据框中指定一列的频数,要使用以下哪个函数？

其他资讯

python 统计函数运行次数。