快速获取字符串中不同索引的方法
fast ways needed to get number of different indices in string
我想获得两个字符串中不相同的索引数。
固定的内容:
字符串数据在任何索引上只能有0或1。即字符串是数字的二进制表示。
两个字符串长度相同。
对于上面的问题,我用python写了下面的函数def foo(a,b):
result = 0
for x,y in zip(a,b):
if x != y:
result += 1
return result
但问题是这些字符串非常大。非常大。所以上面的函数花了太多时间。我该怎么做才能让它超级快呢
这是我在c++中做同样的事情,它现在相当快,但仍然不能理解如何在短整数中打包和@Yves Daoust所说的:
size_t diff(long long int n1, long long int n2)
{
long long int c = n1 ^ n2;
bitset<sizeof(int) * CHAR_BIT> bits(c);
string s = bits.to_string();
return std::count(s.begin(), s.end(), '1');
}
我将在这里详细介绍这些选项,但基本上您是在计算两个数字之间的汉明距离。有专门的库可以让这个非常非常快,但让我们先关注纯Python选项。
你的方法,压缩
zip()
首先生成一个大列表,然后让您循环。您可以使用itertools.izip()
,并使其成为生成器表达式:
from itertools import izip
def foo(a, b):
return sum(x != y for x, y in izip(a, b))
这一次只产生一对元组,避免了必须先创建一个大的元组列表。
Python布尔类型是int
的子类,其中True == 1
和False == 0
,让您将它们相加:
>>> True + True
2
使用整数代替
但是,您可能需要重新考虑您的输入数据。用整数来表示二进制数据要高效得多;整数可以直接操作。内联进行转换,然后计算异或结果上的1的个数:
def foo(a, b):
return format(int(a, 2) ^ int(b, 2), 'b').count('1')
,但不需要将a
和b
转换为整数,这样会更有效。
时间比较:
>>> from itertools import izip
>>> import timeit
>>> s1 = "0100010010"
>>> s2 = "0011100010"
>>> def foo_zipped(a, b): return sum(x != y for x, y in izip(a, b))
...
>>> def foo_xor(a, b): return format(int(a, 2) ^ int(b, 2), 'b').count('1')
...
>>> timeit.timeit('f(s1, s2)', 'from __main__ import s1, s2, foo_zipped as f')
1.7872788906097412
>>> timeit.timeit('f(s1, s2)', 'from __main__ import s1, s2, foo_xor as f')
1.3399651050567627
>>> s1 = s1 * 1000
>>> s2 = s2 * 1000
>>> timeit.timeit('f(s1, s2)', 'from __main__ import s1, s2, foo_zipped as f', number=1000)
1.0649528503417969
>>> timeit.timeit('f(s1, s2)', 'from __main__ import s1, s2, foo_xor as f', number=1000)
0.0779869556427002
如果输入变大,异或方法的速度会快几个数量级,这是, 首先将输入转换为int
。
位计数专用库
位计数(format(integer, 'b').count(1)
)非常快,但如果您安装gmpy
扩展库(围绕GMP库的Python包装器)并使用gmpy.popcount()
函数,则可以更快:
def foo(a, b):
return gmpy.popcount(int(a, 2) ^ int(b, 2))
gmpy.popcount()
在我的机器上比str.count()
方法快20倍。同样,一开始不需要将a
和b
转换为整数将消除另一个瓶颈,但即使这样,每次调用的性能几乎翻了一番:
>>> import gmpy
>>> def foo_xor_gmpy(a, b): return gmpy.popcount(int(a, 2) ^ int(b, 2))
...
>>> timeit.timeit('f(s1, s2)', 'from __main__ import s1, s2, foo_xor as f', number=10000)
0.7225301265716553
>>> timeit.timeit('f(s1, s2)', 'from __main__ import s1, s2, foo_xor_gmpy as f', number=10000)
0.47731995582580566
说明a
和b
以整数开头的区别:
>>> si1, si2 = int(s1, 2), int(s2, 2)
>>> def foo_xor_int(a, b): return format(a ^ b, 'b').count('1')
...
>>> def foo_xor_gmpy_int(a, b): return gmpy.popcount(a ^ b)
...
>>> timeit.timeit('f(si1, si2)', 'from __main__ import si1, si2, foo_xor_int as f', number=100000)
3.0529568195343018
>>> timeit.timeit('f(si1, si2)', 'from __main__ import si1, si2, foo_xor_gmpy_int as f', number=100000)
0.15820622444152832
汉明距离专用库
gmpy
库实际上包含一个gmpy.hamdist()
函数,它直接计算这个确切的数字(整数的异或结果中1位的个数):
def foo_gmpy_hamdist(a, b):
return gmpy.hamdist(int(a, 2), int(b, 2))
会让你大吃一惊完全如果你用整数开头:
def foo_gmpy_hamdist_int(a, b):
return gmpy.hamdist(a, b)
比较:
>>> def foo_gmpy_hamdist(a, b):
... return gmpy.hamdist(int(a, 2), int(b, 2))
...
>>> def foo_gmpy_hamdist_int(a, b):
... return gmpy.hamdist(a, b)
...
>>> timeit.timeit('f(s1, s2)', 'from __main__ import s1, s2, foo_xor as f', number=100000)
7.479684114456177
>>> timeit.timeit('f(s1, s2)', 'from __main__ import s1, s2, foo_gmpy_hamdist as f', number=100000)
4.340585947036743
>>> timeit.timeit('f(si1, si2)', 'from __main__ import si1, si2, foo_gmpy_hamdist_int as f', number=100000)
0.22896099090576172
这是两个3k+数字之间汉明距离的10万倍。
另一个可以计算距离的包是Distance
,它支持直接计算字符串之间的汉明距离。
确保你使用--with-c
开关来编译C优化;当使用pip
安装时,以bin/pip install Distance --install-option --with-c
为例。
再次将其与XOR-with-bitcount方法进行基准测试:
>>> import distance
>>> def foo_distance_hamming(a, b):
... return distance.hamming(a, b)
...
>>> timeit.timeit('f(s1, s2)', 'from __main__ import s1, s2, foo_xor as f', number=100000)
7.229060173034668
>>> timeit.timeit('f(s1, s2)', 'from __main__ import s1, s2, foo_distance_hamming as f', number=100000)
0.7701470851898193
它使用朴素方法;压缩两个输入字符串并计算差异的数量,但由于它是在C中完成的,它仍然快得多,大约快10倍。但是,当您使用整数时,gmpy.hamdist()
函数仍然优于它。
未测试,但如何执行:
sum(x!=y for x,y in zip(a,b))
如果字符串表示二进制数,则可以将其转换为整数并使用位运算符:
def foo(s1, s2):
# return sum(map(int, format(int(a, 2) ^ int(b, 2), 'b'))) # one-liner
a = int(s1, 2) # convert string to integer
b = int(s2, 2)
c = a ^ b # use xor to get differences
s = format(c, 'b') # convert back to string of zeroes and ones
return sum(map(int, s)) # sum all ones (count of differences)
s1 = "0100010010"
s2 = "0011100010"
# 12345
assert foo(s1, s2) == 5
将字符串打包为短整数(16位)。xoring之后,传递给一个预先计算的包含65536个条目的查找表,该表给出了每个短1的个数。
如果预打包不是一个选项,那么切换到带有内联AVX2 intrinsic的c++。它们将允许您在单个指令中加载32个字符,执行比较,然后将32个结果打包为32位(如果我是对的)。
- 从容器创建一系列索引的最惯用方法是什么?
- 有没有更好的方法可以使用特征/C++实现 matlab 的逻辑索引?
- 有没有一种简单的方法可以在C++中获取特定索引之后向量中的所有项目?
- std::map 索引运算符与插入方法的性能
- 在C++中从距离矩阵创建索引向量的最快方法
- C++:检查向量中的元素是否大于另一个具有相同索引的元素的有效方法?
- 获得给定向量的排列索引列表的最佳方法是什么?
- 有没有一种简单的方法可以忽略 c++ 中的索引错误
- 当数量小于初始化索引时确定数组中元素数的方法
- 向量索引在C 中不会包裹吗?什么是解决方法
- 修改Boost多索引项的非索引字段的最佳方法:modify vs mutable
- 将元素从一个向量复制到另一个向量的最有效方法,给定一个不被复制的索引列表
- 从 C++ 数组元素的指针获取索引的最快方法是什么
- 在运行时按索引访问 std::tuple 元素的最佳方法
- 构造一个数组的有效方法,该数组采用C++中另一个数组中具有给定索引的元素
- 模型中虚拟索引实现的替代方法
- C++11 在运行时不使用 switch 为元组编制索引的方法
- 如何使用获取用户索引并返回其名字的访问器方法
- 使用C++在两个排序数组中查找匹配值索引的最有效方法
- c++中线程安全索引运算符的正确方法