您现在的位置是：首页 > 后端

当前栏目

python实现bitmap数据结构详解

Python 数据结构实现详解 bitmap

2023-06-13 09:15:17 时间

bitmap是很常用的数据结构，比如用于BloomFilter中；用于无重复整数的排序等等。bitmap通常基于数组来实现，数组中每个元素可以看成是一系列二进制数，所有元素组成更大的二进制集合。对于Python来说，整数类型默认是有符号类型，所以一个整数的可用位数为31位。

bitmap实现思路

bitmap是用于对每一位进行操作。举例来说，一个Python数组包含4个32位有符号整型，则总共可用位为4*31=124位。如果要在第90个二进制位上操作，则要先获取到操作数组的第几个元素，再获取相应的位索引，然后执行操作。

上图所示为一个32位整型，在Python中默认是有符号类型，最高位为符号位，bitmap不能使用它。左边是高位，右边是低位，最低位为第0位。

bitmap是用于对每一位进行操作。举例来说，一个Python数组包含4个32位有符号整型，则总共可用位为4*31=124位。如果要在第90个二进制位上操作，则要先获取到操作数组的第几个元素，再获取相应的位索引，然后执行操作。

初始化bitmap

首先需要初始化bitmap。拿90这个整数来说，因为单个整型只能使用31位，所以90除以31并向上取整则可得知需要几个数组元素。代码如下：

复制代码代码如下:

#!/usr/bin/envpython
#coding:utf8

classBitmap(object):
def__init__(self,max):
self.size=int((max+31-1)/31)#向上取整

if__name__=="__main__":
bitmap=Bitmap(90)
print"需要%d个元素。"%bitmap.size

复制代码代码如下:

$pythonbitmap.py
需要3个元素。

计算在数组中的索引

计算在数组中的索引其实是跟之前计算数组大小是一样的。只不过之前是对最大数计算，现在换成任一需要存储的整数。但是有一点不同，计算在数组中的索引是向下取整，所以需要修改calcElemIndex方法的实现。代码改为如下：

复制代码代码如下:
#!/usr/bin/envpython
#coding:utf8

classBitmap(object):
def__init__(self,max):
self.size =self.calcElemIndex(max,True)
self.array=[0foriinrange(self.size)]

defcalcElemIndex(self,num,up=False):
  """up为True则为向上取整,否则为向下取整"""
  ifup:
   returnint((num+31-1)/31)#向上取整
  returnnum/31

if__name__=="__main__":
bitmap=Bitmap(90)
print"数组需要%d个元素。"%bitmap.size
print"47应存储在第%d个数组元素上。"%bitmap.calcElemIndex(47)

复制代码代码如下:
$pythonbitmap.py
数组需要3个元素。
47应存储在第1个数组元素上。

所以获取最大整数很重要，否则有可能创建的数组容纳不下某些数据。

计算在数组元素中的位索引

数组元素中的位索引可以通过取模运算来得到。令需存储的整数跟31取模即可得到位索引。代码改为如下：

复制代码代码如下:
#!/usr/bin/envpython
#coding:utf8

classBitmap(object):
def__init__(self,max):
self.size =self.calcElemIndex(max,True)
self.array=[0foriinrange(self.size)]

defcalcElemIndex(self,num,up=False):
  """up为True则为向上取整,否则为向下取整"""
  ifup:
   returnint((num+31-1)/31)#向上取整
  returnnum/31

defcalcBitIndex(self,num):
returnnum%31

if__name__=="__main__":
bitmap=Bitmap(90)
print"数组需要%d个元素。"%bitmap.size
print"47应存储在第%d个数组元素上。"%bitmap.calcElemIndex(47)
print"47应存储在第%d个数组元素的第%d位上。"%(bitmap.calcElemIndex(47),bitmap.calcBitIndex(47),)

别忘了是从第0位算起哦。

置1操作

二进制位默认是0，将某位置1则表示在此位存储了数据。代码改为如下：

复制代码代码如下:
#!/usr/bin/envpython
#coding:utf8

classBitmap(object):
def__init__(self,max):
self.size =self.calcElemIndex(max,True)
self.array=[0foriinrange(self.size)]

defcalcElemIndex(self,num,up=False):
  """up为True则为向上取整,否则为向下取整"""
  ifup:
   returnint((num+31-1)/31)#向上取整
  returnnum/31

defcalcBitIndex(self,num):
returnnum%31

defset(self,num):
  elemIndex=self.calcElemIndex(num)
  byteIndex=self.calcBitIndex(num)
  elem     =self.array[elemIndex]
  self.array[elemIndex]=elem|(1<<byteIndex)

if__name__=="__main__":
bitmap=Bitmap(90)
bitmap.set(0)
printbitmap.array

因为从第0位算起，所以如需要存储0，则需要把第0位置1。

清0操作

将某位置0，也即丢弃已存储的数据。代码如下：

复制代码代码如下:
#!/usr/bin/envpython
#coding:utf8

classBitmap(object):
def__init__(self,max):
self.size =self.calcElemIndex(max,True)
self.array=[0foriinrange(self.size)]

defcalcElemIndex(self,num,up=False):
  """up为True则为向上取整,否则为向下取整"""
  ifup:
   returnint((num+31-1)/31)#向上取整
  returnnum/31

defcalcBitIndex(self,num):
returnnum%31

defset(self,num):
  elemIndex=self.calcElemIndex(num)
  byteIndex=self.calcBitIndex(num)
  elem     =self.array[elemIndex]
  self.array[elemIndex]=elem|(1<<byteIndex)

defclean(self,i):
  elemIndex=self.calcElemIndex(i)
  byteIndex=self.calcBitIndex(i)
  elem     =self.array[elemIndex]
  self.array[elemIndex]=elem&(~(1<<byteIndex))

if__name__=="__main__":
bitmap=Bitmap(87)
bitmap.set(0)
bitmap.set(34)
printbitmap.array
bitmap.clean(0)
printbitmap.array
bitmap.clean(34)
printbitmap.array

清0和置1是互反操作。

测试某位是否为1

判断某位是否为1是为了取出之前所存储的数据。代码如下：

复制代码代码如下:
#!/usr/bin/envpython
#coding:utf8

classBitmap(object):
def__init__(self,max):
self.size =self.calcElemIndex(max,True)
self.array=[0foriinrange(self.size)]

defcalcElemIndex(self,num,up=False):
  """up为True则为向上取整,否则为向下取整"""
  ifup:
   returnint((num+31-1)/31)#向上取整
  returnnum/31

defcalcBitIndex(self,num):
returnnum%31

defset(self,num):
  elemIndex=self.calcElemIndex(num)
  byteIndex=self.calcBitIndex(num)
  elem     =self.array[elemIndex]
  self.array[elemIndex]=elem|(1<<byteIndex)

defclean(self,i):
  elemIndex=self.calcElemIndex(i)
  byteIndex=self.calcBitIndex(i)
  elem     =self.array[elemIndex]
  self.array[elemIndex]=elem&(~(1<<byteIndex))

deftest(self,i):
  elemIndex=self.calcElemIndex(i)
  byteIndex=self.calcBitIndex(i)
  ifself.array[elemIndex]&(1<<byteIndex):
   returnTrue
  returnFalse

if__name__=="__main__":
bitmap=Bitmap(90)
bitmap.set(0)
printbitmap.array
printbitmap.test(0)
bitmap.set(1)
printbitmap.test(1)
printbitmap.test(2)
bitmap.clean(1)
printbitmap.test(1)

复制代码代码如下:
$pythonbitmap.py
[1,0,0]
True
True
False
False

接下来实现一个不重复数组的排序。已知一个无序非负整数数组的最大元素为879，请对其自然排序。代码如下：

复制代码代码如下:
#!/usr/bin/envpython
#coding:utf8

classBitmap(object):
def__init__(self,max):
self.size =self.calcElemIndex(max,True)
self.array=[0foriinrange(self.size)]

defcalcElemIndex(self,num,up=False):
  """up为True则为向上取整,否则为向下取整"""
  ifup:
   returnint((num+31-1)/31)#向上取整
  returnnum/31

defcalcBitIndex(self,num):
returnnum%31

defset(self,num):
  elemIndex=self.calcElemIndex(num)
  byteIndex=self.calcBitIndex(num)
  elem     =self.array[elemIndex]
  self.array[elemIndex]=elem|(1<<byteIndex)

defclean(self,i):
  elemIndex=self.calcElemIndex(i)
  byteIndex=self.calcBitIndex(i)
  elem     =self.array[elemIndex]
  self.array[elemIndex]=elem&(~(1<<byteIndex))

deftest(self,i):
  elemIndex=self.calcElemIndex(i)
  byteIndex=self.calcBitIndex(i)
  ifself.array[elemIndex]&(1<<byteIndex):
   returnTrue
  returnFalse

if__name__=="__main__":
MAX=879
suffle_array=[45,2,78,35,67,90,879,0,340,123,46]
result      =[]
bitmap=Bitmap(MAX)
fornuminsuffle_array:
  bitmap.set(num)

foriinrange(MAX+1):
  ifbitmap.test(i):
   result.append(i)

print"原始数组为: %s"%suffle_array
print"排序后的数组为:%s"%result

bitmap实现了，则利用其进行排序就非常简单了。其它语言也同样可以实现bitmap，但对于静态类型语言来说，比如C/Golang这样的语言，因为可以直接声明无符号整型，所以可用位就变成32位，只需将上述代码中的31改成32即可，这点请大家注意。

猜你喜欢

关闭MSSQL：后果究竟有多严重？（关闭mssql会怎样）
激光slam综述_SLAM是什么
如何在区块链领域保护竞争？看看OECD发布的区块链竞争政策报告怎么说
转换音频Linux下FFmpeg音频转换指南（linux下ffmpeg）
Oracle数据库让你回到过去（oracle数据库闪回）
MySQL 备份表的命令：实现数据安全（mysql备份表命令）
TCP/IP 开胃菜之 HTTP
构建快速而强大的Linux运维平台（linux运维平台）
精通MySQL编写高效存储过程（mysql编写存储过程）
MySQL Error number: MY-012276; Symbol: ER_IB_MSG_451; SQLSTATE: HY000 报错故障修复远程处理
莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup｜附作者对话
探索Linux沙盒技术，提升安全性（linux沙盒技术）
Web Service详解程序员
PHP中动态显示签名和ip原理
java课设选题_基于javaweb的课程设计
一文通关之MybatisPlus
ORA-16820: fast-start failover observer is no longer observing this database ORACLE 报错故障修复远程处理
商汤的医疗狂想曲
机器学习能否改变类脑计算备受质疑的现状？

zl程序教程

当前栏目

python实现bitmap数据结构详解

相关文章