SSE图像算法优化系列十四:局部均方差及局部平方差算法的优化。
关于局部均方差有着较为广泛的应用,在我博客的基于局部均方差相关信息的图像去噪及其在实时磨皮美容算法中的应用及使用局部标准差实现图像的局部对比度增强算法中都有谈及,即可以用于去噪也可以用来增强图像,但是直接计算其计算量较大,一般都是通过某种方式进行优化,典型的即通过积分图来处理:
展开:
上式中两个累积一个是平方积分图,一个是累加积分图,累加积分图在SSE图像算法优化系列六:OpenCv关于灰度积分图的SSE代码学习和改进中曾经谈及,而平方积分图由于数据范围的问题,用int类型的数据来处理的话,只能处理很小很小的图,因此需要使用浮点类型,经过测试,如果使用SSE指令,由于SSE的浮点计算精度实在是低,比FPU的还要低,积分图这种累加性质的算法计算出来的结果会存在很大的误差,特别是在图像比较宽而半径比较小时,会看到明显的错误结果,半径稍微大点时,也会有明显竖条纹出现(小图像好像不会出现什么大问题),如下图所示:
小半径 大半径 合理的结果
因此,如果使用积分图,考虑各种类型的图像,最好是使用double类型保存中间的积分图数据,这是个很可观的内存消耗,也会导致时间的增加。
在SSE图像算法优化系列十三:超高速BoxBlur算法的实现和优化(Opencv的速度的五倍)一文中,我们描述了Boxblur的优化,优化后的速度即比传统的快,也占用很少的内存,我们观察下BoxBlur的累加式: 以及像素平方的累加式
,他们除理数据不一样外,其他并无本质的区别的,因此
也是可以使用类似于Boxblur的方式进行优化和处理的,这样上述算法就变为了2个这种累积算法的同步进行算法,并且同步进行能够减少很多重复数据的加载和处理,比单独进行两个过程其实是要更节省时间的。
那么需要注意的时,由于是对像素的平方进行累加,还考虑使用int类型来保存列累加值以及水平方向的累加值,那么理论上讲最大的安全半径可以达到90(不会产生溢出),计算如下:
Sqrt(Int.MaxValue / (Byte.MaxValue * Byte.MaxValue)) / 2 - 1 = Sqrt(2147483647 / 65025) / 2 - 1 = 90
对于局部均方差相关的算法来说,90的半径已经完全满足了实际的需求。
使用SSE优化,实际测试表面,对于3000*2000的灰度图求取均方差大约需要13ms(包括了最后的求sqrt过程的时间,是相当快的)。
另外,局部均方差是像素领域的值减去该领域的平均值的平方累积和,这样的结果在强边缘处均方差会特别强烈,用于某法会出现边缘效应,如果我们对这个稍微改造下,使用像素领域的值减去领域的模糊值,在求累加值,会不会有什么结果呢,此时假如平均值用y表示,则需要计算这个值,同样的y就是上述的Boxblur的值,计算这个的
优化方式和Boxblur又是相同的,一环套一环,当然这个时候的速度会比上面的慢一点,因此公共的计算不能重复利用了,大概需要17ms。
更广泛的讲,还可以用上述方式计算任意两幅图像的局部平方差,速度和效率同样很高。比如计算原图和高斯模糊后的图的局部平法差,会得到什么结果呢?
使用这种方式优化后,我以前提的磨皮算法针对1080P的图可以做到约20ms每帧,而且效果非常好,完全可以使用到视频处理中。
参考效果下载:https://files.cnblogs.com/files/Imageshop/SSE_Optimization_Demo.rar,见其中的Boxblur - >LeeAddtiveNoiseFilter 以及Enhance ->MakeUp和ImageInfo->Stdfilter等。
相关文章
- 【算法训练营day58】LeetCode739. 每日温度 LeetCode496. 下一个更大元素
- 【算法训练营day57】LeetCode647. 回文子串 LeetCode516. 最长回文子序列
- 区块链——Lab2
- 二八轮动策略:基础与改进
- 第七章 程序是在何种环境下运行的
- 【算法训练营day56】LeetCode583. 两个字符串的删除工作 LeetCode72. 编辑距离
- 大势前瞻!文旅还是短视频,你弯道超车风口在这了
- 【算法训练营day55】LeetCode392. 判断子序列 LeetCode115. 不同的子序列
- Framework 中使用 Toolkit.Mvvm 的生成器功能
- 第121篇: DOM常用类型(Document、Element)
- 技术专家说 | 金融分布式多活架构在落地之时,都有哪些值得关注的点?
- 【黑科技】GPS北斗卫星授时技术下的NTP网络时间服务器
- 分层测试(五):端到端测试
- 【码农教程】手把手教你学会Mockito使用
- 微机原理与系统设计笔记8 | 可编程并行接口芯片8255A&&可编程定时器、计时器芯片8253、8254
- fusion app自定义事件源码介绍(上)
- openfoam文件读取
- 队列——queue的用法(及洛谷B3616)
- C#的string是一种糟糕的设计吗?
- 量化交易基础 - 005 - 订单执行算法