您现在的位置是：首页 > 硬件

当前栏目

barret reduction原理详解及硬件优化

原理硬件详解优化

2023-09-14 09:15:33 时间

背景介绍

约减算法，通常应用在硬件领域，因为模运算mod是一个除法运算，在硬件中实现速度会比乘法慢的多，并且还会占用大量资源，因此需要想办法用乘法及其它简单运算来替代模运算。模约减算法可以利用乘法、加法和移位等操作实现大数的取模，规避了模运算中的除法，常见方法有蒙哥马利模约减，barret模约减等，本篇文章介绍barret 模约减算法原理。

barret reduction

约减就是用简单运算来规避除法运算，以便于硬件实现，以A mod q为例，如果要计算A对q取模的结果使用barret reduction算法应该怎么做？

先规定A mod q，则称A为模数，q为基。

假设A的位宽是 $w_{1}$ ，q的位宽是 $w_{2}$ ，对于硬件实现来说需要预计算出两个常数：

$\begin{cases} & \ q_1=\frac{A}{2^{w_{2}}} \\ & \ H=\frac{2^{w_{1}+1}}{q} \end{cases}$

$\small q_1$ 和 $\small H$ 在进行预计算的时候，都需要对计算结果进行取下整，进而 $\small q_1$ 和 $\small H$ 满足如下不等式：

$\begin{cases} & \ \ \ \frac{A}{2^{w_{2}}}-1 <q_1\leqslant \frac{A}{2^{w_{2}}} \\ & \ \frac{2^{w_{1}+1}}{q}-1<H\leqslant \frac{2^{w_{1}+1}}{q} \end{cases}$

令 $\small q_2 =q_1\times H$ ，则有如下不等式成立：

$\small q_2=\frac{A}{2^{w_{2}}} \times\frac{2^{w_{1}+1}}{q}$

$\small \frac{2^{w_{1}-w_{2}+1}A}{q}-\frac{A}{2^{w_{2}}}-\frac{2^{w_{1}+1}}{q}+1<q_2\leqslant \frac{2^{w_{1}-w_{2}+1}A}{q}$

令 $\small q_3=q_2 / 2^{w_{1}-w_{2}+1$ ，即对上面 $\small q_2$ 不等式，两边同时除以 $\small 2^{w_{1}-w_{2}+1$ ，得到：

$\small \frac{A}{q}-\frac{A}{2^{w_{1}}+1}-\frac{2^{w_{2}}}{q}+\frac{1}{2^{w_{1}-w_{2}+1}}<q_3\leqslant \frac{A}{q}$

由于A的位宽是 $w_{1}$ ，q的位宽是 $w_{2}$ ，所以A和q满足如下不等式：

$\begin{cases} & \frac{A}{2^{w_{1}+1}} \leqslant1 \\ & \ \ \frac{2^{w_2}}{q} \leqslant2 \end{cases}$

把A和q所满足的不等式，带入 $q_3$ 不等式中，得到：

$\small \frac{A}{q}-3<q_3\leqslant \frac{A}{q}$

所以两边同时乘以q得到：

$A-3q<q_3\times q\leqslant A$

因此得到模运算可以化简为：

$A\ mod\ q=(A-q_{3}\times q)\ mod\ q$

又由于 $A-q_{3}\times q$ 是在A-3q和A之间的，所以它对q取模，只需要判断它在[0,q)、[q,2q)、[2q,3q)的哪个区间，若 $A-q_{3}\times q$ 落在[q,2q)区间，则：

$(A-q_{3}\times q)\ mod\ q=A-q_{3}\times q-q$

以上，完成了barret模约减，同样的，该模约减算法可以应用在模乘领域，即实现barret模乘。而相对于模乘，AB mod q，可以直接把AB的乘积看作是上面公式推导的A，然后再进行模乘。

barret模约减计算流程大体如下图所示：

硬件实现

看完模约减公式推导过程，肯定有人会疑问：

$\begin{cases} & \ q_1=\frac{A}{2^{w_{2}}} \\ & \ H=\frac{2^{w_{1}+1}}{q} \end{cases}$

先前预计算了两个常数，我后面的约减推导全都是依赖于这两个常数。先来看H，为了将多项式系数约束在基的范围内，进而能够实现密码学领域中的一些同态加密算法，选取的基q，通常是定值，因此H的计算量很少可以直接预计算并存储到RAM中，哪怕我A的取值范围是1-200bit，在基q确定的情况下我最多也只需要预计算200个H的值。

选取基q确定的情况下H好计算，但A是输入变量，有任意种可能，那么 $q_1$ 该怎么预计算？

事实上 $q_1$ 不需要预计算，因为 $q_1$ 是A除以2的幂次，在硬件中，除以2的幂次可以通过移位操作来实现，至于 $q_1$ 计算需要对结果向下取整，只需要对A进行移位操作即可。例如

$7/4=7>>2=3'b111 >>2=3'b001=1$

$downfloor(7/4) = downfloor(1.75)=2$

$q_1$ 计算对结果向下取整，可以直接用A移位来替代。

综上， $\small q_1$ 的值和 $\small H$ 的值我们都可以轻易得到了，并且不怎么消耗计算资源，也没有多少计算delay，并且后面 $\small q_3$ 的计算也是除以2的次幂，也可以转化为移位操作，因此barret模约减主要的计算量在于：

$\small \begin{cases} &q_2=q_1\times H=\frac{A}{2^{w_{2}}} \times\frac{2^{w_{1}+1}}{q} \\ & A-q_3\times q \end{cases}$

主要计算量在于上面的两个乘法，q2 = q1*H，和q3*q的计算。

硬件优化

在之前已经推导出barret模约减主要计算量在两个乘法，q2 = q1*H，和q3*q的计算。

对于硬件实现来说，第二个计算可以进行优化，因为A-q3*q之后还要对其的范围进行判断，若落在[q,2q)范围，则A mod q = A-q3*q-q，事实上我们关心其落在那个范围，并不需要比较所有bit位，q的位宽为 $\small w_2$ ，我们只需要比较低 $\small w_2+2$ 位的大小就可以判断其落在哪个范围，甚至对于q3*q也可以通过取q3的低 $\small w_2$ 位的数据和q进行乘运算，再取运算结果的低 $\small w_2+2$ 位进行比较，从而确定范围。

因此在硬件实现上，利用barret模约减，成功将除法化简为了两个乘法和一（两）个加法计算。

猜你喜欢

中国积极开展国际探月合作
研究Linux系统中进程创建的深刻奥秘（linux进程的创建过程）
SSM-用Spring+Druid+Mybatis错误:com.alibaba.druid.support.logging.JakartaCommonsLoggingImpl error
docker启动mysql命令_docker部署java环境
解决Jqueryload()加载GB2312页面时出现乱码的两种方案
如何在同一系统里同时启动多个Tomcat详解程序员
KEmulator手机java模拟器绿色版
Linux发展史：探讨分支之间的差异（linux的分支）
PyTorch深度学习（1）
检查app的activity是否在当前详解手机开发
轻量级 k8s 应用日志收集方案 loki
诚邀您加入：腾讯云文档内容共建计划
ORA-30031: the suspended (resumable) statement has been aborted ORACLE 报错故障修复远程处理
Linux如何进行分区管理（linux如何分区）
微服务链路追踪之Jaeger
Oracle 求最大时间：最佳结果指南（oracle取最大时间）
使用 SAP UI5 3D Viewer 控件显示 3D 模型效果试读版
ReDoS：正则也许会让你的系统更脆弱
JavaScript产生不重复的随机数三种实现思路
Linux：在用户间传递正能量（linux 给用户发消息）
阿里图标库引入图标
Oracle期末考试题大揭秘：重点题目解析，助你顺利通过考试！（oracle期末考试题）
Oracle字符：精准补齐提升效率（oracle字符补齐）

相关主题

hashMap的原理
Nacos 原理
CRC-16校验原理
tracer 原理
Spring AOP 原理
AOP实现原理
浏览器渲染原理
限流的原理
redis 原理