您现在的位置是：首页 > Python

当前栏目

CPU流水线竞争解决方案

执行数据寄存器解决方案 CPU

2023-02-25 18:19:06 时间

增加资源，通过添加指令缓存和数据缓存，让我们对于指令和数据的访问可以同时进行。帮助CPU解决取指令和访问数据之间的资源冲突。就像是在软件开发过程，发现效率不够，于是研发负责人说：“我们需双倍研发资源。”
直接等待。通过插入NOP这样的无效指令，等待之前的指令完成。这样我们就能解决不同指令之间的数据依赖问题。好比你在提需求时，研发负责人告诉你说：“来不及做，你只能等我们需求排期。”

“堆资源”、“等排期”这种解决方案，并不能提高效率，只是避免和现有任务冲突。

解决流水线冒险问题，还有更高效解决方案吗？既不用简单花钱加硬件电路这样“堆资源”，也不纯粹等待之前任务完成。有的，操作数前推。

1 NOP操作和指令对齐

MIPS体系结构下的R、I、J三类指令

五级流水线“取指令（IF）-指令译码（ID）-指令执行（EX）-内存访问（MEM）-数据写回（WB） ”。

MIPS体系结构下，不同类型指令，会在流水线的不同阶段进行不同操作。

如MIPS的：

LOAD，从内存读取数据到寄存器的指令，需经历5个完整流水线
STORE这种从寄存器往内存里写数据的指令，无需写回寄存器的操作，即无数据写回的流水线阶段
ADD、SUB加减法指令，所有操作都在寄存器完成，无实际的内存访问（MEM）操作

有些指令无对应流水线阶段，但并不能跳过对应阶段直接执行下一阶段。不然，若先后执行一条LOAD、一条ADD，就会发生LOAD指令的WB阶段和ADD指令的WB阶段，在同一时钟周期发生。相当于触发一个结构冒险事件，产生资源竞争。

所以实践中，各指令不需要的阶段，并不会直接跳过，而是运行一次NOP。插入一个NOP使后一条指令的每个Stage，一定不和前一条指令的同Stage在一个时钟周期。就不会发生先后两个指令，在同一时钟周期竞争相同的资源，产生结构冒险。

2 操作数前推

通过NOP对齐，在流水线里，就不会遇到资源竞争产生的结构冒险。

NOP也是流水线停顿插入的对应操作。但插入过多NOP，意味CPU总在空转。如何尽量少插NOP呢？

如下有两条先后发生的ADD指令

# 把 s1 和 s2 寄存器里面的数据相加，存到 t0 寄存器
add $t0, $s2,$s1
# 把 s1 和 t0 寄存器里面的数据相加，存到 s2 寄存器
add $s2, $s1,$t0

后一条 add 指令，依赖 t0 值。而 t0 值又来自前一条指令的计算结果。所以后一条指令，需等待前一条指令的数据写回阶段完成后，才能执行。要在第二条指令的译码阶段后，插入NOP，直到前一条指令的数据写回完成，才继续执行。

这虽解决数据冒险，但也浪费两个时钟周期。第2条指令其实就多花2个时钟周期，两次空转NOP。

第二条指令未必要等待第一条指令写回完成，才能进行。若第一条指令的执行结果，能直接传给第二条指令的执行阶段，作为输入，那第二条指令就不用再从寄存器里把数据再单独读出来一次，才执行代码。

可在第一条指令的执行阶段完成后，直接将结果数据传输给到下一条指令的ALU。然后，下一条指令不需要再插入两个NOP阶段，就可继续正常走到执行阶段。

这就叫操作数前推（Operand Forwarding）或操作数旁路（Operand Bypassing）。应该叫操作数转发。Forward就是写Email时的“转发”（Forward)。教材翻译都叫“前推”。

转发，逻辑含义，即在第1条指令的执行结果，直接“转发”给第2条指令的ALU作为输入
旁路（Bypassing），硬件含义在CPU硬件，需再单独拉一根信号传输的线路出来，使ALU计算结果重新回到ALU的输入。这条线路就是“旁路”。它越过（Bypass）写入寄存器，再从寄存器读出的过程，节省2个时钟周期。

操作数前推可单独使用，还可和流水线冒泡一起使用。有时，虽可把操作数转发到下条指令，但下条指令仍需停顿一个时钟周期。

如先执行一条LOAD，再执行ADD。LOAD指令在访存阶段才能把数据读出来，所以下条指令的执行阶段，需在访存阶段完成后才能进行。

操作数前推，比流水线停顿更进一步。流水线停顿像游泳比赛接力。下一名运动员，需在前一个运动员游玩全程，触碰到游泳池壁才能出发。

操作数前推，像短跑接力赛。后一个运动员可提前抢跑，而前一个运动员会多跑一段主动把交接棒传递给他。

3 总结

操作数前推或叫操作数旁路。在硬件层面制造一条旁路，让一条指令的计算结果，直接传输给下一条指令，不再需要“指令1写回寄存器，指令2再读取寄存器“这多此一举。直接传输的好处是后面指令可减少甚至消除原本需通过流水线停顿，才能解决的数据冒险。不仅可单独使用，还可以和流水线冒泡结合。因为有时，操作数前推并不能减少所有“冒泡”，只能去掉一部分。仍需通过插入一些“气泡”解决冒险。

通过操作数前推，我们进一步提升了CPU的运行效率。那么，我们是不是还能找到别的办法，进一步地减少浪费呢？毕竟，看到现在，我们仍然少不了要插入很多NOP的“气泡”。那就请你继续坚持学习下去。下一讲，我们来看看，CPU是怎么通过乱序执行，进一步减少“气泡”的。

参考

《计算机组成与设计：硬件/软件接口》的4.5～4.7章

猜你喜欢

前端性能优化 - React.memo 解决函数组件重复渲染
一文聊透软件设计模式这件事儿
前端的设计模式系列-外观(门面)模式
保守式 GC 与准确式 GC，如何在堆中找到某个对象的具体位置？
将音频编解码器添加到嵌入式系统的五个技巧
你知道JDK、JRE与JVM的区别吗？我来告诉你
Java那些事-聊聊那些易混淆的概念:OpenJDK/oracleJDK,Java EE/Jakarta EE
如何通过 Ingress-Nginx 实现应用灰度发布？
学习 Java 中最困难的部分以及如何克服它们
通过 eBPF 深入探究 Go GC
ULID 与 UUID：用于 JavaScript 的可排序随机 ID 生成器
一篇文章带你了解CSS Opacity(透明度)
手把手教你开展 Mofish 库(摸鱼库)的打包发布
用于微服务和云原生开发的六大 Java 框架
数据请求中Ajax、Fetch以及Axios的区别
高端操作：不用继承我也能实现多态
一文读懂测试自动化
Web 前端需不需要刷算法？
面试突击：为什么Start方法不能重复调用？而Run方法却可以？
谈一谈单元测试

zl程序教程

当前栏目

CPU流水线竞争解决方案

1 NOP操作和指令对齐

2 操作数前推

3 总结

相关文章