CN1598763A

CN1598763A - 在计算机处理器中发出指令的方法以及计算机处理器

Info

Publication number: CN1598763A
Application number: CNA2004100702617A
Authority: CN
Inventors: M·S·麦基尔文; R·W·史密斯; T·A·萨托里尔斯; J·T·布里奇斯; V·R·奥格斯堡
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-09-17
Filing date: 2004-07-30
Publication date: 2005-03-23
Anticipated expiration: 2024-07-30
Also published as: US7366877B2; CN1328657C; US7725684B2; US20080189521A1; US20050060518A1

Abstract

在能够同时处理多个指令线程的微处理器中优化吞吐量的方法。在输入缓冲器和微处理器流水线之间提供一个指令发出逻辑。该指令发出逻辑根据一个概率预测性地发出来自给定线程的指令，该概率是当该指令达到流水线中需要操作数的一级时将能得到这些操作数的概率。如果当前的流水线状态表明有大的概率该指令将需要拖延在一个共享资源中以等待操作数，则该指令的发出被封锁。根据当前流水线状态一旦指令将会拖延的概率低于某一阈值，该指令将被允许发出。

Description

在计算机处理器中发出指令的方法以及计算机处理器

技术领域

一般地说，本发明涉及计算机处理器领域，更具体地说，涉及提高同时多线程处理器中的吞吐量。

背景技术

计算机处理器是任何计算机系统的心脏。它们负责处理使计算机的所有功能成为可能的那些指令。计算机处理器还被称作中央处理单元(CPU)和微处理器。一个流水线式计算机处理器有多个级，在处理阶段每个指令必须穿过这些级。一个示例性五级流水线式处理器含有如下各级：取指、解码、存储器访问、执行和写回。在取指级，一个指令被从寄存器或缓冲器取来，该指令在解码级被解码，以确定要进行的操作的类型以及需要什么操作数来完成该操作。在存储器访问级提取所需要的操作数，并在执行阶段执行该指令。然后，执行指令的结果在写回级就写回存储器。许多处理器有多于五级，一些处理器有不只一条流水线。然而，流水线式处理器的一些特性对于所有流水线都是相同的。具体地说，一旦一个指令进入一个流水线，由该指令造成的任何拖延(stall)将造成整个流水线拖延，当该流水线被拖延时，便没有输出产生，于是性能下降。这样，防止流水线拖延是实现微处理器最佳性能的一个重要因素。

微处理器按照由时钟协调的定时调度运行。时钟提供定时信号，称作周期。指令，操作数和结果的运动最好在每个时钟周期上完成。在一个流水线内的一个给定级，如执行级，可能用不只一个时钟周期来完成。然而，该执行级最好被分成多个子级，从而在每个时钟周期结束时能产生某种输出并允许进入下一级。以这种方式，微处理器在每个时钟周期结束时产生某种输出。时钟周期和时钟频率二者都能用来描述处理器的速度。时钟周期短的计算机将有高的时钟频率。一般地，时钟频率越高，则计算机越快，或者更准确地说，该计算机能更快速地处理指令。

一个线程是若干计算机指令形成的线或流，当它被处理时能达到计算机或计算机用户的某个目的。同时多线程处理器允许并发地执行两个或更多个可能独立的指令流。尽管在一个时刻只有一个指令能占有一个流水线的任何一级，让来自其他线程的指令准备好供处理能提高系统性能。为最有效地使用可得到的硬件和避免功能重复，某些流水线资源在所有线程当中共享。如果一个给定线程占有一个共享资源，它的指令流必定在某一点与其他线程的指令流汇合。为了本申请的目的，来自任何给定线程的指令汇合到一个共享流水线资源中的动作被定义为“发出(issue)”。在一个指令发出后，数据依赖性会使它拖延在一个共享资源中，直至依赖性解除为止，于是拖延了需要这同一资源的所有线程。这一问题的影响在高频设计中被放大，因为流水线深度要求在知道操作数可用性之前一个或多个周期时做出发出一个特定指令的决定。这增加了一个不独立的指令为等待所需操作数而在共享资源中拖延的机会。如果不是这样，而是让指令的发出延迟到知道操作数可用性之时，那么在不独立指令需要一些操作数时这些操作数本已准备好的情况下，系统的总体性能会受到负面影响。由于这增大的延迟，单个线程的性能也会受到影响，而多线程性能和/或效率会由于没有利用每个可能的机会从给定线程发出指令而受到影响。

先前克服这一问题的尝试涉及封锁一个具有依赖性的线程使其操作数数据准备好转发之前不发出指令。对于较低频的设计，这是一个适当的解决方案，但对于高频设计，这不是最佳的，因为高频设计由于其流水线深度使它必须在知道操作数可用性之前一个或多个周期时做出发出指令的决定。在高时钟频率的处理器中使用这一先有方法，会使得在每次遇到依赖性时对特定线程的总延迟引入一些惩罚性周期，因为没能在操作数数据变为可用时立即使用该操作数数据。

发明内容

在同时多线程微处理器中发出指令的方法。该微处理器包括至少一个多级流水线用于处理指令。该处理器还包括一个高速缓冲存储器、用于每个线程的多个独立的输入缓冲器以及指令发出逻辑。指令发出逻辑位于输入缓冲器和多级流水线之间。该方法包含以等于微处理器时钟速率的速率在指令发出逻辑中接收指令组的步骤，其中每个指令组包含来自每个独立输入缓冲器的一个指令。然后指令发出逻辑预测在其中每个指令的结果将可用于转发的流水线级。然后存储这一流水线级信息直至该指令达到所预测的级。然后指令发出逻辑识别需要来自先前指令的结果的任何不独立指令，该先前指令处在该不独立指令的临界距离之内。临界距离等于该不独立指令将需要结果的那一级和将会得到该结果的那一级之间的级数。基于该流水线的当前内容，指令发出逻辑发出那些将要完成流水线中所有各级而不会造成拖延的概率超过预定阈值的所有指令。指令发出逻辑保持其概率低于预定阈值的所有指令，其中被指令发出逻辑保持的指令将在其不造成流水线中拖延的概率上升到该阈值之上以后被发出。

本发明的一个目的是提高同时多线程微处理器的性能。

本发明的又一个目的是确定一个指令造成拖延的概率并根据所确定的概率推测性地发出指令。

附图说明

现在将参考附图更详细地描述本申请的发明，这些附图仅是作为举例给出，其中：

图1是在其中能利用本发明的一个计算机系统的方块图；

图2是具有本指令发出逻辑的中央处理单元的示意图；

图3是本指令发出逻辑的方块图；

图4是本方法的一般流程图；

图5是本指令发出逻辑的示例性决策树；以及

图6显示一个具有双流水线的处理器中的指令发出逻辑。

具体实施方式

这里描述的解决方案是根据当指令需要操作数时将得到所需操作数的概率推测性地发出来自给定线程的指令。如果当前流水线状态表明有大的概率该指令将需要拖延在一个共享资源中以等待操作数，则指令的发出被封锁。一旦指令将会拖延的概率低于某个阈值，则该指令被允许发出。

图1是方块图，显示一个能利用本方法的计算机系统的主要部件。有多线程能力的CPU 100是一个微处理器，它能处理指令的多个线程。多线程CPU通常比单线程CPU效率高，所以能比严格地在一个指令线程上操作的CPU有更好的总体性能。CPU 100与存储器105、控制单元110、电源控制单元115、显示控制单元125以及I/O控制单元135电连接。存储器105是随机存取存储器(RAM)，它与高速缓冲存储器的区别在于高速缓冲存储器位于CPU 100内部。控制单元110向CPU 100内的多个寄存器和缓存器提供控制信号，告诉寄存器何时接受和何时不接受新的数据。这些控制信号与系统时钟同步。系统时钟与图1中的每个部件电连接，唯电源控制单元115除外。为了清楚，这些连接没有示出。电源控制单元115向图1中的每个部件分配电源。显示控制单元125接收来自CPU 100的显示信息并控制如何在显示单元120上显示该信息。I/O控制单元135接收来自键盘130和鼠标器140的输入并将输入转换成机器可读形式，然后将其转发给CPU 100。当打印机连接到图1的系统时，I/O控制单元135还会接收来自CPU 100的信息并将这一信息转换成打印机指令。

图2是多线程CPU 100的更详细示意图。CPU输入缓冲器205为来自多个指令线程每一个的三个指令担任暂时存储器。当然，在其他实施例中能有多于三个或少于三个缓冲器用于每个指令流。第一列缓冲器保持来自第一指令线程的三个指令。第二列缓冲器保持来自第二指令线程的三个指令。这一暂时存储器系统重复CPU上存在的那么多缓冲器列，即直至第n列缓冲器被来自第n线程的指令充满。本指令发出方法是灵活的，能用于CPU所能接受的任何数量线程。来自每列缓冲器的一个指令进入指令发出逻辑200，在那里识别那一组中任何指令的依赖性问题。如果发现一个指令需要一个操作数而当该指令需要它时它可能不会被得到，则作为该指令来源的线程被从供发出的候选线程池中抛出，这里“发出”是指向流水线转发一个指令供处理。然后，最不可能在流水线中造成拖延的指令线程被发出。这并不是说保证整个线程穿过该流水线而不受中断。在优选实施例中，指令发出逻辑200评估每个时钟周期上造成拖延的概率。这样，如果发现来自当前被处理的线程的一个指令有造成拖延的高概率，则那个线程将被延时，而来自另一线程的一个指令将会发出。当一个指令被发出时，它进入该线程流水线各级210的第一级“A”。不同的流水线有不同的级数，图2显示本指令发出逻辑与具有任何级数的流水线兼容。在流水线210的每一级，对指令进行不同的操作。级A、B、C、W、X、Y和Z是被共享的资源，它们含有来自不同线程的指令的混合，然而，任何一级在任何给定时刻只含有一个指令。指令发出逻辑200必须从n个线程中选择适当的指令汇合到被共享的资源中。在这个例子中，要求指令在离开级B之前解除它们的依赖性。在级B，需要由该指令操作的操作数。级Y代表流水线中的其指令结果可能被转发到级B中的不独立指令的第一次机会。这样，在这个例子中，该流水线有一个四个时钟周期的“临界范围”，如果假定总共有七级而且每级只需一个时钟周期的话。临界范围定义在能发出一个不独立指令而不在流水线中造成拖延之前在它所依赖的指令发出之后该不独立指令必须延迟多久。当把本方法应用于这个例子时，有依赖性的指令将被封锁发出，直至它所依赖的指令达到级W。通过以这种方式延迟发出，不独立指令将在它所依赖的指令达到级Y的同时达到级B，假定不存在流水线保持的话。在发出之后，该不独立指令能继续深入该水线210而不会在任何被共享的资源中拖延，从而对其他线程的执行造成的影响最小。这一技术实现多线程吞吐量最大化。如果这不独立指令的发出不被延迟的话，这不独立指令将在它所依赖的指令到达级Y之前到达级B，造成该流水线拖延并影响所有其他线程的性能。封锁不独立指令的发出允许其他无关联的指令使用“指令时隙(instruction slot)”，否则的话这些“指令时隙”会被封锁该流水线的不独立指令浪费掉了。

图3是指令发出逻辑200的更详细示图，指令发出逻辑200有若干输入缓冲器300，其数量与CPU输入缓冲器的数量相等。输入缓冲器300与结果预测单元305相连，它预测并暂时存储流水线内的一级，在该级每个指令将首次使其结果可被不独立指令使用，结果预测单元305还确定每个指令在该流水线内进行处理期间需要什么资源。这样，也能避免在共享资源上的冲突，如特定存储器阵列资源。结果预测单元305连接于识别与延时单元310，它识别不独立指令并使不独立指令延迟，直至它们的操作数来源指令不再处在临界距离之内时为止。识别与延时单元310根据该流水线的当前内容以及由结果预测单元305提供的信息，确定一个特定指令是否应被延迟发出。识别与延时单元310还延时那些对一共享资源(如特定存储器阵列)有冲突的指令。在指令发出逻辑中的最后一个单元含有逻辑输出缓冲器315。对于单流水线处理器，逻辑输出缓冲器的作用是具有“n”个输入和只有一个输出的多路复用器。在优选实施例中，在输出缓冲器315中的所有指令都已被确定为不大可能在该流水线中造成拖延。所以输出缓冲器315只是简单地作为一个多路复用的FIFO(先进，先出)缓冲器。在每个时钟周期从输出缓冲器315发出的指令直接进入该流水线的第一级接受处理。

图4是一个流程图，显示由指令发出逻辑完成的步骤。优选地，每个步骤在一个时钟周期内执行，任何需要不只一个周期的步骤能被分成若干子步骤，从而在每个时钟周期结束时产生一个输出。在步骤400，发出逻辑从CPU中的每个指令线程接收一个指令。在步骤405，预测一个指令在其结果可供转发之前必须达到的级。这些预测用于确定其后的一个不独立指令是否在该指令的临界范围内。在优选实施例中，在这些指令达到流水线中可用它们的结果的级之后，被预测的级信息被清仓。还有，在指令发出(进入流水线)之后，根据流水线的当前内容，以每个时钟周期的频率，对预测的级信息进行更新。在步骤410，至少是部分地通过对指令解码，识别出指令所需操作数。以这种方式还能识别共享资源冲突。在步骤415，流水线的当前内容被检验，由此得到的信息用于更新级预测结果，操作数可用性以及其他共享资源的冲突(如特定存储器)。在步骤420，可能有冲突的那些指令被加以标志，从而使指令发出逻辑能计算那些指令造成拖延的概率。在步骤425，确定造成拖延的似然性。如果造成拖延的似然性低于一个阈值水平，例如50％，则允许该指令发出(步骤435)。如果确定在一个流水线中造成拖延的概率超过阈值水平，则该指令被延迟一个或多个时钟周期(步骤430)。被延迟的指令在每个时钟周期都被重新估价，并在流水线内容表明造成拖延的概率已降到阈值水平之下时立即被允许发出。

图5是流程图，显示一旦一个指令已被标记为有潜在冲突时的后续步骤。在步骤500中，确定这潜在冲突是否是一个操作数冲突。如果没有操作数冲突，则在步骤505确定是否存在一个共享资源冲突。如果没有共享资源冲突，则在步骤510允许该指令发出。然而，如果在步骤500或505中确定存在一个冲突，则指令发出逻辑在步骤515确定这两个冲突的指令是否在彼此的临界范围内。使用图2的例子，那里操作数冲突的临界范围是四个时钟周期，如果这不独立指令落后于它所依赖的指令(“独立”指令)、四个或更多个流水线级，则在步骤510允许发出这不独立指令。然而，如果这不独立指令在这“独立”指令之后不足四级，则必须计算造成拖延的概率。共享资源冲突的临界范围将比操作数冲突的临界范围少一个或多个时钟周期，这取决于所涉及的资源。在步骤520中，在流水线中造成拖延的概率是根据该临界范围以及流水线的当前内容确定的。在步骤525，该概率与一个阈值进行比较，该阈值可以改变。如果概率低于阈值，则该指令被允许发出。然而，如果造成拖延的概率在该阈值之上，则该指令被延迟。被延迟的指令可在每个时钟周期有被重计算的概率。当造成拖延的概率最终降到阈值以下时，该指令被允许发出。

图6显示具有双指令流水线210和605的CPU 600中处于操作状态的当前指令发出逻辑200。在这一实施例中，指令发出逻辑200仍从多个线程，从CPU缓冲器205，接收多个指令。然而，指令发出逻辑200在每个时钟周期发出两个指令，从而在每个时钟周期每个流水线210和605各接收一个指令供处理。在这一实施例中的指令发出逻辑在确定造成拖延的概率时考虑两个流水线的内容。

使用本方法还能实现单线程微处理器的最小迟时。根据将能得到其操作数的概率推测性地发出不独立指令，通过在“最佳”时刻发出指令，能改善单线程的性能。封锁不独立指令的发出，直至它有高概率得到它的操作数，这就不会招致对带有依赖性的线程的惩罚。预测性发出的指令仍能在它们的操作数恰好变为可用时使用这些操作数。通过允许处理器利用在给定线程上能取得进展时的每个可能的发出机会，来减小正在进行的全部指令流的总延迟，从而改善多线程和单线程性能。

如果根据某些预测，预测性地允许发送指令，则有可能该预测是不正确的。这种情况的一个例子是一个依赖于可高速缓存负载的指令的发出。为使单线程延迟尽可能小，可能在假定一个指令所依赖的负载将是一个高速缓存命中的情况下预测性地发出这一指令。如果在发出时刻之后认识到该负载是一个高速缓存未命中，则这个不独立指令将被迫等在共享资源中直至高速缓存未命中被解决为止。

前文中对具体实施例的描述如此充分地揭示了本发明的一般特性，以致其他人应用当前的知识能容易地修改这些具体实施例和/或使其适应于其他应用而不脱离其通用概念。所以，这些适应和修改应该成为和打算成为处于所公开的实施例的等效物的意义和范围内。应该理解，这里所用术语的措辞是为了描述的目的，而不是为了限制。

Claims

1.一种在多线程计算机处理器中发出指令的方法，该方法包括如下步骤：

在指令发出逻辑中接收计算机指令组，其中每组指令包含来自多个独立的指令线程中每一个的一指令；

在计算机处理器的多级指令流水线中预测一个级，在该级每个指令的结果将是可得到的；

把所收到的需要从作为先决条件的指令得到结果的那些指令识别为不独立指令；

为每个所收到的指令确定一个置信因子，它指出该指令将完成该水线所有各级而不造成拖延的概率；以及，

由指令发出逻辑发出其置信因子在预定阈值之上的指令。

2.权利要求1的方法，进一步包括如下步骤：

存储每个指令的预测流水线级；以及

根据流水线当前内容，动态地更新存储的每个指令的预测流水线级。

3.权利要求2的方法，其中一个指令的置信因子是根据当前位置和作为先决条件的指令的预测级而确定的。

4.权利要求3的方法，进一步包括如下步骤：

根据流水线当前内容动态地重新计算每个指令的置信因子。

5.权利要求2的方法，进一步包括如下步骤：

把所收到的对共享资源有冲突的那些指令识别为不独立指令，其中的共享资源是该计算机处理器在其中进行操作的计算机系统内的资源。

6.权利要求5的方法，其中一个不独立指令的置信因子是根据当前位置和任何作为先决条件的指令的预测级以及任何被识别出的共享资源冲突的预测解决方案而确定的。

7.权利要求6的方法，进一步包括如下步骤：

根据流水线当前内容和任何共享资源的当前状态动态地重新计算每个指令的置信因子。

8.一种在单线程计算机处理器中发出指令的方法，该方法包括：

在指令发出逻辑中接收计算机指令组，其中每组指令包含来自单一指令线程的多个指令；

为每个所收到的指令确定一个置信因子，它指出该指令将完成流水线所有各级而不造成拖延的概率；以及

由指令发出逻辑发出其置信因子在预定阈值之上的指令。

9.权利要求8的方法，进一步包括如下步骤：

存储每个指令的预测流水线级；以及

根据流水线的当前内容，动态更新存储的每个指令的预测流水线级。

10.权利要求9的方法，其中一个指令的置信因子是根据当前位置和作为先决条件的指令的预测级而确定的。

11.权利要求10的方法，进一步包括如下步骤：

根据流水线的当前内容动态地重新计算每个指令的置信因子。

12.权利要求9的方法，进一步包括如下步骤：

把所收到的需要来自一个存储器的操作数的那些指令识别为不独立指令，其中的存储器是该计算机处理器在其中运行操作的计算机系统内的存储器。

13.权利要求12的方法，其中一个不独立指令的置信因子是根据当前位置和任何作为先决条件的指令的预测级以及任何所需要的操作数将在该处理器的高速缓冲存储器中被找到的概率而确定的。

14.权利要求13的方法，进一步包括如下步骤：

根据流水线的当前内容和该处理器高速缓冲存储器的当前内容，动态地重新计算每个指令的置信因子。

15.权利要求1的方法，其中在每个时钟周期从指令发出逻辑发出一个或多个指令。

16.一种具有能增大吞吐量的预测性指令发出能力的同时多线程计算机处理器，该计算机处理器包括：

多个独立的输入缓冲器，其中为多个独立的指令线程中的每一个提供一组缓冲器；

与独立的输入缓冲器连接的指令发出逻辑，其中该指令发出逻辑：

从每个指令线程接收指令；

在处理器的多级流水线中预测一个级，在该级每个指令的结果将是可得到的；

为每个指令确定一个置信因子，它指出该指令将完成多级流水线所有各级而不造成拖延的概率；以及

发出其置信因子在预定阈值之上的指令；而且，其中多级流水线的第一级与指令发出逻辑的输出缓冲器相连接。

17.权利要求16的计算机处理器，其中该指令发出逻辑存储每个指令的预测流水线级，并根据流水线的当前内容动态地更新存储的每个指令的预测流水线级。

18.权利要求16的计算机处理器，其中一个指令的置信因子是根据当前位置和作为先决条件的指令的预测级而确定的。

19.权利要求17的计算机处理器，其中的指令发出逻辑根据流水线的当前内容动态地重新计算每个指令的置信因子。

20.权利要求16的计算机处理器，其中每个时钟周期由指令发出逻辑发出一个或多个指令。

21.权利要求16的计算机处理器，其中指令发出逻辑进一步把所收到的对共享资源有冲突的那些指令识别为不独立指令，其中的共享资源是该计算机处理器在其中进行操作的计算机系统内的资源。

22.权利要求21的计算机处理器，其中一个不独立指令的置信因子是根据当前位置和任何作为先决条件的指令的预测级以及任何被识别出的共享资源冲突的预测解决方案而确定的。

23.权利要求22的计算机处理器，其中的指令发出逻辑根据流水线的当前内容和任何共享资源的当前状态动态地重新计算每个指令的置信因子。

24.一种具有能增大吞吐量的预测性指令发出能力的单线程计算机处理器，该计算机处理器包括：

多个输入缓冲器，用于接收来自一个指令线程的指令；

与输入缓冲器连接的指令发出逻辑，其中该指令发出逻辑：

从输入缓冲器接收指令；

为每个指令确定一个置信因子，它指出该指令将完成流水线所有各级而不造成拖延的概率；以及

25.权利要求24的计算机处理器，其中该指令发出逻辑存储每个指令的预测流水线级，并根据流水线当前内容动态地更新存储的每个指令的预测流水线级。

26.权利要求24的计算机处理器，其中一个指令的置信因子是根据当前位置和作为先决条件的指令的预测级而确定的。

27.权利要求25的计算机处理器，其中的指令发出逻辑根据流水线当前内容动态地重新计算每个指令的置信因子。

28.权利要求24的计算机处理器，其中指令发出逻辑进一步把所收到的对共享资源有冲突的那些指令识别为不独立指令，其中的共享资源是该计算机处理器在其中进行操作的计算机系统内的资源。

29.权利要求28计算机处理器，其中一个不独立指令的置信因子是根据当前位置和任何作为先决条件的指令的预测级以及任何被识别出的共享资源冲突的预测解决方案而确定的。

30.权利要求29的计算机处理器，其中的指令发出逻辑根据流水线当前内容和任何共享资源的当前状态动态地重新计算每个指令的置信因子。