CN101241475B

CN101241475B - 从动态随机存取存储器到静态随机存取存储器的预取

Info

Publication number: CN101241475B
Application number: CN2007103007962A
Authority: CN
Inventors: B·P·布莱克; M·M·安纳瓦莱姆; D·W·麦考利; J·P·德瓦勒
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2006-12-22
Filing date: 2007-12-21
Publication date: 2011-09-28
Anticipated expiration: 2027-12-21
Also published as: KR20080059077A; DE102007059784A1; FR2910653B1; KR101025398B1; CN101241475A; HK1121257A1; US20080155196A1; GB2445262B; JP4658112B2; SG144054A1; JP2008159057A; TW200845035A; GB2445262A; US8032711B2; TWI379312B; GB0724812D0; FR2910653A1

Abstract

本发明的实施例总体上涉及用于进行从动态随机存取存储器(DRAM)到静态随机存取存储器(SRAM)的预取的系统、方法和设备。在一些实施例中，预取逻辑接收与载入指令相关联的预取提示。预取逻辑可以至少部分基于预取提示将两条或更多条高速缓存线从DRAM中的开放页传送到SRAM。

Description

从动态随机存取存储器到静态随机存取存储器的预取

技术领域

本发明的实施例总体上涉及集成电路领域，并且尤其涉及用于进行从动态随机存取存储器(DRAM)到静态随机存取存储器(SRAM)的预取的系统、方法和设备。

背景技术

工业芯片设计正朝着单芯片多处理器(CMP)方向发展。与高频单处理器相比，CMP提供的性能得到改善并且使功耗减小。CMP使用相对简单的内核，并且依靠线程级并行(TLP)来改善性能。在CMP上运行的应用程序必须增加TLP以有效利用内核数。

然而，增加TLP加大了每个时钟上未完成的存储器请求的数量，这也增加了存储器级并行(MLP)。此外，多线程应用程序的数据工作区将可能随着线程数而增加。最后，由于从几个线程进行交叉存取，增加TLP也有可能增加对共用高速缓存的存取的随机性。因此，存储器带宽和高速缓存容量应该与内核数成比例以支持增加的MLP和数据覆盖区。

最近，有人提出将三维(3D)管芯叠置作为用于在微处理器管芯上叠置密集的存储器管芯(例如DRAM)的可行选项。叠置允许将完全不同的Si技术结合到管芯叠置中，而不用考虑朝着单一工艺流程的技术集成。叠置还使用贯穿硅的通孔在管芯之间提供很高带宽的接口。因此，CMP上存储器(例如DRAM)的3D叠置可以有效地解决对于CMP缩放(scaling)的存储器分级障碍。

DRAM通常使一个开放行保持激活直到需要另一行，以减少存取的等待时间。该技术被称为开放页策略(open page policy)，并且如果对DRAM的连续存取是针对同一开放页，则该技术以最佳状态工作。否则，存储体关闭和预充电损失会显著增加对存储体进行存取的总等待时间。传统上，在DRAM设计中每个存储体只有一个开放页。

附图说明

以示例性而非限制性的方式示出本发明的实施例，在附图的各个图中，相似的参考标记表示相似的元件。

图1是示出根据本发明实施例实施的计算系统的所选方案的方框图；

图2是示出根据本发明实施例的块传送(block transfer)的概念图；

图3是示出根据本发明实施例实施的计算系统的所选方案的高级方框图；

图4是示出其中共用L2高速缓存的实施例的高级方框图；

图5是示出其中在高速缓存分级体系中在不同级上使用预取逻辑的实施例的高级方框图；

图6是示出根据本发明实施例的块传送的所选方案的流程图；

图7是根据本发明实施例实施的半导体器件的截面图。

具体实施方式

经验表明，对DRAM的存取位置可能随访问DRAM的线程数量的增加而更加随机。由于DRAM具有有限数量的存储体(例如16个)，所以开放页的数目会随着线程数的增加而显著增加。因此，存储体过载的结果会显著影响系统的性能。

本发明的实施例一般涉及用于进行从动态随机存取存储器(DRAM)到静态随机存取存储器(SRAM)的预取的系统、方法和设备。在一些实施例中，将两条或更多条高速缓存线(cache line)从DRAM中的开放页传送到SRAM。该传送可以在密集的互连(例如管芯至管芯的通孔)上发生。如以下进一步所述，本发明的实施例可以有效地提供适于CMP缩放的存储器资源。

图1是示出根据本发明实施例实施的计算系统的所选方案的方框图。计算系统100包括通过互连106与DRAM 104耦合的(多个)内核102。内核102几乎可以是集成电路的任意内核逻辑，包括通用处理内核、图形内核等。在一些实施例中，内核102是管芯(例如CMP)上的多个内核中的一个。

内核102包括指令处理逻辑108、Ln高速缓存(例如L2高速缓存)110以及预取(PF)逻辑112。指令处理逻辑108可以包括一个或多个用于处理指令的单元，例如指令指针、解码逻辑、寄存器以及L1高速缓存。在一些实施例中，指令逻辑108还可以包括用于产生预取提示(prefetch hint)(例如预取提示114)的逻辑。预取提示泛指两个或更多个载入指令可能从同一高速缓存页请求数据的指示。在一些实施例中，预取提示可以是由基于指令指针(IP)历史的步幅检测(stride detection)机制产生的置信度值。在可选实施例中，可以用不同的机制来产生预取提示。

Ln高速缓存110和PF逻辑112通过互连116(例如L2总线)与指令处理逻辑108耦合。在一些实施例中，如果L1高速缓存缺失，则将该缺失和预取提示114发送(直接或者通过存储器分级体系中的一个或多个级)到Ln高速缓存110和/或预取逻辑112。预取逻辑112可以至少部分基于预取提示114确定是否从DRAM 104的开放页预取两条或更多条高速缓存线。例如，如果预取提示114指示出很有可能多个LOAD指令将要展现流型的(streaming)行为，则PF逻辑112可以将整个开放页的数据从DRAM 104传送到Ln高速缓存110。

在一些实施例中，PF逻辑112可以包括用于例如如果互连106的使用程度太高则调节(throttle)预取的逻辑。在这种实施例中，PF逻辑112可以将由预取提示114提供的置信度(例如，高、中、或低)与互连使用程度的指示进行比较，并且确定是否从DRAM 104预取数据。这里使用的术语“数据”泛指任何类型的采用内核102可识别的任何形式的信息，包括指令。

DRAM 104几乎可以是任何形式的DRAM，包括商用DRAM、低延时的DRAM(RLDRAM)、磁性随机存取存储器(MRAM)等。此外，DRAM 104几乎可以具有任何数量的存储体，所述存储体几乎具有任意的页大小。在一些实施例中，DRAM 104具有16个存储体并且每一页是4千字节(KB)。

互连106可以是广范围的管芯至管芯和/或芯片至芯片互连中的任何一种。在一些实施例中，内核102和DRAM 104垂直叠置并且互连106是高密度管芯至管芯通孔。在可选实施例中，内核102和DRAM 104一起封装在多芯片模块中并且互连106在模块中的(至少)一些芯片之间提供高密度互连。在其他的可选实施例中，内核102和DRAM 104可以处于不同的封装中并且互连106连接这些封装。

图2是示出根据本发明实施例的块传送的概念图。将DRAM 202组织成一个或多个高速缓存页204。在一些实施例中，DRAM 202在任意给定时间(假设器件在工作中)都有一个高速缓存页是开放的。例如，在所示的实施例中，高速缓存页206开放。每个高速缓存页由两条或更多条高速缓存线208组成，每条高速缓存线208具有两个或更多个字节的数据。在一些实施例中，预取逻辑(例如图1所示的预取逻辑112)将两条或更多条高速缓存线构成的一个块从开放DRAM高速缓存页206传送到SRAM 210。传送一块的高速缓存线的决定可以至少部分基于预取提示(例如图1所示的预取提示114)。下面参照图3-7进一步说明数据从DRAM到SRAM的块传送。

图3是示出根据本发明实施例实施的计算系统的所选方案的高级方框图。系统300包括多个内核302。内核302可以是包括通用处理内核和图形内核在内的各种内核的任何一种。在一些实施例中，每个内核具有专用的L1高速缓存304和专用的L2高速缓存306。此外，每个内核(或者内核的子集)可以包括PF逻辑308。

在一些实施例中，DRAM L3高速缓存310处在与包含内核302的管芯垂直叠置的管芯上。在这种实施例中，L3总线314可以是高密度管芯至管芯互连。大容量DRAM 312提供系统存储器并且可以包括与内核302和DRAM L3高速缓存310分开的多个存储器件。

在一些实施例中，PF逻辑308将两条或更多条高速缓存线从DRAM L3高速缓存的开放页传送到SRAM L2高速缓存。传送一块的高速缓存线的决定可以至少部分基于从内核302上的指令处理逻辑(例如，图1所示的指令处理逻辑102)提供给PF逻辑308的预取提示。此外，传送一块的高速缓存线的决定可以至少部分基于总线3 14经历的使用程度。在一些实施例中，PF逻辑308可以将存储器的一整页从DRAM L3310传送到SRAM L2306。

图4是示出其中共用L2高速缓存的实施例的高级方框图。在所示的实施例中，每个内核302具有专用的L1高速缓存并且这些内核共用L2高速缓存402。如果L1高速缓存304缺失，则将该缺失和预取提示发送到L2高速缓存402和/或PF逻辑404。在一些实施例中，PF逻辑404至少部分基于预取提示决定是否传送来自DRAM L3310的两条或更多条高速缓存线。此外，预取逻辑404可以基于其他因素进行传送决定，所述其他因素包括L3总线314的使用程度。

图5是示出其中在高速缓存分级体系中在不同级上使用预取逻辑的实施例的高级方框图。在一些实施例中，可以将高速缓存缺失(例如L1和L2高速缓存都缺失)和预取提示发送到DRAM L3高速缓存502和/或PF逻辑504。PF逻辑504可以至少部分基于预取提示(以及可能的其他因素，例如总线使用程度)将两条或更多条高速缓存线从大容量DRAM 312的开放页传送到DRAM L3高速缓存502。预取逻辑308又可以将两条或更多条高速缓存线从DRAM L3高速缓存502传送到SRAM L2高速缓存306。尽管所示的实施例显示出两级批预取，但是应该理解的是，可以几乎在任意个级的高速缓存上，任意多次地执行一块的高速缓存线的批传送。

图6是示出根据本发明实施例的块传送的所选方案的流程图。参照处理方框602，预取逻辑(例如，图1所示的预取逻辑112)接收与LOAD指令相关的预取提示。在一些实施例中，由基于IP的步幅检测算法产生预取提示。在这种实施例中，预取提示可以指示随后的LOAD指令具有单调增加或减少的地址步幅的可能性有多大。在一些实施例中，预取提示可以具有任何数量的值，表示关于随后的LOAD指令是否具有单调增加或减少的地址步幅的置信程度。例如，预取提示可以表示高、中或低的置信度。或者，可以使用几乎任何方案来表示置信度。

参照处理方框604，PF逻辑可以基于一个或多个条件或因素来调节块预取。术语“调节”可以指包括延迟传送、取消传送、改变传送大小等的多种行为。触发调节传送的条件可以包括：其上将要发生传送的互连的使用程度、预取提示、功率节省程度等。如虚线所示，在一些实施例中调节机制是任选的。

参照处理方框606，PF逻辑至少部分基于预取提示将两条或更多条高速缓存线从DRAM传送到SRAM。例如，如果预取提示指示多个LOAD指令具有单调增加或减少的地址步幅的可能性很大，则PF逻辑可以将一块的高速缓存线传送到高速缓存中以增加所请求的数据存储在高速缓存中的可能性。DRAM可以是高速缓存分级体系的一部分和/或大容量存储器的元件。此外，SRAM可以存在于高速缓存分级体系中的几乎任何一级中。

图7示出根据本发明实施例的半导体器件700的截面图。器件700可以包括封装702、管芯728、管芯730以及管芯至管芯通孔726。一个或多个突起704-1至704-N(这里总称为“突起704”)可以允许电信号在封装702和管芯728之间传递，所述电信号包括功率、接地、时钟和/或输入/输出(I/O)信号。管芯728可以包括一个或多个贯穿管芯的通孔706，以使信号在凸起704和管芯730之间传递。器件700还可以包括散热装置(heat sink)708以考虑到散发由管芯730和/或器件700所产生的热量。

管芯728和730可以包括各种层。例如，管芯728可以包括体硅(SI)层710、有源Si层712和金属叠层714。管芯730可以包括金属叠层720、有源Si层722以及体Si层724。如图2所示，通孔726可以分别通过金属叠层714和720与管芯728和730互相连接。在一个实施例中，管芯728可以比管芯730更薄。例如，管芯728可以包括存储器件(例如随机存取存储器件)，而管芯730可以包括一个或多个处理器内核和/或共用的或专用的高速缓存。

管芯730包括一个或多个PF逻辑732的实例。在一些实施例中，PF逻辑732可以将两条或更多条高速缓存线从管芯728中的DRAM传送到管芯730中的SRAM。该传送可以通过管芯至管芯通孔726进行。在一些实施例中，管芯至管芯通孔726的相对高的带宽能够使PF逻辑732传送成块的多条高速缓存线而不会显著增加等待时间。

器件700可以包括用于例如将其他元件集成到同一器件或系统中的附加管芯。在这种实施例中，可以使用管芯至管芯和/或贯穿管芯的通孔以在各个管芯之间传递信号(例如，如对于通孔726和706所讨论的那样)。

还可以作为用于存储机器可执行的指令的机器可读介质来提供本发明实施例的元件。机器可读介质可以包括但不限于，闪速存储器、光盘、光盘只读存储器(CD-ROM)、数字多用/视频盘(DVD)ROM、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、传播介质或者适于存储电子指令的其他类型的机器可读介质。例如，本发明的实施例可以作为计算机程序来下载，可以经由通信链路(例如调制解调器或网络连接)以包含在载波或者其他传播介质中的数据信号的方式将所述计算机程序从远程计算机(例如服务器)传送到请求方计算机(例如客户机)。

应该理解的是，在整个说明书中所提到的“一个实施例”或“实施例”是指关于该实施例所述的特定的特征、结构或特性包括在本发明的至少一个实施例中。因此，要强调且应该理解的是，在本说明书的各个部分中两次或更多次提到的“实施例”或“一个实施例”或“可选实施例”并不一定都指同一个实施例。此外，可以在本发明的一个或多个实施例中适当组合特定的特征、结构或特性。

类似地，应该理解的是，在以上对本发明实施例进行的说明中，为了简化公开内容以有助于理解本发明各个方案中的一个或多个，有时候在本发明的单个实施例、附图以及说明中将各种特征组合在一起。然而，不应将公开的该方法解释为反映如下意图：所要求的主题需要比明确记载在每个权利要求中的特征更多的特征。相反地，如所附的权利要求书所反映的那样，发明方案在于少于前面所公开的单个实施例的所有特征。因此，所附的权利要求书被明确并入到本申请的说明书中。

Claims

1.一种集成电路，包括：

处理器内核，包括：

L1高速缓存；

用于生成与第一载入指令相关联的预取提示的指令处理逻辑，其中所述指令处理逻辑响应于检测到指令指针历史而生成所述预取提示，所述预取提示表示所述第一载入指令随后的两个或更多个载入指令可能从同一高速缓存页请求数据的置信程度，所述指令处理逻辑还响应于所述L1高速缓存出现缺失而发送所述预取提示；以及

耦合到所述指令处理逻辑的预取逻辑，所述预取逻辑用于至少部分基于发送的所述预取提示而将两条或更多条高速缓存线从动态随机存取存储器中的开放页传送到静态随机存取存储器，其中所述动态随机存取存储器提供某一级的高速缓存，并且所述静态随机存取存储器提供更高一级的高速缓存。

2.根据权利要求1所述的集成电路，其中所述两条或更多条高速缓存线包括存储器页。

3.根据权利要求1所述的集成电路，其中所述预取逻辑通过高密度接口传送所述两条或更多条高速缓存线。

4.根据权利要求3所述的集成电路，其中所述高密度接口为管芯至管芯通孔。

5.根据权利要求3所述的集成电路，其中所述高密度接口为贯穿硅的通孔。

6.根据权利要求1所述的集成电路，其中所述动态随机存取存储器包括大容量存储器。

7.根据权利要求1所述的集成电路，其中所述某一级的高速缓存是L3高速缓存，并且所述更高一级的高速缓存是L2高速缓存。

8.根据权利要求1所述的集成电路，还包括：

调节逻辑，其中所述调节逻辑能够至少部分基于所述预取提示和耦合在所述动态随机存取存储器和所述处理器内核之间的互连的使用程度来调节所述两条或更多条高速缓存线的所述传送。

9.根据权利要求7所述的集成电路，其中所述处理器内核包括所述集成电路的多个处理内核中的一个。

10.根据权利要求7所述的集成电路，其中所述处理器内核包括图形内核。

11.一种用于数据预取的方法，所述方法包括：

利用处理器内核的指令处理逻辑，生成与第一载入指令相关联的预取提示，所述处理器内核包括L1高速缓存，所述生成是响应于检测到指令指针历史，所述预取提示表示所述第一载入指令随后的两个或更多个载入指令可能从同一高速缓存页请求数据的置信程度；

响应于所述L1高速缓存出现高速缓存缺失，所述指令处理逻辑发送所述预取提示；以及

利用所述处理器内核的预取逻辑，至少部分基于发送的所述预取提示，将两条或更多条高速缓存线从动态随机存取存储器中的开放页传送到静态随机存取存储器。

12.根据权利要求11所述的方法，其中所述置信程度是三个或更多个值中的一个。

13.根据权利要求12所述的方法，其中所述三个或更多个值包括高、中和低。

14.根据权利要求11所述的方法，还包括：

至少部分基于所述预取提示和耦合在所述动态随机存取存储器和所述处理器内核之间的互连的使用程度来调节所述两条或更多条高速缓存线的传送。

15.根据权利要求11所述的方法，其中从所述动态随机存取存储器中的开放页传送所述两条或更多条高速缓存线包括：

从所述动态随机存取存储器中的开放页传送高速缓存页。

16.根据权利要求11所述的方法，其中所述动态随机存取存储器包括大容量存储器。

17.根据权利要求11所述的方法，其中所述动态随机存取存储器提供某一级的高速缓存。

18.一种计算系统，包括：

包括动态随机存取存储器的第一管芯；

第二管芯，包括

处理器内核，其具有：

L1高速缓存，

用于生成与第一载入指令相关联的预取提示的指令处理逻辑，其中所述指令处理逻辑响应于检测到指令指针历史而生成所述预取提示，所述预取提示表示所述第一载入指令随后的两个或更多个载入指令可能从同一高速缓存页请求数据的置信程度，所述指令处理逻辑还响应于所述L1高速缓存出现缺失而发送所述预取提示，以及

耦合到所述指令处理逻辑的预取逻辑，所述预取逻辑用于至少部分基于发送的所述预取提示而将两条或更多条高速缓存线从所述动态随机存取存储器中的开放页传送到静态随机存取存储器，其中所述动态随机存取存储器提供某一级的高速缓存，并且所述静态随机存取存储器提供更高一级的高速缓存；以及

耦合在所述第一管芯和第二管芯之间的互连。

19.根据权利要求18所述的计算系统，其中所述两条或更多条高速缓存线包括存储器页。

20.根据权利要求18所述的计算系统，其中所述互连是管芯至管芯通孔。

21.根据权利要求18所述的计算系统，其中所述处理器内核包括所述第二管芯的多个处理内核中的一个。

22.根据权利要求18所述的计算系统，其中所述处理器内核包括图形内核。