登录

联发科3纳米TCAM存储器技术介绍

嘉峪检测网 2025-05-27 19:10

导读:本文介绍了联发科3纳米TCAM存储器技术。

本文是联发科(MediaTek)存储器电路设计专家Sushil Kumar在2025年第72届国际固态电路会议(ISSCC)SRAM专题会议上发表的题为《A 3nm FinFET 2.2Gsearch/s 0.305fJ/b TCAM with Dynamically Gated Search Lines for Data-Center ASICs》的演讲,阐述了联发科新研发的一款采用3纳米Fin-FET工艺的TCAM存储器,该存储器设计创新性地引入了动态门控搜索线技术,专为数据中心专用集成电路(ASIC)打造。

 

演讲摘要

 

数据包分类与转发是数据中心网络(DCN)核心组件(如交换机、路由器)的基础功能,用于高效管理和引导网络流量。数据包分类通过解析包头信息识别流量特征,进而执行访问控制(ACL)、服务质量(QoS)等策略;数据包转发则依据路由表确定数据包的下一跳路径。三态内容寻址存储器(TCAM)通过并行内存搜索将输入数据包头与存储规则进行比对,从而加速这两项任务。TCAM提供的快速并行查找功能,使其成为DCN专用集成电路(ASIC)不可或缺的基础IP核。然而TCAM存在显著能耗代价——全条目并行搜索功耗密集,这将影响网络设备的运行效率、可靠性及环境足迹。为降低DCN-TCAM功耗,联发科设计了一款基于3nm FinFET工艺、支持2.2G次搜索/秒、能效0.305fJ/比特的TCAM,其创新设计包括: (1)动态门控搜索线(DGSL)架构,可实现37.4%的功耗节省与46.6%的峰值电流降低; (2)非对称分割架构(ASA),可带来与位宽相关的额外节电效益。

 

Outline

数据中心网络专用集成电路(ASIC,Application Specific Integrated Circuit)

 

网络规则的空间局部性

 

TCAM(三态内容寻址存储器)结构框图

 

基准TCAM架构及其挑战

 

动态门控搜索线(DGSL,Dynamically Gated Search Line)架构

 

• 动态搜索线(SL)的节能设计

 

• 峰值电流降低

 

非对称分割架构(ASA)

 

与现有技术的对比优势

 

总结与结论

 

数据中心网络专用集成电路(ASIC)

 

组成部分

 

• 互联网交换机与路由器

 

核心任务

 

• 分类(Classification): 基于策略

 

• 转发(Forwarding): 基于路由表

 

访问控制列表(ACL)

 

• 规则集合: 策略/路由表

 

DCN ASIC 的核心需求

 

• 高速并行查找

 

• 大容量规则存储

 

典型数据中心网络架构

TCAM(三态内容寻址存储器): DCN ASIC 的基础IP核

 

网络规则的空间局部性

 

规则的相似性与优先级

• 相似规则通常相邻存储: 内容相似的规则倾向于被编程在彼此靠近的位置

 

TCAM划分为8个存储块(Bank)

 

• 每个存储块代表不同的优先级层级

 

匹配规则的空间局部性

• 若某个搜索关键字匹配了特定条目,则后续匹配条目很可能位于其附近。

• 若数据包匹配了存储块 B6 中的规则,则不太可能同时匹配存储块 B0 中的规则。

 

TCAM (三态内容寻址存储器)结构框图

 

TCAM 结构框图

规格

• 512条目×220位

接口信号

• 控制输入: CK(Clock):时钟信号;SR(Search Enable):搜索使能信号

• 数据输入: SD(Search Data Input): 待搜索数据输入(220 位)

• 输出: HIT(匹配结果): 若SDI与某条目内容匹配则输出高电平,否则输出低电平。

存储块架构

• 512条目均分为8个存储块(Bank),每块含 64 条目。

• 220位SDI拆分为2级匹配宽度(每级110 位)

• 每存储块每级为64条目×110位

 

512条目×220位模块框图

 

TCAM 存储单元

位单元结构

• 两个6T-SRAM单元: 用于存储三态值

• 4T-NMOS堆叠结构: 将搜索关键字(Search Key)与TCAM中的三态值进行比对

功能特性

• 失配(Mismatch):输出下拉至低电平;

  匹配(Match):保持高电平

• 读写操作: 与标准6T-SRAM一致

TCAM位单元与真值表

 

基准 TCAM 架构及其挑战

 

基准架构

 

并行阶段S1和S2操作

预比较操作(Pre-compare)

• GIO生成S1_GSLT/C(存储块输入信号)

• LIO提供 S1_SLT/C(比较基准值)

• ML(匹配线)在比较前预充电至高电平

比较操作(Compare Operation)

• SDI与TCAM存储值在ML上进行比对

• S1HIT和S2HIT信号经触发器锁存,生成每个条目的最终匹配输出(HIT)。

 

基准TCAM 特性:S1和S2并行工作(两级比较电路同时运行以提升吞吐率)

 

基准架构

 

并行阶段S1和S2操作

预比较操作(Pre-compare)

• GIO生成S1_GSLT/C(存储块输入信号)

• LIO提供S1_SLT/C(比较基准值)

• ML(匹配线)在比较前预充电至高电平

比较操作(Compare Operation)

• SDI与TCAM存储值在ML上进行比对

• S1HIT和S2HIT信号经触发器锁存,生成每个条目的最终匹配输出(HIT)。

 

基准TCAM特性:S1和S2并行工作(两级比较电路同时运行以提升吞吐率)

 

基准架构

 

并行阶段S1和S2操作

预比较操作(Pre-compare)

• GIO生成S1_GSLT/C(存储块输入信号)

• LIO提供S1_SLT/C(比较基准值)

• ML(匹配线) 在比较前预充电至高电平

比较操作(Compare Operation)

• SDI与TCAM存储值在ML上进行比对

• S1HIT和S2HIT信号经触发器锁存,生成每个条目的最终匹配输出(HIT)。

 

基准TCAM特性:S1和S2并行工作(两级比较电路同时运行以提升吞吐率)

 

挑战: 动态搜索功耗

 

最坏情况: 全失配(all-miss)

 

细分项

 

• 匹配线(ML)35%: 每周期预充电与放电

 

• 搜索线(SL)37%:每周期根据数据翻转(SLT/C信号切换)

 

• 其他(28%): GSLT/C切换、控制逻辑、HIT信号等

 

已提出许多降低匹配线功耗的技术

 

降低搜索线(SL)功耗难以实现

 

TCAM功耗分布分析

 

核心挑战:如何降低匹配线(ML)和搜索线(SL)的功耗?

 

动态门控搜索线(DGSL,Dynamically Gated Search Line)架构

 

• 动态搜索线(SL)的节能设计

 

• 峰值电流降低

 

DGSL TCAM 架构

 

DGSL(动态门控搜索线架构,Dynamically Gated Search-line)

 

DGSL TCAM 架构详解

 

S1与S2阶段顺序执行

 

•3周期延迟

 

匹配线(ML)节能

 

搜索线(SL)节能: 依赖三大创新组件

 

①S1HIT线或(Wired-OR)逻辑电路: 快速识别潜在匹配区域

 

②S1NOMISS流水线触发器(P1NM):锁存阶段S1的无失配标志

 

③时钟门控单元(CGSC): 动态关闭未激活区域的时钟信号

 

DGSL TCAM 架构详解

 

S1与S2阶段顺序执行

 

•3周期延迟

 

匹配线(ML)节能

 

搜索线(SL)节能: 依赖三大创新组件

 

①S1HIT线或(Wired-OR)逻辑电路: 快速识别潜在匹配区域

 

②S1NOMISS流水线触发器(P1NM):锁存阶段S1的无失配标志

 

③时钟门控单元(CGSC): 动态关闭未激活区域的时钟信号

 

DGSL TCAM 的匹配线(ML)节能机制

 

阻止S2阶段ML预充电

 

•当大多数条目失配(miss)时,S1HIT信号基于预比较结果保持为0。

 

•通过触发器(flopped)锁存的S1HIT信号,关闭S2阶段的ML预充电。

 

DGSL TCAM-搜索线(SL)节能机制(1/2)

 

关键组件1: 线或(WIRED OR)逻辑电路

• 当主控信号MSAE=0时,对S1MISS信号线进行预充电。

• 所有一级匹配信号(S1HIT)通过分布式线或结构汇总至S1MISS

• 任一存储块命中(S1HIT=1)→S1MISS立即下拉至0

• 全存储块失配(所有S1HIT=0)→S1MISS维持预充电高电平1

 

 

 

 

DGSL TCAM-搜索线(SL)节能机制(1/2)

 

关键组件1:线或(WIRED OR)逻辑电路

•当主控信号MSAE=0时,对S1MISS信号线进行预充电。

•所有一级匹配信号(S1HIT)通过分布式线或结构汇总至S1MISS

•任一存储块命中(S1HIT=1)→S1MISS立即下拉至0

•全存储块失配(所有S1HIT=0)→S1MISS维持预充电高电平1

 

 

 

 

 

DGSL TCAM-搜索线(SL)节能机制(2/2)

 

关键组件2: S1无失配触发器(S1NOMISS F/F)

关键组件3: 时钟门控单元(CGSC)

• EN_S2SL-二级搜索线使能信号

• S2SCLK-门控生成的局部时钟

 

 

 

DGSL时序对比分析

 

基准架构vsDGSL仿真与时序图

• 分布式全局搜索线架构下,S2阶段的SCLK(搜索时钟)与SLT/C(搜索线真值/补码信号)无翻转。

 

 

DGSL架构的搜索功耗优化

 

ML(匹配线)功耗节省: 较基线降低16.7%

DGSL搜索线(SL)功耗节省

•与全未命中存储体数量呈线性节省关系

• 全存储体未命中时总功耗降低37.4%

 

 

DGSL峰值电流降低与基线对比

 

TCAM中的并行搜索:高峰值电流

 

• IR压降问题

 

基线峰值主要由ML(机器学习)主导

 

DGSL峰值电流降低与基线对比

 

DGSL(全未命中创新存储体): 阻止S2-ML预充电

 

• 峰值事件转移至SL切换

 

• 峰值电流降至基准值的80.3%

 

DGSL峰值电流降低与基线对比

 

DGSL(全存储体未命中模式): 有效抑制S2_SLT/C信号翻转

• 峰值电流事件回移至ML预充电阶段

• 峰值电流降至基准值的53.4%

 

非对称分割架构(ASA)

 

DCN(数据中心网络)可支持最高220位搜索键宽的不同实例配置

• 对于220位实例,110位分别分配至第1和第2阶段。

 

 

能否通过对较小10位宽实例采用位分割技术来降低功耗?

 

非对称分割架构(ASA)

 

164位分割方案

• 对称分割: 每阶段82位

• 非对称分割: 第一阶段54位,第二阶段110位。

 

非对称分割架构(ASA)

 

164位分割方案

 

• 对称分割: 每阶段82位

 

• 非对称分割: 第一阶段54位,第二阶段110位。

 

在S1阶段进行预比较可节省ML与SL功耗

 

采用ASA架构的节能效果

 

 

512×164配置可节省51%的搜索功耗

 

512×124实例实现最高节能效率达62.5%

 

与现有技术的对比优势

总结与结论

 

与现有技术的对比优势

实现了最高频率和最大存储密度

 

芯片照片与性能总结表

 

结论

 

本文提出一款512条目×220位搜索位的动态门控搜索线(DGSL)TCAM存储器。

 

相较于基准架构,该设计实现了37.4%的功耗降低,搜索能耗达0.305飞焦/比特(fJ/b)。

 

该宏单元(Macro)实现了业界最高的2.2 GHz工作频率。

 

该设计实现46.6%的峰值电流降低。

 

该宏单元(Macro)实现业界最高存储密度:4.97Mb/mm²。

 

针对10位窄位宽实例的非对称分割架构(ASA)实现方案。

 

3nm FinFET工艺硅验证结果

 

来源:半导体先进工艺论坛

关键词: 存储器

相关资讯

我要检测 电话咨询