流水线的概念
计算机流水线是Intel首次在486芯片中开始使用的。在CPU中把指令的执行分成若干个不同的功能单元来实现,由若干个不同功能的电路单元组成一条指令处理流水线,然后将一条X86指令分成若干步后再由这些电路单元分别执行,这样就能实现在一个CPU时钟周期完成一条指令,因此提高CPU的运算速度。经典奔腾每条整数流水线都分为四级流水,即指令预取、译码、执行、写回结果,浮点流水又分为八级流水。
C6000 系列DSP流水线的各个阶段
基本的流水线阶段
- 指令预取FP:产生指令预取地址以及读取指令;
- PG:产生预取地址;
- PS:发送地址到内存;
- PW:等待数据ready;
- PR:读取指令
- 指令译码D:把指令分配到功能单元,指令解码;
- DP:把指令dispatch到相应的功能单元;
- DC:指令在相应的功能单元译码;
- 指令执行E:执行指令
图2. C6000系列DSP的指令执行流水线阶段
C62x处理器的指令延时
说明 |
指令 |
指令延时 |
等待时间 |
单周期 |
除了以下指令 |
0 |
0+1=1 |
乘法 |
MPY/SMPY |
1 |
2 |
数据加载 |
Ldb/ldh/ldw/lddw |
4 |
5 |
跳转 |
B |
5 |
6 |
指令加载包和执行包
一个指令加载包是256bit,即8个32bit指令,即片内是256bit的程序总线宽度。
指令执行包是根据指令是否并行决定的,因而一个指令加载包可能包含多个指令执行包,一个指令执行包可能跨越两个指令加载包。
指令区别
C64x的指令流水延时
说明 |
指令 |
指令延时 |
等待时间 |
简单乘法单元指令 |
BITC, BITR, AVGx, |
1 |
1+1=2 |
扩展的乘法指令 |
DOTPx, MPYHI, |
3 |
4 |
C64x+的指令增强
No Unit |
.L |
.M |
.S |
0 Delay SlotsDINTRINT N/ASPKERNELSPKERNELRSPLOOP |
0 Delay SlotsADDSUBADDSUB2DPACK2DPACKX2SADDSUBSADDSUB2SHFL3SSUB2 |
3 Delay SlotsCMPY MPY32 CMPYR CMPYR1MPY32 DDOTP4DDOTPH2 MPY32SUDDOTPH2R MPY32UDDOTPL2 MPY32USDDOTPL2R SMPY32GMPY XORMPY |
5 Delay SlotsCALLP0 Delay SlotsDMVRPACK2 |
VLIW以及增强的VLIW
标准的VLIW是指指令执行包和指令加载包完全相同。而TI的VelociTI的VLIW架构运行FP不同于EP。TI的加载包FP是256bit,而执行包最少可以是单指令的32-bit,因而,这种架构能大幅减少code size,那么需要的内存空间减少从而提高系统性能。对于C62x和C67x的处理器,其EP执行包不能跨越FP加载包,因而需要把EP对齐到FP内,而C64x, C64x+, C672x则EP能跨越FP边界。
注释:
Fetch Packet: 8 32-bit instr (256 bits)
VLIW: Very Long Instr Word (256 bits)
EP: Execute Packet (group of || instr)
Instruction: 32-bit opcode
VelociTI: TI’s VLIW Architecture w/EP’s
Reference:
- C6000 Programmer’s Guide (SPRU198)
- Compiler Tutorial (in CCS Help & SPRU425a.pdf)
- C6000 Optimizing C Compiler UG (SPRU187)
http://www.blog.163.com/houh-1984
http://processors.wiki.ti.com/
转自:http://houh-1984.blog.163.com/blog/static/3112783420120362737868/
【博主的话】文档[spru732j]TMS320C64x_C64x+ DSP CPU and Instruction Reference Guide.pdf第四章传门讲了流水线……
文章知识点与官方知识档案匹配,可进一步学习相关知识C技能树首页概览114554 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!