17 Des 2010

Arsitektur GPU mana yang bottleneck?


Hanya pengamatan pribadi dari referensi core clock atau engine clock. Core clock adalah tolok ukur pengali, multiplier, unit-unit kerja GPU. Core clock di Nvidia dan ATI sama-sama berpengaruh di pixel power (ROP) dan texutre power (TMU). Berapa jumlah ROP unit atau TMU unit silahkan kali core clock dan diconvert ke satuan G/s, Giga per second. Dari faktor ini udah ketahuan cikal performa, referensi jargon perhitungan GPU : Kalkulasi Rumus GPU


Lalu apa yg bikin bottleneck? Adalah manakala core clock dihubungkan dengan Stream processor. Memerlukan ratusan lebih stream processor yang lebih banyak untuk meraih GFlops yang lebih tinggi karena core clock itu ada batasnya, atau ada limit yang mampu dijalankan menyesuaikan teknologi fabrikasi. Engineer mau setting core clock setinggi langit juga adanya malah gosong gak kuat chipset GPU dan VRMnya kan ya. So, gak heran apabila stream processor ATI amat sangat banyak dibandingkan GeForce demi mengejar GFlops karena bottleneck core clock.

Bedanya apa dengan Nvidia? Nvidia make multiplier sendiri untuk urusan Stream Processor yakni dengan shader clock yang berkecepatan di atas 1200MHz rata-rata. Core clock tak ada urusannya lagi dengan SP kecuali cuma ROP dan TMU tadi. Dengan begini NV bisa kasih clock sangat tinggi di shader clock untuk memompa stream processor, atau asumsi core clock tak bottleneck. TAPI dan tapinya, kelemahan NV yg fokus shader clock amat tinggi ini "melemahkan" fungsi core clock itu sendiri yang dari reference bawaan sononya clock core amat sangat minim cuma 700an saja (walo bisa diOC). Konsekuensi demikian akan mem-bottleneck-i ROP dan TMU itu sendiri.

Mana yg lebih bottleneck? atau mana yg lebih baik? ATI dengan satu clock memicu ROP, TMU dan SP? Atau NV dengan 2 pemicu, core clock untuk ROP dan TMU, lalu shader clock untuk SP saja? Saya pikir Nvidia lebih flexibel, tampaknya ... tapi ada juga kemungkinan ATI akan superior dengan core clock yang amat tinggi serta faktor arsitektur yg lebih tradisional hemat biaya produksi

It's all about "formula", semuanya rentan bottleneck.

Trend formula 2010 ini terutama Fermi dan Cayman/Barts sudah cenderung berevolusi. Dulu jaman 2005 - 2008 saya masih ingat AMD powerful di Shader/komputasi dan GeForce powerful di Pixel dan Texutre fillrate. But trend fabrikasi 40nm dan kedepan 28nm makin merubah karakter keduanya. Menjadi terbalik dan bertukar karakter. Saya kira Radeon yang sekarang amat sangat kuat di ROP dan TMU dengan core clock yang amat tinggi, Barts aja udah 900MHz dengan 32 ROP, wao! Tapi core clock itu teramat lemah untuk membuat sibuk stream processor berjumlah 1000an lebih. Sedangkan Fermi kulihat malah makin kuat di computing yang dari formulasi shadernya, terutama tessellation dan shader-shader rumit, yang dikarenakan makin banyak Stream Processor pada road map mereka, saat ini sudah 512 SP, dibandingkan dengan 128SP saat G80, atau naik 4x lipat dalam kurun waktu 4 tahun. Walau shader clock stagnant di kisaran 1200 - 1400MHz namun jumlah SP itu semakin banyak dan gesit. Tapi Fermi makin lemah di pixel dan texture fillrate, indikasi core clock dan TMU/ROP yang stagnant.


Sumber

Tidak ada komentar:

Posting Komentar