معرفی پردازنده های سل
پردازنده ی Cell که توسط شرکتهای Sony، IBMو Toshiba به طور مشترک ساخته شده، و به سرعت در حال به چالش کشیدن توانایی محاسبه و پردازش دیگر پردازنده ها می باشد، اولین بار در PlayStation 3 به کار رفت.

پردازنده "سل" برخلاف پردازنده‌هاي توليدي شركتهايي نظير Intel و IMD داراي مصارف عام نبوده و ويژه پردازش بهينه تصاوير گرافيكي و نرم‌افزارهاي چندرسانه‌اي طراحي شده است.
مقاله پیش روی شما شامل بخش های زیر می باشد:
    چگونگی ایجاد Cell و اجزای اصلی آن.
    نگاهی به چگونگی اجزا و درک Stream Processing.
    ویژگی های برنامه نویسی Cellو مسائلی که با آن روبه رو خواهیم شد.

داخل Cell
مفهوم Cell در اصل توسط Sony Computer Entertainment(SCE) برای PlayStation 3 مطرح شد، که ایده ی اصلی آن توسط Ken Kutaragi معروف به پدر PlayStation که به سیستم های کامپیوتری مانند سلول های بیولوژیکی می اندیشد، طرح گردید. نسل آینده ی تکنولوژی مصرفی مانند HDTV و Blu-ray  در PlayStation 3 به توان بالای محاسباتی نیاز دارد که این امر محتاج تراشه هایی است که بتواند نیاز فوق را پوشش دهد. Cell در این مورد و موارد دیگر پاسخ گو می باشد.

معماری امروزی Cell توسط سه شرکت Sony، IBMو Toshiba طراحی شده است.

Sony و Toshiba در گذشته روی پروژه ی PlayStation 2 همکاری داشته اند ولی اینبار با پروژه ای رویایی و ورای تراشه های ویدیویی و گرافیکی کنسول های بازی رو به رو بودند. سونی می خواست در این طرح رویایی با همکاری سه ابر قدرت و به کار گیری تمامی قدرت نیمه هادی های امروزی بر دنیای کنسول ها تسلط کامل پیدا کند

هدف ساخت یک Processor همه منظوره برای کامپیوترها بود که در نتیجه IBM و متخصصان طراحی کامپیوترش وارد عمل شدند.IBM که متخصص ترین شرکت در امور سخت افزار و دنیای نیمه هادی ها است، همچنین متخصصان طراحی چیپ خود را وارد عمل کرد و در این مورد، با تولید محصولی کاملا سفارشی،از روی کردی گستاخانه استفاده کرد(مدار چیپ ها به جای استفاده از وسایل خودکار، توسط دست ساخته شده اند،که تعداد کمی از شرکت ها از این روی کرداستفاده ارده اند).همچنینIBM دارای پیشرفت صنعتی گسترده ای در پردازنده ی سیلیکونی که در ابر رایانه ها استفاده می شود است. Sony و Toshiba  نیز تمام قابلیت های تولید و دانش خود را به خرج داد. با این حال که این طرح به عنوان یک کنسول بازی وارد خانه ها می شود ، ولی در حقیقت یک کامپیوتر به تمام معنا بر پایه ی Cell است.

برای تبدیل ایده ها به یک محصول واقعی، شرکت های فوق در سال 2000 بطور رسمی با هم شریک شدند و مرکز مطالعات و طراحی خود را در شهر Austin در تگزاس قرار دادند و مهندسین از هر سه شرکت جمع شدند و سپس در 10 مرکز در سراسر جهان با 400 نفر کسترش پیدا کردند.

سرمایه گذاری عظیمی روی این طرح شد و قرار شد برای دو طرح 65 نانومتری تسهیلات و خط تولیدهایی در شرق Fishkill و  نیویورک احداث کنند،این کار به IBM سپرده شد تا بهترین فرایند ساخت را طراحی کند و در طرف دیگر سونی و توشیبا مامور طراحی ،جمع آوری و خریداری بهترین معماری های الکترونیکی شدند.

چگونگی معماری Cell
Cell دارای معماری برای محاسبات توزیع شده با بازدهیه بالا می باشد، معماری cell شباهتی به  ریز پردازنده های امروزی ندارد و به طرح های چندین پردازنده ای ابر کامپیوتر ها شبیه است. کمی شباهت به معماری  پردازنده های گرافیکی امروزی دارد و همین باعث می شود بهترین بازدهی گرافیکی انجام گیرد و تحولی عظیم در صنعت گرافیک صورت دهد و یکی دیگر از تفاوت های بزرگ این تکنولوژی همه منظوره بودن این طرح است که توانایی انجام خیلی از کارها را دارد مثلا می تواند فیلم و صوت را به تنهایی پخش و دکودینگ کند ، توانایی کنترل کیفیت رنگ را دارد ، قابلیت رفع خطا را دارد ، و حتی می تواند به جای پردازشگر گرافیکی با بازدهی خیلی زیاد عمل کند . همچنین قادر به انجام محاسباتی بسیار سنگین در کمترین زمان است، و ترکیبی از سلول های نرم افزاری سخت افزاری است.سلول های نرم افزاری شامل داده ها و برنامه های می باشند(که به عنوان Job شناخته می شوند) که به سلول های سخت افزاری به منظود محاسبه، ارسال و پاسخ برگشت داده می شود.

 طبق گفته ی IBM، Cell ده برابر سریع تر از CPU های موجود در بسیاری از کاربرد ها، عمل می کند.هر پردازنده ی تنها بصورت یک پردازنده نیرو مند عمل می کند؛ آنها بطور  تئوری توانایی محاسبه ی 256 GFLOPS(Billion Floating Point Operation Per Second)  را در فرکانس 4GHz دارا می باشد. در محاسبات سرانگشتی معمولا مقادیر تئوری حداکثر می باشند و به ندرت به مقدار واقعی آن نزدیک است، اما Cell بطور معمول از این قاعدا مستسنا است و ممکن است درعمل واقعا به مقدار تئوری نزدیک شود، این امر نه از روی شانس بلکه توسط طراحی فوق الآده ی آن میسر می شود.همه ی سیستم ها به وسیله ی کند ترین اجزای خود محدود می شود ولی Cell هیچ عنصر کندی ندارد!بخش سخت افزار Cell بطور ویژه به منظور تولید داده ی کافی برای عناصر محاسباتی طراحی شده اند.برای درک بهتر، اجازه دهید چند مقایسه انجام دهیم؛ GeForce 7800 قادر به پردازش 45GFPS و پردازنده ی 3GHz اینتل توانایی پردازش 6GFPS را دارد ولی سل توانایی پردازش 256GFPS را دارد!


 IBMمعماری سطح های کش سل را همانند پردازنده های  Power PCو Power خود طراحی کرده است این سری پردازنده ها در سیستم های مکینتاش بکار می رود در نتیجهPPE(درباره PPE بحث خواهد شد) هم می توانید کلیه ی باینری هایی که سری پردازنده های Power PC , ،Power اجرا می کند هم اجرا کند.از دیگر خصوصیات سل پشتیبانی از وکتور VMX است این مشخصه سرعت محسابات را افزایش میدهد، میتوان گفت که VMX همانند همان تکنولوژی های MMX,SSE است که در پردازنده های امروزی دیده می شوند ولی VMX خیلی کاربردی تر و تکامل یافته تر است.

 هر Cell از اجزاء زیر تشکیل شده است:
     1 Power Processor Element (PPE).
     8 Synergistic Processor Elements (SPEs).
     Element Interconnect Bus (EIB).
     Direct Memory Access Controller (DMAC).
     2 Rambus XDR memory controllers.
     Rambus FlexIO (Input / Output) interface.
 

و دارای ویژگی های شناخته شده ی زیر است:
     Capable of running at speeds beyond 4 GHz.
     Memory bandwidth: 25.6 GBytes per second.
     I/O bandwidth: 76.8 GBytes per second.
     256 GFLOPS (Single precision at 4 GHz).
     256 GOPS (Integer at 4 GHz).
     25 GFLOPS (Double precision at 4 GHz).
    235 mm2   

 

حال به تعریف اجزای Cell می پردازیم.
Power Processor Element (PPE)
هسته ی عمومی پردازنده می باشد و مسئولیت تقسیم وظایف (Jobs) را بین SPE ها به عهده دارد.در سیستم های بر مبنای Cell، سیستم عامل و دیگر ودستور ها در PPE اجرا می شود ولی بخشهای پیچیده ی محاسباتی آنها بین SPE ها تقسیم می شود.PPE دستورات عمومی کنترلی را محیا می کند، سیستم عامل را اجرا می کند و در هنگامی که بخش عمده ی اجرا به عهده ی SPE ها است وظایف کنترل و تقسیم وظایف را انجام می دهد.PPE و SPE ها ترجمه ی آدرس و حافظه ی مجازی و همچنین جدول صفحه ی سیستم و دستورات سیستمی من جمله وقفه را به اشتراک می گذارند.

برای مثال اجرای یک برنامه ی ترکیب کننده ی صوتی را در نظر بگیرید؛ سیستم عامل و دیگر دستورها در PPE اجرا می شود ولی عملیات پیچیده مانند تولید صدا و پردازش واژه به SPE ها سپرده می شود.

PPE ها پردازنده های 64Bit می باشند و دارای 512KB، حافظه محلی به عنوان Cache می باشند.برخی از تکنولوژی های موجود در PPE از  CPU های نیرو مند IBM (Power Processor) مانند (Power5) مشتق شده اند، لذا Cell امکان اجرای چندین سیستم عامل را بطور ترکیبی فراهم می کند و می تواند یک سیستم عامل معمولی را در کنار یک سیستم عامل ریل تایم به گونه ای اجرا کند که هر دوی آنها به درستی اجرا شوند.با وجود اینکه PPEها از مجموعه دستورالعمل های PowerPC ها استفاده می کند،اما بر اساس طرح های امروزی آنها نیست و دارای معماری کاملا متفاوتی است و لذا مقایسه ی سرعت کلاک آنها کاملا بی معنی می باشد.

Synergistic Processor Elements (SPEs)
هر Cell شامل هشت SPE می باشد.هر SPE یک پردازنده ی جامع برداری است که بصورت مستقل عمل می کند و یک SPE می تواند نخ های مستقل درخواستی خاص را اجرا کند. هرکدام دارای 128 رجیستر 128 بیتی و همچنین چهار واحد ممیز شناور(Floating Point) 32 GFLOPS و چهار واحد اینتیجر  32 GOPS در فرکانس کاری 4GHz می باشد.SPE ها همچنین شامل یک حافظه محلی کوچک 256 کیلوبایتی به عنوان کش هستند.به گفتهی IBM هر SPE به تنهایی (با حجم  15 (mm)2 و مصرف کمتر از 5 W در فرکانس کاری 4GHz) می تواند به خوبی بهترین CPU های تک هسته ای موجود عمل کند.مانند PPE هر SPE یک CPU کامل است و هیچ ویژگی نادرستی ندارد.


حافظه ی محلی SPE به جای Cache
یکی از دلایلی که SPE ها بصورت متفاوت نسبت به دیگر پردازنده های مرسوم عمل می کنند، نداشتن Cache و در عوض استفاده از حافظه ی محلی است.این خصیصه باعث سخت تر شدن برنامه نویسی می شود ولی در عوض موجب کاهش پیچیدگی سخت افزاری و همچنین افزایش بازدهی می شود.چون هنگام بر نامه نویسی دیگر نگران چگونگی رفتار Cache نیستیم.

پردازنده های اولیه، تمام اعمال خود را در رجیسترهایی که بطور مستقیم از حافظه اصلی می خواندند و  یا در آن می نویسند، انجام می دادند.پردازش روی حافظه ی اصلی صدها برابر کند تر از استفده از رجیستر هاست، بنا بر این کش ها برای از بین بردن اثر ورودی خروجی از حافظه ی اصلی به کار بره می شوند.به منظور حل مشلکل پیچیدگی ارتباط با کش و افزایش عملکرد، طراحان Cell  بطور مطلق از Cache  استفاده نکردند و در عوض از یک حافظه 256 KB برای هر SPE استفاده کردند.که نسبت به کش ساختار کاملا متفاوتی دارند.

حافظه ی محلی هر  SPE می تواند به حافظه ی اصلی دسترسی داشته باشد و بلوک های حداقل 1Kb و حد اکثر 16Kb را انتقال دهد ولی SPEها قادر به تغییر حافظه ی اصلی بطور مستقیم نیست و باید از حافظه ی محلی خود به عنوان واسط استفاده کند.این سیستم داده ها را به رجیسترهای SPE با سرعت فوق الآده ای تحویل می دهد.در هر دور 16B(128 b) داده به حافظه ی محلی وارد یا از آن خارج می شود که به عبارت دیگر سرعت انتقال داده به/از حافظه ی محلی 64GBPS می باشد.شاید حافظه ی کش چنین سرعت انتقال داده یا حتی سریعتر از این داشته باشد ولی فقط در یک انفجار کوتاه(در بهترین حالت دوهزار سیکل). ولی حافظه های محلی می توانند هر انتقال داده با چنین سرعتی را به طور مداوم در ده هزار سیکل بدون مراجعه به حافظه اصلی انجام دهند.به منظور دست یابی از حد اکثر سرعت،SPE ها نیاز به تامین داده دارند.طراحان CELL با استفاده از طراحی مبتنی بر حافظه ی محلی این امر را بطور کامل پوشش داده اند.

برای مثال پردازش یک قطعه ی صوتی را در نظر بگیرید، فایل صوتی در یک بلوک کوچک پردازش می شود،اگر بلوک حاوی فایل صوتی،الگوریتم های مورد استفاده و بلوک های موقت بتوانند داخل حافظه ی محلی SPE قرار داده شوند، سرعت پردازش بسیار بسیار افزایش پیدا می کند چون در طول پردازش هیچ دسترسی به حافظه و مواردی که باعث کندی فرایند شود وجود ندارد.اما انتقال همه ی داده ها به داخل کش پردازنده های متعارف اگر غیر ممکن نباشد، به علت طریغه ی کار کش مشکل آفرین می شود.در طراحی با استفاده از معماری حافظه محلی، بلوک های داده میتوانند صدها یا هزاران بایت طول داشته باشند و می توان مطمعن بود که همه ی آنها داخل حافظه ی محلی قرار می گیرند.این ویژگی مدیریت داده در سل را بطور بنیادی از دیگر پردازنده ها متفاوت می کند.سل دارای پتانسیل های محاسباتی بالایی است و برخلاف دیگر پردازنده ها می تواند به حداکثر توان خود دسترسی پیدا کند و این به سبب امکان قرار گرفتن بلوک های با طول زیاد می باشد.

Stream Pocessor
یکی از بزرگترین تفاوت بین پردازنده های سل و دیگر پردازنده ها، توانایی زنجیر شدن SPE های Cell به منظور ایجاد قابلیت Stream Processing می باشد.Stream Processor داده های ورودی را به صورت دنباله ای از مراحل، پردازش می کند.پردازنده ی Cell می تواند Stream Processing را در توالی از مراحل بطوری که در هر مرحله یک یا چند SPE  باهم همکاری کنند، انجام دهد.به منظور اجرای Stream Processing یک SPE داده هارا از یک ورودی خوانده و در حافظه ی محلی خود ذخیره می کند و پس از انجام مراحل پردازش،نتایج را مجددا در حافظه ی محلی خود ذخیره می کند.SPE دوم داده های خروجی را از حافظه ی محلی SPE اول می خواند و در حافظه ی محلی خود ذخیره کرده و ...

در صورت کم بودن توان پردازنده، Cell می تواند از زنجیره ای به طول یک یا بیشتر از SPE ها استفاده کند.در واقع Stream Processing پهنای باند زیادی نیاز ندارد ولی به هر حال این نوع پردازنده ی دارای پهنای باند زیادی است و ورای این قضایا، سیستم ارتباطی داخلی آن اجازه ی وجود جریان ارتباطی بین SPE ها را بدون تداخل در کار همدیگر و توقیف حافظه را می دهد.

 توشیبا با هدف افزایش توان رقابتی، نخستین تلویزیون مبتنی بر پردازنده مولتی مدیای قدرتمند را در ژاپن به فروش رساند.
تلویزیون Cell Regza دارای امکانات پیشرفته ای از جمله قابلیت ضبط همزمان هشت کانال کیفیت بالا است.
این تلویزیون حاصل بیش از چهار سال پژوهش و توسعه توشیبا است. هیچ شرکتی تاکنون درباره به کارگیری چنین پردازنده قدرتمندی در داخل یک تلویزیون صحبت نکرده است و توشیبا انتظار دارد قابلیت هایی که با قرار گرفتن این پردازنده امکان پذیر شده توان رقابتی اش را در بازار افزایش دهد.

قابلیت ضبط همزمان از دو سوم فضای یک هارد دیسک سه ترابایتی برای فراهم کردن 26 ساعت برنامه تلویزیونی درخواستی پخش شده از هشت کانال استفاده می کند و یا می تواند به گونه ای تنظیم شود که از کانال های کمتر و در زمان های مختلف به ضبط برنامه بپردازد؛ این هشت کانال مرتبط با شمار شبکه های تلویزیونی زمینی موجود در مناطق کلانشهری ژاپن هستند.

یک ترابایت باقی مانده هارد دیسک می تواند برای ضبط برنامه های مورد علاقه و نگه داری آن ها به مدت طولانی تری از برنامه های ضبط شده به صورت همزمان مورد استفاده قرار بگیرد.

این تلویزیون 55 اینچی از اوایل ماه دسامبر در ژاپن به فروش رسید و حدود یک میلیون ین  قیمت داشت. توشیبا انتظار داشت این تلویزیون پس از عرضه به بازار حدود هزار دستگاه در ماه فروش داشته باشد؛ این تلویزیون در سال 2010 در آمریکا و پس از آن به بازار اروپا عرضه می شود. ظرفیت پردازش محاسباتی cell regza حدود 143 برابر تلویزیون های فعلی توشیبا است.

 
EIB و DMAC(Direct Memory Access Controller)

در طرح اصلی  کاربرد DMAC، SPEها و PPE توسط دسترسی حافظه ی کنترل شده به هم متصل شدند و همه چیز توسط باس با پهنای باند 1024 bit به هم وصل شده اند.DMAC همچنین دارای سیستم محافظت حافظه می باشد.البته در طرح نهایی پهنای باند 1024 bit با سلسله باس های حلقوی به نام EIB جای گزین شد.EIB شامل چهار حلقه ی 16 بایتی می باشد که در نصف سرعت کلاک CPU اجرا شده و امکان سه انتقال به طور همزمان را میسر می سازد.از نظر تئوری سرعت EIB معادل با 96  بایت در هر دور (384 گیگابایت بر ثانیه) می باشد و این در حالی است که طبق گفته ی IBM تنها به 2/3 این عدد در عمل دست یابی شده است.ولی پهنای باند 1024 bit هنوز بین ورودی خروجی بافر و حافظه ی محلی وجود دارد و همچنین در طرح نهایی MMU ها به طور کامل جای گزین سیستم محافظ حافظه شده و به داخل SPE ها منتقل گردیده.

Memory and I/O

تمام واحدهای پردازنده ی داخلی نیاز به تغذیه داده دارند و لذا وجود حافظه و سیستم ورودی خروجی پرسرعت یک امر ضروریست.برای تحقق این هدف شرکت های سونی و توشیبا امتیاز تکنولوژی پرسرعت"Yellowstone" و "Redwood" را از شرکت Rambus خریداری نمودند، این تکنولوژی در XDR Ram و FlexIO مورد استفاده قرار گرفت.مهندسان در طراحی مادربورد ها وقت زیادی را برای حصول اطمینان از یک اندازه بودن اندازه ی سیم های واصل به منظور سنکرون کردن سیگنال ها صرف می کنند.هر دوی FlexIOو XDR Ram از تکنولوژیی به نام “FlexPhase”  استفاده می کنند که به سیگنال ها اجازه می دهد در زمان های مختلف منقل شوند و دیگر نیازی به اینکه سیم ها دقیقا یک اندازه باشد از بین می رود و لذا کار مهندسان طراح CELL ساده تر میشود.CELL از XDR Ramهای پر سرعت به عنوان حافظه استفاده می کند.سل دارای پهنای باند حافظه معادل 25.6 گیگا بایت بر ثانیه است که به طور قابل ملاحظه ای از دیگرPC ها بیشتر است ولی الزاما SPE ها بیشترین پهنای باندی را که می توانند کسب کنند را استفاده می کنند.

در حالت خاص برای دسترسی SPE ها به حافظه ی اصلی در هنگام وجود جریانی طولانی(ورودی یا خروجی)، Cell  شامل سیستم ارتباطی با سرعت بالا می باشد، یعنی به ازای هر SPE، 12 مسیر با پهنای باند 6.4 گیگا بیت وجود دارد که در مجموع (12 x 8 x 6.4) می شود 76.8گیگا بایت در ثانیه.که از 12 مسیر،7 مسیر به عنوان خروجی و 5 مسیر ورودی منظور گردیده.سیستم فوق اجازه ی اتصال دو پردازنده ی CELL بدون نیاز به چیپ اضافی را فراهم می آورد.ولی اتصال تعداد بیشتری سل نیاز به چیپ اضافی دارد.البته در طرح اولیه چهار CPU می توانند به طور مستقیم به هم متصل شوند و مجموعه ی چهارتا از چهار CPU به هم متصل شده می تواند توسط یک سویچ باهم یک پردازنده ی CELL، 16 هسته ای را ایجاد کنند!!!

IBM در طرحی موضوع  Work Stationایجاد سیستمی متشکل از CELL های دو هسته ای را مطرح کرده که با استفاده از 64 عدد سل سرعت را به 16 Traflops گسترش دهد.

واحد مدیریت حافظه(MMU)

واحد مدیریت حافظه به منظور جلوگیری از تداخل برنامه ها و همچنین انتقال داده های بی استفاده به داخل دیسک استفاده می شود.الگوی اولیه CELL شامل دو مکانیزم برای حفاظت حافظه بود که یکی از آنها خیلی ساده و سریع بود در حالیکه دیگری پیچیده و کند طراحی شده بود. اما در طرح نهایی هیچ مکانیزم محافظتی بین حافظه های محلی بکار برده نشده است،PPE و SPEها شامل واحدهای مدیریت حافظه (MMU) هستند که در زمان دسترسی به حافظه و حافظه ی محلی دیگر SPE ها مورد استفاده قرار می گیرد.

پردازشگری بی واسط
معماری سل در خیلی از زمینه ها از روشهای متفاوتی استفاده کرده ولی در یک مسیر از روی کردی کاملا مخالف نسبت به دیگر تکنلوژی های صنعتی استفاده کرده است.در روزگاری که تمام تکنولوژی ها من جمله سیستم های عامل، زبان های برنامه نویسی، طراحی سایت و ... به سمت خلاصه کردن دستورات،مخفی نگه داشتن اعمال از دید کاربر، شی گرایی و  در کل ساده سازی رابط هستند،Cell مسیر خود را تغییر داده و بکل سطحی از انتزاع را حذف کرده! برنامه نویسی برای یک مدل CELL واقعا سنگین و به هم پیوسته است، زمانی که شما مشغول پروگرم کردن یک SPE هستید، بدون هیچ گونه انتزاعی هرآنچه داخل یک SPE وجود دارد در مقابل شماست و نیازمند برنامه نویسی!به عبارت دیگر چکشکاری مستقیم با سخت افزار.یعنی با 128 رجیستر و 256 کیلوبایت حافظه، بی واسط در ارتباط هستید.ممکن است در ابتدا این مسئله به عنوان یک ضعف تلقی شود ولی در اصل یک امتیاز برجسته محسوب می شود؛ بدیهی است که اضافه کردن یک لایه به منظور ساده سازی و خلاصه کردن، موجب سربار اضافی و کاهش عملکرد می شود و لذا حذف این لایه علی رغم سختی در برنامه نویسی موجب افزایش بازدهی و نزدیک شدن به حد تئوری آن می شود.البته این مسئله موجب به وجود آمدن مشکل در اسمبل کردن برنامه نمی شود؛سل نیز مانند تمام پردازنده های دیگر دارای کامپایلر است ولی به طور مستقیم در ماشبن اجرا می شود.با وجود این به دلیل وجود 128 رجیستر واقعی به ازای هر SPE و 256 کیلو حافظه، کار طراح کامپایلر بسیار مشکل می شود ولی در عوض با سادگی بهینه سازی و اشراف کامل به محیط و سخت افزار از روی کردی دیگر کارش ساده تر است.توزیع وظایف روی SPE ها می تواند توسط سیستم عامل، میان افزار، گنجاندن داخل کاربردها ویا توسط شما انجام شود(که البته نیازمند شجاعت فراوان است!).

مجموع دستورالعمل های SPE
مجموع دستورالعمل های SPE چیزی بین  دستورات PS2 و VMX است ولی تمام دستورات VMX را شامل نمی شود(برخی حذف و برخی دیگر اضافه شده است)، طبق گفته ی IBM یکی از تفاوت های SPE با VMX، وجود حافظه ی محلی است. و همچنین کد واقعی در سطح باینری باهم متفاوت است.

با وجود اینکه هنوز تمام دستورالعمل های SPEها شناخته نشده،اما برخی ا آنها بصورت اجمالی مشخص شده که به شرح یر است:
    بر مبنای VMX/AltiVect می باشد که برخی از دستورات حذف و برخی اضافه شده.
    شامل برخی(یا همه ی) از Emotion Engine های PS2PS2
    پردازش های برداری یا اسکالر را پشتبیانی می کند.
    شامل لود،ذخیره، انشعاب ، اشاره گر
    عملگر های صحیح 8، 16، 32 و 64 بیتی.
    عبارات نقطه شناور با دقت ساده و مضاعف.
    عبارات محاسباتی کامل برای داده های نقطه شناور ساده.
    پشتیبانی از IEEE 754  برای عبارات نقطه شناور با دقت مضاعف.
    عملگرهای منطقی.
    عملگرهای بیتی
    128 X 128 رجیستر.
    حافظه ی محلی با امکان DMA.
    پشتیبانی وقفه.

پردازش توزیع شده در سل
یکی از نکات مهم در سل توانایی پرردازش موازی است بدین صورت که نرم افزار سل ها می توانند داده ها را به هر کجا که بخواهند بدون اتکا به وسیله ی انتقال خاصی بفرستند.به عبارت دیگر نرم افزار سل می تواند داده ها را برای پردازش بین سل های دیگر توزیع کند و زمانی که به اتمام رسید ، آنها را باز گرداند.که در آن از تکنولوژی شبکه ی محلی استفاده شده و مهم نیست که چه نوع وسیله ای از سل استفاده می کن.و بدون دخالت کاربر سیستم عامل تمام کارها را انجام می دهد.

 در نتیجه Cell باقدرت محاسباتی و توان عمیاتی بالا در آینده ای نزدیک در اکثر سیستم های الکترونیکی بکار برده خواهد شد و تحولی عظیم در نحوه ی عملکرد آنها ایجاد خواهد کرد.

و من الله توفیق