उपयोगी टिप्स

सुपर कंप्यूटर के लिए नेटवर्क

Pin
Send
Share
Send
Send


वितरित कंप्यूटिंग कुछ दिलचस्प परियोजनाओं में योगदान करने का एक तरीका है। जब आपका कंप्यूटर निष्क्रिय हो, तो अपनी शक्ति को SETI प्रोजेक्ट के साथ साझा करें, जो अलौकिक सभ्यताओं की तलाश में है। इस मामले में, आपका कंप्यूटर उपग्रह डेटा और दूरबीनों से प्राप्त जानकारी का विश्लेषण करेगा।

यह लेख वितरित कंप्यूटिंग में शामिल परियोजनाओं (जैसे SETI) से जुड़ने में आपकी मदद करेगा। लेख आपको BOINC, एक वितरित कंप्यूटिंग सॉफ्टवेयर से भी परिचित कराता है।

आपको कंप्यूटर की आवश्यकता है। यदि आपके पास पहले से ही एक है, तो स्रोत और लिंक अनुभाग पर जाएं और BOINC सॉफ़्टवेयर स्थापित करें। यदि आप SETI परियोजना में रुचि नहीं रखते हैं, तो नीचे आपको अन्य परियोजनाओं की सूची मिलेगी।

अगर बहुत सारा पैसा

अलग से, हम इंटेल Xeon LGA1567 सॉकेट पर प्रोसेसर के बेहद महंगे, लेकिन उत्पादक लाइन पर ध्यान देते हैं।
इस श्रृंखला में शीर्ष प्रोसेसर दस 2.4 गीगाहर्ट्ज़ कोर के साथ E7-8870 है। इसकी कीमत $ 4616 है। ऐसे CPU के लिए, HP और Supermicro जारी कर रहे हैं! आठ! सर्वर चेसिस। हाइपरथ्रेडिंग सपोर्ट 8 * 10 * 2 = 160 थ्रेड्स के साथ आठ-कोर Xeon E7-8870 2.4 GHz प्रोसेसर, जो कि विंडोज टास्क मैनेजर में प्रोसेसर लोडिंग, मैट्रिक्स 10x16 के एक सौ और साठ ग्राफ के रूप में प्रदर्शित होता है।

आठ प्रोसेसर के लिए मामले में फिट होने के लिए, उन्हें तुरंत मदरबोर्ड पर नहीं रखा जाता है, लेकिन अलग-अलग बोर्डों पर जो मदरबोर्ड में चिपक जाते हैं। फोटो मदरबोर्ड में स्थापित प्रोसेसर के साथ चार मदरबोर्ड दिखाता है (प्रत्येक पर दो)। यह एक सुपरमाइक्रो समाधान है। एचपी समाधान में, प्रत्येक प्रोसेसर का अपना बोर्ड होता है। प्रोसेसर, मेमोरी और बहुत कुछ के आधार पर एचपी समाधान की लागत दो से तीन मिलियन है। सुपरमाइक्रो चेसिस की कीमत $ 10,000 है, जो अधिक आकर्षक है। इसके अलावा, सुपरमाइक्रो पीसीआई-एक्सप्रेस x16 बंदरगाहों में चार कोप्रोसेसर विस्तार कार्ड डाल सकता है (वैसे, इन के एक क्लस्टर को इकट्ठा करने के लिए एक Infiniband एडाप्टर के लिए अभी भी जगह होगी), लेकिन एचपी में केवल दो। इस प्रकार, सुपर कंप्यूटर बनाने के लिए, सुपरमाइक्रो का आठ-प्रोसेसर मंच अधिक आकर्षक है। प्रदर्शनी से निम्न फोटो चार जीपीयू बोर्डों के साथ पूर्ण सुपर कंप्यूटर को दर्शाता है।

हालांकि, यह बहुत महंगा है।

संचार नेटवर्क

कई अनुप्रयोगों में एक सुपर कंप्यूटर की प्रभावशीलता काफी हद तक स्मृति और नेटवर्क के साथ काम करने के प्रोफाइल से निर्धारित होती है। मेमोरी के साथ काम करने का प्रोफ़ाइल आमतौर पर कॉल के स्थान-लौकिक स्थानीयकरण द्वारा किया जाता है - कॉल के आकार और उनके पते के बिखरने से, और नेटवर्क के साथ काम करने की प्रोफाइल को नोड्स के वितरण द्वारा वर्णित किया जाता है जिसके साथ संदेशों का आदान-प्रदान होता है, विनिमय दर और संदेश आकार।

नोड्स के बीच गहन डेटा विनिमय (मॉडलिंग की समस्याएं, ग्राफ़ पर समस्याएं और अनियमित ग्रिड, विरल मैट्रिस का उपयोग करके गणना) के बीच के कार्यों पर एक सुपर कंप्यूटर का प्रदर्शन मुख्य रूप से नेटवर्क के प्रदर्शन से निर्धारित होता है, इसलिए पारंपरिक वाणिज्यिक समाधान (उदाहरण के लिए, गीगाबिट ईथरनेट) का उपयोग बेहद अक्षम है। हालांकि, एक वास्तविक नेटवर्क हमेशा एक समझौता समाधान होता है, जिसके विकास में प्राथमिकताओं को मूल्य, प्रदर्शन, ऊर्जा की खपत और अन्य आवश्यकताओं के बीच निर्धारित किया जाता है जो बड़े पैमाने पर परस्पर विरोधी होते हैं: एक विशेषता को सुधारने का प्रयास दूसरे की गिरावट का कारण बन सकता है।

संचार नेटवर्क में नोड्स होते हैं, जिनमें से प्रत्येक में एक या अधिक राउटर से जुड़ा एक नेटवर्क एडेप्टर होता है, जो बदले में उच्च गति वाले संचार चैनलों (लिंक) द्वारा आपस में जुड़ा होता है।

अंजीर। 1. टोपोलॉजी 4D-torus (3x3x3x3)

नेटवर्क संरचना, जो यह निर्धारित करती है कि सिस्टम के नोड्स कैसे परस्पर जुड़े हुए हैं, नेटवर्क टोपोलॉजी (आमतौर पर एक जाली, एक टोरस या एक मोटा पेड़) और संरचनात्मक मापदंडों का एक सेट द्वारा निर्धारित किया जाता है: माप की संख्या, पेड़ के स्तर की संख्या, पेड़ के स्तर पर स्विच की संख्या, नेटवर्क स्तर की संख्या। राउटर, आदि पर पोर्ट चित्रा 1 एक चार आयामी टोरस 3x3x3x3 के टोपोलॉजी के उदाहरण को दर्शाता है।

राउटर की वास्तुकला नेटवर्क नोड्स के बीच डेटा के हस्तांतरण के लिए जिम्मेदार ब्लॉकों की संरचना और कार्यक्षमता, साथ ही साथ चैनल, नेटवर्क और परिवहन परतों के प्रोटोकॉल के आवश्यक गुणों को निर्धारित करती है, जिसमें मार्ग, मध्यस्थता और डेटा प्रवाह नियंत्रण एल्गोरिदम शामिल हैं। नेटवर्क एडाप्टर की वास्तुकला प्रोसेसर, मेमोरी और नेटवर्क के बीच बातचीत के लिए जिम्मेदार ब्लॉकों की संरचना और कार्यक्षमता को निर्धारित करती है, विशेष रूप से, इस स्तर पर एमपीआई संचालन का समर्थन किया जाता है, आरडीएमए (रिमोट डायरेक्ट मेमोरी एक्सेस - इसके प्रोसेसर की भागीदारी के बिना किसी अन्य की मेमोरी तक सीधी पहुंच), पैकेट के दूसरे नोड द्वारा रसीद की पुष्टि, असाधारण स्थितियों से निपटने, पैकेटों का एकत्रीकरण।

संचार नेटवर्क के प्रदर्शन का आकलन करने के लिए, तीन विशेषताओं का सबसे अधिक उपयोग किया जाता है: क्षमता (समय की प्रति यूनिट हस्तांतरित डेटा की राशि), संचार में देरी (नेटवर्क पर डेटा ट्रांसफर का समय), संदेश की गति (आमतौर पर, वे राउटर की आंतरिक इकाइयों के बीच पैकेट भेजते, प्राप्त करते और प्रसारित करते समय डिलीवरी की दर पर अलग से विचार करते हैं)।

पूर्णता के लिए, इन विशेषताओं को विभिन्न प्रकार के ट्रैफ़िक पर मापा जाता है, उदाहरण के लिए, जब एक नोड सभी को डेटा भेजता है, या, इसके विपरीत, सभी नोड्स एक को डेटा भेजते हैं, या जब सभी नोड्स यादृच्छिक गंतव्यों को डेटा भेजते हैं। आधुनिक नेटवर्क पर कार्यात्मकता आवश्यकताओं को लगाया जाता है:

  • एक तरह से संचार मॉडल, और GASNet, जिस पर कई PGAS भाषाओं का कार्यान्वयन आधारित है, का समर्थन करने के विकल्प के रूप में शमम पुस्तकालय का प्रभावी कार्यान्वयन,
  • एमपीआई के कुशल कार्यान्वयन (आमतौर पर इसके लिए रिंग बफ़र्स के तंत्र का प्रभावी समर्थन और प्राप्त पैकेट के लिए स्वीकृति की आवश्यकता होती है),
  • सामूहिक संचालन के लिए प्रभावी समर्थन: प्रसारण (एक ही डेटा को कई नोड्स में एक साथ भेजना), कमी (एक बाइनरी ऑपरेशन लागू करना, उदाहरण के लिए, विभिन्न नोड्स से प्राप्त मूल्यों के सेट के लिए), नोड्स (बिखराव) के सेट पर सरणी तत्वों को वितरित करना, तत्वों की एक सरणी को इकट्ठा करना। विभिन्न नोड्स में स्थित (इकट्ठा),
  • इंटर-नोड सिंक्रोनाइज़ेशन ऑपरेशन (कम से कम बाधा सिंक्रनाइज़ेशन) के लिए प्रभावी समर्थन, नोड पर प्रक्रियाओं की एक बड़ी संख्या के नेटवर्क के साथ प्रभावी बातचीत और विश्वसनीय पैकेट वितरण सुनिश्चित करना।

प्रोसेसर की भागीदारी के बिना सीधे होस्ट की मेमोरी के साथ एडेप्टर के काम का प्रभावी समर्थन भी महत्वपूर्ण है।

विदेशी हाई-स्पीड नेटवर्क

सभी संचार नेटवर्क को दो वर्गों में विभाजित किया जा सकता है: वाणिज्यिक और कस्टम, कंप्यूटर सिस्टम के हिस्से के रूप में विकसित और केवल उनके साथ उपलब्ध। वाणिज्यिक नेटवर्क के बीच, बाजार InfiniBand और Ethernet - Top500 सूची (जून 2011) में विभाजित है, 42% सिस्टम InfiniBand का उपयोग करते हैं और 45% गिगाबिट ईथरनेट का उपयोग करते हैं। उसी समय, यदि InfiniBand उच्च कंप्यूटिंग सिस्टम के सेगमेंट पर केंद्रित है, जिसमें बड़ी संख्या में संचार के साथ जटिल कंप्यूटिंग कार्यों के लिए डिज़ाइन किया गया है, तो ईथरनेट परंपरागत रूप से एक जगह पर स्थित होता है, जहां नोड्स के बीच डेटा विनिमय अनियंत्रित होता है। सुपर कंप्यूटरों में, ईथरनेट नेटवर्क, इसकी कम लागत और उपलब्धता के कारण, अक्सर नियंत्रण यातायात और कार्य यातायात के व्यवधान को कम करने के लिए एक सहायक सेवा नेटवर्क के रूप में उपयोग किया जाता है।

Inifiniband नेटवर्क शुरू में फैट ट्री टोपोलॉजी के साथ कॉन्फ़िगरेशन पर ध्यान केंद्रित किया गया था, लेकिन स्विच और राउटर (मुख्य रूप से QLogic द्वारा निर्मित) के नवीनतम संस्करण बहुआयामी टोरस टोपोलॉजी (Torus-2ooS रूटिंग इंजन का उपयोग), साथ ही 3 डी टोरस से एक हाइब्रिड टोपोलॉजी का समर्थन करते हैं। और मोटा पेड़। Sandia RedSky सुपरकंप्यूटर, 2010 की शुरुआत में और अब Top500 में 16 वें स्थान पर इकट्ठे हुए, InfiniBand नेटवर्क और टोपोलॉजी 3D टोरस (6x6x8) के साथ पहली बड़े पैमाने की परियोजनाओं में से एक है। इसके अलावा, आरडीएमए संचालन और शमीम लाइब्रेरी (विशेष रूप से, क्लोगिक शिमेम) के प्रभावी समर्थन पर बहुत ध्यान दिया जाता है।

InfiniBand की लोकप्रियता इसकी अपेक्षाकृत कम लागत, सॉफ्टवेयर के विकसित पारिस्थितिकी तंत्र और MPI के लिए प्रभावी समर्थन के कारण है। हालांकि, InfiniBand में इसकी कमियां हैं: संदेश वितरण की कम दर (मेलानॉक्स से नवीनतम समाधान में 40 मिलियन संदेश प्रति सेकंड), छोटे पैकेट की कम संचरण क्षमता, अपेक्षाकृत बड़ी देरी (ट्रांसमीटर नोड-टू-नोड के लिए 1.5 μs और एक अतिरिक्त 0.1- 0.5 μs प्रति पारगमन नोड), टॉरोइडल टोपोलॉजी के लिए कमजोर समर्थन। सामान्य तौर पर, यह तर्क दिया जा सकता है कि InfiniBand बड़े पैमाने पर उपयोगकर्ता के लिए एक उत्पाद है, और इसके विकास के दौरान दक्षता और बहुमुखी प्रतिभा के बीच एक समझौता किया गया था।

हम नेटवर्क एक्सोल को भी नोट कर सकते हैं, जो बाजार पर लॉन्च करने के लिए तैयार किया जा रहा है - प्रोफेसर उलरिच ब्रूएनिंग के नेतृत्व में हीडलबर्ग विश्वविद्यालय का विकास। इस नेटवर्क के विकास में मुख्य जोर देरी को कम करना और एकतरफा संचार में वितरण की दर को बढ़ाना है। यह योजना बनाई गई है कि एक्सोल में 3 डी टोरस टोपोलॉजी होगी और 10 जीबी / एस प्रति लेन (लिंक के भीतर सीरियल डेटा ट्रांसमिशन चैनल) की बैंडविड्थ और 12 लेन की चौड़ाई के साथ ऑप्टिकल लिंक का उपयोग करें। अब FPGA पर एक्सटॉल नेटवर्क के प्रोटोटाइप हैं: R1 - Virtex4 पर आधारित, R2 Ventoux - Virtex6 पर आधारित दो-नोड लेआउट। प्रति लिंक वन-वे बैंडविड्थ 600 एमबी / एस (आर 1 के लिए) है। एक प्रोसेसर के साथ दो इंटरफेस (हाइपरट्रांसपोर्ट 3.0 और पीसीआई एक्सप्रेस जीन 3) भी समर्थित होंगे, जो इस नेटवर्क को इंटेल और एएमडी प्लेटफार्मों में एकीकृत करने की अनुमति देगा। एक्सोल एक-तरफ़ा रिकॉर्ड, अपने स्वयं के MMU (मेमोरी मैनेजमेंट यूनिट, भौतिक पतों में आभासी पतों के अनुवाद का एक ब्लॉक) और परमाणु संचालन के आयोजन के कई तरीकों का समर्थन करता है।

वाणिज्यिक नेटवर्क के विपरीत, कस्टम नेटवर्क एक बहुत छोटे बाजार हिस्सेदारी पर कब्जा कर लेते हैं, हालांकि वे क्रे, आईबीएम, एसजीआई, फुजित्सु, एनईसी और बुल से सबसे शक्तिशाली सुपर कंप्यूटर में उपयोग किए जाते हैं। कस्टम नेटवर्क डिजाइन करते समय, डेवलपर्स को अधिक स्वतंत्रता होती है और अंतिम उत्पाद के बाजार के आकर्षण के कम महत्व के कारण अधिक प्रगतिशील दृष्टिकोण का उपयोग करने की कोशिश करते हैं, मुख्य रूप से कार्यों के एक विशिष्ट वर्ग पर अधिकतम प्रदर्शन प्राप्त करने की समस्या को हल करते हैं।

K Computer सुपरकंप्यूटर एक मालिकाना टोफू (Torus Fusion) संचार नेटवर्क का उपयोग करता है, जो एक स्केलेबल 3D टोरस है जिसके नोड्स में 12 नोड्स के समूह होते हैं (नोड्स के समूह 3 डी टोरस के साथ 12 नेटवर्क से जुड़े होते हैं और इस समूह के प्रत्येक नोड का अपना आउटपुट होता है। 3 डी टोरस नेटवर्क)। प्रत्येक समूह के भीतर नोड्स डुप्लिकेट लिंक के बिना पक्षों के 2x3x4 के साथ एक 3 डी टोरस द्वारा जुड़े हुए हैं, जो 3x4 पक्षों के साथ 3x4 के बराबर है (इसलिए हमें निश्चित दो आयामों के साथ 5 डी टोरस मिलता है)। इस प्रकार, टोफू नेटवर्क नोड में 40 गब / एस के एक-तरफ़ा थ्रूपुट के साथ 10 लिंक हैं। हार्डवेयर में नोड्स और कमी (पूर्णांक और फ्लोटिंग बिंदु) के बैरियर सिंक्रनाइज़ेशन का समर्थन किया जाता है।

Tianhe-1A सुपरकंप्यूटर के विकास में मुख्य लक्ष्य उच्च ऊर्जा दक्षता हासिल करना था, अपने स्वयं के प्रोसेसर और नेटवर्क को विकसित करने के लिए InfiniBand QDR से बेहतर था। सुपरकंप्यूटर में 7168 कंप्यूटिंग नोड्स होते हैं जो मोटे पेड़ की टोपोलॉजी के साथ अपने स्वयं के डिजाइन के आर्क नेटवर्क द्वारा जुड़े होते हैं। नेटवर्क को 16-पोर्ट राउटर, वन-वे लिंक बैंडविड्थ - 8 जीबी / एस, देरी - 1.57 μs से बनाया गया है। आरडीएमए संचालन समर्थित और सामूहिक संचालन अनुकूलित।

कम्प्यूटेशनल नोड्स को संयोजित करने के लिए टॉरॉयडल टोपोलॉजी का उपयोग करने वाले सिस्टम के शास्त्रीय प्रतिनिधि आईबीएम ब्लू जीन श्रृंखला के लिए सिस्टम हैं, जिनमें से पहली दो पीढ़ियों में - ब्लू जीन / एल (2004) और ब्लू जीन / पी (2007) - ने 3 डी टोरेंट टोपोलॉजी का उपयोग किया है। ब्लू जीन / पी में नेटवर्क 0.425 जीबी / एस के एकल-पक्षीय बैंडविड्थ के साथ अपेक्षाकृत कमजोर लिंक है, जो कि अपने समकालीन InfiniBand QDR लिंक की बैंडविड्थ की तुलना में कम परिमाण का एक आदेश है, हालांकि, बाधा तुल्यकालन और सामूहिक संचालन के लिए हार्डवेयर-आधारित समर्थन (अलग-अलग पेड़ की तरह नेटवर्क पर) अच्छी मापनीयता के लिए अनुमति देता है। वास्तविक अनुप्रयोग। इसके अलावा, सभी इंटरफेस और रूटिंग इकाइयों को बीपीसी माइक्रोप्रोसेसर (ब्लू जीन / पी चिप) में एकीकृत किया गया है, जो संदेश संचरण देरी को काफी कम करता है। अगली पीढ़ी के संचार नेटवर्क ब्लू जीन / क्यू में 5D-tor टोपोलॉजी है, और इसके पूर्ववर्तियों के विपरीत, इसमें बाधा तुल्यकालन और सामूहिक संचालन के लिए अलग नेटवर्क नहीं है। पहली बार ब्लू जीन / क्यू चिप मल्टी-कोर-मल्टी-थ्रेड बन गया - 16 कोर के साथ प्रति कोर चार हार्डवेयर धागे, जो नेटवर्क आवश्यकताओं को कमजोर करने और विलंब सहिष्णुता सुनिश्चित करने की अनुमति देता है। लिंक थ्रूपुट को 2 जीबी / एस तक बढ़ा दिया गया है, लेकिन क्रे मिथुन या एक्सोल की तुलना में अभी भी छोटा है। इन प्रणालियों में निम्न थ्रूपुट को टोरस के बड़े आयाम (लिंक की एक बड़ी संख्या) द्वारा समतल किया जाता है, और परिणामस्वरूप, नेटवर्क के छोटे व्यास (नोड की समान संख्या के साथ 3 डी टोरस टोपोलॉजी वाले नेटवर्क की तुलना में काफी छोटे) द्वारा। उपलब्ध स्रोतों में दो ब्लू जीन / क्यू ट्रांसपेटाफ्लॉप्स सुपर कंप्यूटर के निर्माण की रिपोर्ट है: 20 PFLOPS और मीरा - 10 PFLOPS के प्रदर्शन के साथ सिकोइया। हम यह निष्कर्ष निकाल सकते हैं कि ब्लू जीन / क्यू उन कार्यों पर केंद्रित है जो "सभी से सभी" प्रकार के नेटवर्क ट्रैफ़िक के साथ दसियों और हजारों हजारों कंप्यूटिंग नोड्स का उपयोग करेंगे।

एक टॉरॉयडल टोपोलॉजी के साथ संचार नेटवर्क के निर्माण के दृष्टिकोण का एक अन्य पक्ष क्रे है, जो थ्रूपुट और पड़ोसी नोड्स को जोड़ने वाले लिंक की संख्या को बढ़ाते हुए 3 डी टॉर टोपोलॉजी का उपयोग करना जारी रखता है। क्रे टॉरॉयडल नेटवर्क की वर्तमान पीढ़ी क्रे जेमिनी नेटवर्क है। एक मिथुन राउटर पिछली सीस्टार 2 + पीढ़ी के दो राउटरों से मेल खाता है, जो वास्तव में दो नेटवर्क नोड्स के लिए है, इसलिए 6 लिंक 10 के बजाय मिथुन में पड़ोसी नोड्स से जुड़ने के लिए उपयोग किया जाता है (2 एक दूसरे से दो एडेप्टर कनेक्ट करने के लिए सेवा करते हैं)।

एक सुपर कंप्यूटर के लिए नेटवर्क के घटक (नेटवर्क एडेप्टर, स्विच, राउटर), प्रोसेसर के विपरीत, अक्सर अधिक महंगे होते हैं, और उन तक पहुंच अधिक सीमित होती है। उदाहरण के लिए, अब InfiniBand नेटवर्क के लिए स्विच, जो सुपर कंप्यूटर का मुख्य वाणिज्यिक नेटवर्क है, केवल दो कंपनियों द्वारा निर्मित किया जाता है, दोनों को संयुक्त राज्य द्वारा नियंत्रित किया जाता है। इसका मतलब यह है कि उच्च गति नेटवर्क के क्षेत्र में अपने स्वयं के विकास की अनुपस्थिति में, संयुक्त राज्य अमेरिका, चीन या जापान को छोड़कर किसी भी देश में आधुनिक सुपर कंप्यूटर का निर्माण आसानी से नियंत्रित किया जा सकता है।

घरेलू नेटवर्क

सुपर कंप्यूटर में उपयोग के लिए संचार नेटवर्क का विकास कई घरेलू संगठनों द्वारा किया जाता है: RFNC VNIIEF (खुले स्रोतों में इन विकासों के बारे में बहुत कम जानकारी है), इंस्टीट्यूट ऑफ सॉफ्टवेयर सिस्टम ऑफ द रशियन एकेडमी ऑफ साइंसेज और आरएसके एसकेआईएफ, आईपीएम आरएएस और रिसर्च इंस्टीट्यूट केंट (एमवीएस-एक्सप्रेस नेटवर्क) ")।

रूसी-इतालवी सुपरकंप्यूटर SKIF-Aurora के लिए 3D टोर संचार नेटवर्क पूरी तरह से Altera Stratix IV FPGA का उपयोग करके बनाया गया है, जो प्रति लिंक छोटे बैंडविड्थ को बताता है - 1.25 GB / s (FPGA संसाधन बहुत सीमित हैं)।

एमवीएस-एक्सप्रेस नेटवर्क में, पीसीआई एक्सप्रेस 2.0 का उपयोग कंप्यूटिंग नोड्स को एकीकृत करने के लिए किया जाता है, और नोड्स 24-पोर्ट स्विच के माध्यम से जुड़े होते हैं। नेटवर्क में फैट ट्री के करीब एक टोपोलॉजी है। कंप्यूटिंग नोड में नेटवर्क एडेप्टर में 4 लेन की चौड़ाई के साथ एक पोर्ट होता है, जिसके परिणामस्वरूप प्रति लिंक एकतरफा पीक थ्रूपुट 20 गबिट / सेक है, जिसमें एन्कोडिंग ओवरहेड को ध्यान में रखे बिना। एमवीएस-एक्सप्रेस में पीसीआई एक्सप्रेस का उपयोग करने का लाभ एकतरफा संचार की संभावना के साथ साझा मेमोरी का कुशल समर्थन है। नतीजतन, नेटवर्क Shmem लाइब्रेरी और PGAS भाषाओं (UPC, CAF) को लागू करने के लिए सुविधाजनक है।

रूसी संघ के उद्योग और व्यापार मंत्रालय के समर्थन के साथ, NICEVT OJSC 4D-tor टोपोलॉजी के साथ अंगारा संचार नेटवर्क के विकास पर काम कर रहा है, जो सुपर कंप्यूटर के विकास के लिए घरेलू तकनीक बनाने का आधार बन सकता है।

नेटवर्क "अंगारा"

अंगारा नेटवर्क के विकास के मुख्य उद्देश्य:

  • एक तरफ़ा संचार (पुट / गेट) और पीजीएएस भाषाओं (समानांतर प्रोग्रामिंग के मुख्य साधन के रूप में) के लिए प्रभावी समर्थन,
  • प्रभावी MPI समर्थन
  • खुद के क्रिस्टल की रिहाई (उच्च डेटा अंतरण दर और कम देरी प्राप्त करने के लिए),
  • अनुकूली असफल-सुरक्षित पैकेट संचरण,
  • आधुनिक प्रोसेसर और चिपसेट के साथ प्रभावी कार्य।

इस नेटवर्क (2006) के विकास के पहले चरण में, विभिन्न नेटवर्क विकल्पों का एक अनुकरण किया गया था और मुख्य निर्णय टोपोलॉजी, राउटर आर्किटेक्चर, रूटिंग एल्गोरिदम और मध्यस्थता पर किए गए थे। टॉरॉयडल टोपोलॉजी के अलावा, केली नेटवर्क और "मोटी ट्री" पर विचार किया गया था। छोटे टोरी की तुलना में चार आयामी टोरस को इसके सरल मार्ग, अच्छी मापनीयता और उच्च कनेक्टिविटी के कारण चुना गया था। नेटवर्क मॉडलिंग ने मुख्य प्रदर्शन विशेषताओं पर नेटवर्क आर्किटेक्चर के विभिन्न मापदंडों के प्रभाव का विस्तार से अध्ययन करना संभव बनाया, स्मृति में गहन अनियमित पहुंच वाले कार्यों के यातायात के लिए पैटर्न को समझना। नतीजतन, इष्टतम बफर आकार, आभासी चैनलों की संख्या का चयन किया गया था, और संभावित बाधाओं का विश्लेषण किया गया था।

2008 में, एक FPGA राउटर का पहला प्रोटोटाइप दिखाई दिया - एक 2x3 टोरस से जुड़े Virtex4 पर छह नोड्स का एक नेटवर्क लेआउट, जिस पर राउटर की बुनियादी कार्यक्षमता को डीबग किया गया, फॉल्ट-टॉलरेंट डेटा ट्रांसमिशन पर काम किया गया, ड्राइवर और निम्न-स्तरीय लाइब्रेरी को लिखा गया और डीबग किया गया, शमीम लाइब्रेरी को पोर्ट किया गया। एमपीआई। अब एक दो-आयामी टोरस 3x3 में जुड़े नौ नोड्स से मिलकर, तीसरी पीढ़ी का लेआउट लॉन्च किया गया। Собран стенд с двумя узлами для тестирования новых разъемов и каналов передачи данных, предполагаемых к использованию с будущими кристаллами маршрутизатора ВКС. При разработке принципов работы сети ряд деталей был позаимствован из работ и , а также в том или ином виде из архитектур IBM Blue Gene и Cray SeaStar.

Сеть «Ангара» имеет топологию 4D-тор. Поддерживается детерминированная маршрутизация, сохраняющая порядок передачи пакетов и предотвращающая появление дедлоков (взаимных блокировок), а также адаптивная маршрутизация, позволяющая одновременно использовать множество путей между узлами и обходить перегруженные и вышедшие из строя участки сети. विशेष रूप से एक आभासी सबनेट का उपयोग करके लागू किए गए सामूहिक संचालन (प्रसारण और कटौती) का समर्थन करने के लिए ध्यान दिया गया था, जो एक बहुआयामी टोरस पर एक पेड़ के टोपोलॉजी को समाहित करता है। हार्डवेयर स्तर पर नेटवर्क दो प्रकार के रिमोट राइट्स, रीड्स और एटॉमिक ऑपरेशंस (जोड़ और एक्सक्लूसिव OR) को सपोर्ट करता है। रिमोट रीडिंग एक्जीक्यूशन स्कीम (रिक्वेस्ट भेजना और रिस्पॉन्स मिलना) अंजीर में दिखाया गया है। 2 (दूरस्थ रिकॉर्डिंग और परमाणु संचालन समान रूप से किया जाता है)। एक अलग ब्लॉक में, एक होस्ट (एक होस्ट एक प्रोसेसर-मेमोरी-ब्रिज ब्रिज) के साथ इंटरफेस के माध्यम से संचारित करते समय प्रति लेनदेन उपयोगी डेटा की हिस्सेदारी बढ़ाने के लिए नेटवर्क से प्राप्त संदेशों को तर्क पर लागू किया जाता है।

अंजीर। 2. अंगारा नेटवर्क में रिमोट रीडिंग की योजना

डेटा लिंक परत पर, विफल-सुरक्षित पैकेट ट्रांसमिशन समर्थित है। राउटिंग टेबल के पुनर्निर्माण में विफल संचार चैनलों और नोड्स को दरकिनार करने के लिए एक तंत्र भी है। विभिन्न सेवा संचालन करने के लिए (विशेष रूप से, रूटिंग तालिकाओं को कॉन्फ़िगर / पुनर्निर्माण) और कुछ गणना करने के लिए, एक सेवा प्रोसेसर का उपयोग किया जाता है। होस्ट इंटरफ़ेस PCI Express का उपयोग करता है।

अंजीर। 3. नेटवर्क एडॉप्टर / राउटर "अंगारा" के साथ कंप्यूटिंग नोड की संरचना

राउटर के मुख्य ब्लॉक:

  • मेजबान सिस्टम के साथ इंटरफेस, मेजबान इंटरफेस पर पैकेट प्राप्त करने और भेजने के लिए जिम्मेदार,
  • एक इंजेक्शन और इजेक्शन यूनिट जो पैकेट को नेटवर्क पर भेजा जाता है और नेटवर्क से आने वाले पैकेट के हेडर को पार्स करता है,
  • एक अनुरोध प्रसंस्करण इकाई जो पैकेट की प्रक्रिया करती है जिसे होस्ट सिस्टम की मेमोरी से जानकारी की आवश्यकता होती है (उदाहरण के लिए, रीड या परमाणु संचालन)
  • एक सामूहिक संचालन नेटवर्क इकाई, जो सामूहिक संचालन से जुड़े पैकेटों को संसाधित करती है, विशेष रूप से, कमी संचालन करती है, प्रसारण अनुरोध पैकेट उत्पन्न करती है,
  • एक सर्विस ऑपरेशंस यूनिट, जो सर्विस कोप्रोसेसर से और पैकेट पर जाने की प्रक्रिया करता है,
  • विभिन्न वर्चुअल चैनलों से इनपुट जोड़ने और इंजेक्टर से इनपुट से आउटपुट के साथ विभिन्न दिशाओं और बेदखल करने के लिए इनपुट,
  • एक निश्चित दिशा में डेटा संचारित करने और प्राप्त करने के लिए संचार चैनल,
  • एक दिए गए दिशा में पैकेट भेजने के लिए एक डेटा ट्रांसमिशन इकाई, और पैकेट प्राप्त करने और उनके भविष्य के भाग्य पर निर्णय लेने के लिए एक प्राप्त और मार्ग इकाई।

राउटर के साथ होस्ट इंटरैक्शन (केंद्रीय प्रोसेसर पर निष्पादित कोड) राउटर के संसाधन क्षेत्रों (मेमोरी-मैप्ड इनपुट / आउटपुट) के पते पर मैप किए गए मेमोरी पतों को लिखकर किया जाता है। यह एप्लिकेशन को कर्नेल की भागीदारी के बिना राउटर के साथ बातचीत करने की अनुमति देता है, जो पैकेट भेजने के ओवरहेड को कम कर देता है, चूंकि कर्नेल संदर्भ पर स्विच करना और वापस एक सौ से अधिक घड़ी चक्र लगते हैं। पैकेट भेजने के लिए, मेमोरी क्षेत्रों में से एक का उपयोग किया जाता है, जिसे रिंग बफर के रूप में माना जाता है। मेमोरी-मेमोरी को कॉपी किए बिना ऑपरेशन करने के लिए एक अलग क्षेत्र भी है (डेटा को मेमोरी से पढ़ा जाता है और डीएमए संचालन के माध्यम से संचार नेटवर्क के एडेप्टर द्वारा लिखा जाता है) और नियंत्रण रजिस्टरों वाले क्षेत्र। राउटर के कुछ संसाधनों तक पहुंच को परमाणु मॉड्यूल द्वारा नियंत्रित किया जाता है।

अधिक दक्षता प्राप्त करने के लिए, यह निर्णय लिया गया कि एक नोड पर केवल एक कम्प्यूटेशनल कार्य किया जाना चाहिए, इससे वर्चुअल मेमोरी के उपयोग से जुड़े ओवरहेड को समाप्त कर दिया गया, टास्क के हस्तक्षेप से बचा गया, पूर्ण MMU की कमी के कारण राउटर की वास्तुकला को सरल बनाया और सभी को टाला गया संचार में देरी का उनका काम, साथ ही साथ नेटवर्क सुरक्षा मॉडल को सरल बनाना, इससे एक नोड पर विभिन्न कार्यों की प्रक्रियाओं की सुरक्षा को समाप्त करना। यह समाधान मुख्य रूप से बड़े आकार के कार्यों के लिए नेटवर्क की कार्यक्षमता को प्रभावित नहीं करता था (जैसा कि विभिन्न आकारों के कार्यों के लिए एक सार्वभौमिक नेटवर्क InfiniBand के विपरीत)। इसी तरह का निर्णय आईबीएम ब्लू जीन में किया गया था, जहां अनुभाग के लिए कार्य की विशिष्टता पर प्रतिबंध लगाया गया है।

हार्डवेयर स्तर पर, एक साथ एक कार्य के कई थ्रेड्स / प्रक्रियाओं के राउटर के साथ काम किया जाता है - इसे रिकॉर्डिंग पैकेट के लिए कई रिंग बफ़र्स के माध्यम से प्रक्रियाओं के उपयोग के लिए उपलब्ध कई इंजेक्शन चैनलों के रूप में लागू किया जाता है। इन बफ़र्स की संख्या और आकार गतिशील रूप से बदल सकते हैं।

अंगारा नेटवर्क के लिए मुख्य प्रोग्रामिंग मोड MPI, OpenMP और Shemem, साथ ही GASNet और UPC का संयुक्त उपयोग है।

नेटवर्क के सत्यापन और प्रोटोटाइप के पूरा होने के बाद, यह वीएलएसआई चिप जारी करने की योजना है। एक प्रोटोटाइप वीएलएसआई बैच बुनियादी तकनीकी समाधान डिबगिंग, एक तकनीकी प्रक्रिया और सिमुलेशन परिणामों के प्रयोगात्मक सत्यापन के लिए डिज़ाइन किया जाएगा। प्रोटोटाइप में सभी बुनियादी कार्यक्षमता शामिल होगी, PCI Express gen2 x16 इंटरफ़ेस के साथ काम करना और 75 Gb / s के थ्रूपुट के साथ लिंक।

यह दो संस्करणों में बाजार में अंगारा नेटवर्क को बढ़ावा देने की योजना बनाई गई है: मानक प्रोसेसर और चिपसेट के साथ क्लस्टर सिस्टम के लिए पीसीआई एक्सप्रेस कार्ड के रूप में एक अलग वाणिज्यिक नेटवर्क के रूप में, और एनआईसीवीटी पर विकसित किए जा रहे एएमडी प्रोसेसर पर आधारित चार-सॉकेट ब्लेड सिस्टम के हिस्से के रूप में।

Pin
Send
Share
Send
Send