ડીપસીક: એઆઈ લેન્ડસ્કેપમાં ક્રાંતિ લાવનાર વિક્ષેપકારક

એઆઈપીયુ વોટન ગ્રુપ

પરિચય

સ્પર્ધાત્મક મોટા મોડેલો, બજાર હિસ્સા માટે સ્પર્ધા કરતા ક્લાઉડ પ્રદાતાઓ અને મહેનતુ ચિપ ઉત્પાદકોમાં સતત ચિંતા - ડીપસીક અસર યથાવત છે.

વસંત મહોત્સવ નજીક આવી રહ્યો છે તેમ, ડીપસીકને લગતો ઉત્સાહ મજબૂત રહે છે. તાજેતરની રજાએ ટેક ઉદ્યોગમાં સ્પર્ધાની નોંધપાત્ર ભાવનાને પ્રકાશિત કરી, જેમાં ઘણા લોકો આ "કેટફિશ" ની ચર્ચા અને વિશ્લેષણ કરી રહ્યા છે. સિલિકોન વેલી કટોકટીનો અભૂતપૂર્વ અનુભવ કરી રહી છે: ઓપન-સોર્સના હિમાયતીઓ ફરીથી તેમના મંતવ્યો વ્યક્ત કરી રહ્યા છે, અને ઓપનએઆઈ પણ તેની ક્લોઝ-સોર્સ વ્યૂહરચના શ્રેષ્ઠ પસંદગી હતી કે કેમ તેનું પુનર્મૂલ્યાંકન કરી રહ્યા છે. ઓછા કોમ્પ્યુટેશનલ ખર્ચના નવા દાખલાએ એનવીડિયા જેવા ચિપ જાયન્ટ્સમાં સાંકળ પ્રતિક્રિયા શરૂ કરી છે, જેના કારણે યુએસ શેરબજારના ઇતિહાસમાં એક દિવસીય બજાર મૂલ્યમાં ઘટાડો થયો છે, જ્યારે સરકારી એજન્સીઓ ડીપસીક દ્વારા ઉપયોગમાં લેવાતી ચિપ્સના પાલનની તપાસ કરી રહી છે. વિદેશમાં ડીપસીકની મિશ્ર સમીક્ષાઓ વચ્ચે, સ્થાનિક સ્તરે, તે અસાધારણ વૃદ્ધિ અનુભવી રહી છે. R1 મોડેલના લોન્ચ પછી, સંકળાયેલ એપ્લિકેશનમાં ટ્રાફિકમાં વધારો જોવા મળ્યો છે, જે દર્શાવે છે કે એપ્લિકેશન ક્ષેત્રોમાં વૃદ્ધિ એકંદર AI ઇકોસિસ્ટમને આગળ ધપાવશે. સકારાત્મક પાસું એ છે કે ડીપસીક એપ્લિકેશન શક્યતાઓને વિસ્તૃત કરશે, જે સૂચવે છે કે ચેટજીપીટી પર આધાર રાખવો ભવિષ્યમાં એટલો ખર્ચાળ રહેશે નહીં. આ પરિવર્તન OpenAI ની તાજેતરની પ્રવૃત્તિઓમાં પ્રતિબિંબિત થયું છે, જેમાં DeepSeek R1 ના પ્રતિભાવમાં મફત વપરાશકર્તાઓ માટે o3-mini નામના તર્ક મોડેલની જોગવાઈનો સમાવેશ થાય છે, તેમજ ત્યારબાદના અપગ્રેડ્સ કે જેનાથી o3-mini ની વિચાર શૃંખલા જાહેર થઈ. ઘણા વિદેશી વપરાશકર્તાઓએ આ વિકાસ માટે DeepSeek નો આભાર વ્યક્ત કર્યો, જોકે આ વિચાર શૃંખલા સારાંશ તરીકે કામ કરે છે.

આશાવાદી રીતે, એ સ્પષ્ટ છે કે ડીપસીક સ્થાનિક ખેલાડીઓને એક કરી રહ્યું છે. તાલીમ ખર્ચ ઘટાડવા પર ધ્યાન કેન્દ્રિત કરીને, વિવિધ અપસ્ટ્રીમ ચિપ ઉત્પાદકો, મધ્યવર્તી ક્લાઉડ પ્રદાતાઓ અને અસંખ્ય સ્ટાર્ટઅપ્સ સક્રિયપણે ઇકોસિસ્ટમમાં જોડાઈ રહ્યા છે, જે ડીપસીક મોડેલનો ઉપયોગ કરવા માટે ખર્ચ કાર્યક્ષમતામાં વધારો કરે છે. ડીપસીકના પેપર્સ અનુસાર, V3 મોડેલની સંપૂર્ણ તાલીમ માટે ફક્ત 2.788 મિલિયન H800 GPU કલાકની જરૂર પડે છે, અને તાલીમ પ્રક્રિયા ખૂબ જ સ્થિર છે. 405 બિલિયન પરિમાણો સાથે લામા 3 ની તુલનામાં પૂર્વ-તાલીમ ખર્ચમાં દસના પરિબળ દ્વારા ઘટાડો કરવા માટે MoE (નિષ્ણાતોનું મિશ્રણ) સ્થાપત્ય મહત્વપૂર્ણ છે. હાલમાં, V3 એ પ્રથમ જાહેરમાં માન્યતા પ્રાપ્ત મોડેલ છે જે MoE માં આટલી ઊંચી સ્પાર્સિટી દર્શાવે છે. વધુમાં, MLA (મલ્ટિ લેયર એટેન્શન) સિનર્જિસ્ટિકલી કામ કરે છે, ખાસ કરીને તર્ક પાસાઓમાં. "MoE જેટલું વિરલ હશે, તેટલો મોટો બેચ કદ કમ્પ્યુટેશનલ પાવરનો સંપૂર્ણ ઉપયોગ કરવા માટે તર્ક દરમિયાન જરૂરી છે, KVCacheનું કદ મુખ્ય મર્યાદિત પરિબળ છે; MLA નોંધપાત્ર રીતે KVCache કદ ઘટાડે છે," AI ટેકનોલોજી રિવ્યૂ માટેના વિશ્લેષણમાં ચુઆનજિંગ ટેકનોલોજીના એક સંશોધકે નોંધ્યું. એકંદરે, ડીપસીકની સફળતા ફક્ત એક જ ટેકનોલોજીના સંયોજનમાં નથી, પરંતુ વિવિધ ટેકનોલોજીના સંયોજનમાં રહેલી છે. ઉદ્યોગના આંતરિક લોકો ડીપસીક ટીમની એન્જિનિયરિંગ ક્ષમતાઓની પ્રશંસા કરે છે, સમાંતર તાલીમ અને ઓપરેટર ઑપ્ટિમાઇઝેશનમાં તેમની શ્રેષ્ઠતાને ધ્યાનમાં લેતા, દરેક વિગતોને શુદ્ધ કરીને ગ્રાઉન્ડબ્રેકિંગ પરિણામો પ્રાપ્ત કરે છે. ડીપસીકનો ઓપન-સોર્સ અભિગમ મોટા મોડેલોના એકંદર વિકાસને વધુ વેગ આપે છે, અને એવી અપેક્ષા રાખવામાં આવે છે કે જો સમાન મોડેલો છબીઓ, વિડિઓઝ અને વધુમાં વિસ્તૃત થાય છે, તો આ સમગ્ર ઉદ્યોગમાં માંગને નોંધપાત્ર રીતે ઉત્તેજીત કરશે.

તૃતીય-પક્ષ તર્ક સેવાઓ માટેની તકો

ડેટા દર્શાવે છે કે તેની રજૂઆત પછી, ડીપસીકે માત્ર 21 દિવસમાં 22.15 મિલિયન દૈનિક સક્રિય વપરાશકર્તાઓ (DAU) એકઠા કર્યા છે, જે ચેટજીપીટીના વપરાશકર્તા આધારના 41.6% પ્રાપ્ત કર્યા છે અને ડુબાઓના 16.95 મિલિયન દૈનિક સક્રિય વપરાશકર્તાઓને વટાવી ગયા છે, આમ વૈશ્વિક સ્તરે સૌથી ઝડપથી વિકસતી એપ્લિકેશન બની છે, જે 157 દેશો/પ્રદેશોમાં એપલ એપ સ્ટોરમાં ટોચ પર છે. જો કે, જ્યારે વપરાશકર્તાઓની સંખ્યા વધી રહી છે, ત્યારે સાયબર હેકર્સ ડીપસીક એપ્લિકેશન પર અવિરત હુમલો કરી રહ્યા છે, જેના કારણે તેના સર્વર્સ પર નોંધપાત્ર તાણ આવી રહ્યો છે. ઉદ્યોગ વિશ્લેષકો માને છે કે આ આંશિક રીતે ડીપસીક તાલીમ માટે કાર્ડ જમાવે છે જ્યારે તર્ક માટે પૂરતી ગણતરી શક્તિનો અભાવ છે. એક ઉદ્યોગના આંતરિક વ્યક્તિએ AI ટેકનોલોજી રિવ્યુને માહિતી આપી, "વારંવાર સર્વર સમસ્યાઓ ફી વસૂલીને અથવા વધુ મશીનો ખરીદવા માટે ધિરાણ દ્વારા સરળતાથી ઉકેલી શકાય છે; આખરે, તે ડીપસીકના નિર્ણયો પર આધાર રાખે છે." આ ટેકનોલોજી વિરુદ્ધ ઉત્પાદનીકરણ પર ધ્યાન કેન્દ્રિત કરવામાં વેપાર રજૂ કરે છે. ડીપસીકે મોટાભાગે સ્વ-નિર્ભરતા માટે ક્વોન્ટમ ક્વોન્ટાઇઝેશન પર આધાર રાખ્યો છે, તેને થોડું બાહ્ય ભંડોળ મળ્યું છે, જેના પરિણામે પ્રમાણમાં ઓછું રોકડ પ્રવાહ દબાણ અને શુદ્ધ તકનીકી વાતાવરણ બન્યું છે. હાલમાં, ઉપરોક્ત સમસ્યાઓના પ્રકાશમાં, કેટલાક વપરાશકર્તાઓ સોશિયલ મીડિયા પર ડીપસીકને ઉપયોગ મર્યાદા વધારવા અથવા વપરાશકર્તા સુવિધા વધારવા માટે પેઇડ સુવિધાઓ રજૂ કરવા વિનંતી કરી રહ્યા છે. વધુમાં, વિકાસકર્તાઓએ ઑપ્ટિમાઇઝેશન માટે સત્તાવાર API અથવા તૃતીય-પક્ષ API નો ઉપયોગ કરવાનું શરૂ કર્યું છે. જો કે, ડીપસીકના ઓપન પ્લેટફોર્મે તાજેતરમાં જાહેરાત કરી હતી કે, "વર્તમાન સર્વર સંસાધનો દુર્લભ છે, અને API સેવા રિચાર્જ સસ્પેન્ડ કરવામાં આવ્યા છે."

 

આ નિઃશંકપણે AI ઇન્ફ્રાસ્ટ્રક્ચર ક્ષેત્રમાં તૃતીય-પક્ષ વિક્રેતાઓ માટે વધુ તકો ખોલે છે. તાજેતરમાં, અસંખ્ય સ્થાનિક અને આંતરરાષ્ટ્રીય ક્લાઉડ જાયન્ટ્સે DeepSeek ના મોડેલ API લોન્ચ કર્યા છે - વિદેશી જાયન્ટ્સ Microsoft અને Amazon જાન્યુઆરીના અંતમાં જોડાતા પહેલા હતા. સ્થાનિક નેતા, Huawei Cloud એ પહેલું પગલું ભર્યું, 1 ફેબ્રુઆરીના રોજ સિલિકોન-આધારિત ફ્લો સાથે સહયોગમાં DeepSeek R1 અને V3 રિઝનિંગ સેવાઓ રજૂ કરી. AI ટેકનોલોજી રિવ્યૂના અહેવાલો સૂચવે છે કે સિલિકોન-આધારિત ફ્લોની સેવાઓમાં વપરાશકર્તાઓનો ધસારો જોવા મળ્યો છે, જે પ્લેટફોર્મને અસરકારક રીતે "ક્રેશ" કરી રહ્યો છે. ત્રણ મોટી ટેક કંપનીઓ - BAT (Baidu, Alibaba, Tencent) અને ByteDance - એ પણ 3 ફેબ્રુઆરીથી શરૂ થતી ઓછી કિંમતની, મર્યાદિત સમયની ઑફર્સ જારી કરી, જે ગયા વર્ષના DeepSeek ના V2 મોડેલ લોન્ચ દ્વારા શરૂ થયેલા ક્લાઉડ વેન્ડર ભાવ યુદ્ધની યાદ અપાવે છે, જ્યાં DeepSeek ને "કિંમત કસાઈ" તરીકે ઓળખવામાં આવવાનું શરૂ થયું. ક્લાઉડ વિક્રેતાઓની ઉગ્ર ક્રિયાઓ માઇક્રોસોફ્ટ એઝ્યુર અને ઓપનએઆઈ વચ્ચેના અગાઉના મજબૂત સંબંધોનો પડઘો પાડે છે, જ્યાં 2019 માં, માઇક્રોસોફ્ટે ઓપનએઆઈમાં $1 બિલિયનનું નોંધપાત્ર રોકાણ કર્યું હતું અને 2023 માં ચેટજીપીટીના લોન્ચ પછી લાભ મેળવ્યો હતો. જો કે, મેટા ઓપન-સોર્સ્ડ લામા પછી આ ગાઢ સંબંધમાં ખટાશ આવવા લાગી, જેના કારણે માઇક્રોસોફ્ટ એઝ્યુર ઇકોસિસ્ટમની બહારના અન્ય વિક્રેતાઓ તેમના મોટા મોડેલો સાથે સ્પર્ધા કરી શક્યા. આ કિસ્સામાં, ડીપસીકે પ્રોડક્ટ હીટના સંદર્ભમાં માત્ર ચેટજીપીટીને પાછળ છોડી દીધું નથી, પરંતુ o1 રિલીઝ પછી ઓપન-સોર્સ મોડેલો પણ રજૂ કર્યા છે, જે લામાના GPT-3 ના પુનરુત્થાનની આસપાસના ઉત્સાહની જેમ છે.

 

વાસ્તવમાં, ક્લાઉડ પ્રદાતાઓ પોતાને AI એપ્લિકેશનો માટે ટ્રાફિક ગેટવે તરીકે પણ સ્થાન આપી રહ્યા છે, જેનો અર્થ એ છે કે વિકાસકર્તાઓ સાથેના સંબંધોને ગાઢ બનાવવાથી પૂર્વનિર્ધારિત ફાયદા થાય છે. અહેવાલો સૂચવે છે કે મોડેલના લોન્ચ દિવસે ક્વિઆનફાન પ્લેટફોર્મ દ્વારા ડીપસીક મોડેલનો ઉપયોગ કરતા 15,000 થી વધુ ગ્રાહકો હતા. વધુમાં, ઘણી નાની કંપનીઓ ઉકેલો ઓફર કરી રહી છે, જેમાં સિલિકોન-આધારિત ફ્લો, લુચેન ટેકનોલોજી, ચુઆનજિંગ ટેકનોલોજી અને વિવિધ AI ઇન્ફ્રા પ્રદાતાઓનો સમાવેશ થાય છે જેમણે ડીપસીક મોડેલો માટે સપોર્ટ શરૂ કર્યો છે. AI ટેકનોલોજી રિવ્યુએ શીખ્યા છે કે ડીપસીકના સ્થાનિકીકરણ માટે વર્તમાન ઑપ્ટિમાઇઝેશન તકો મુખ્યત્વે બે ક્ષેત્રોમાં અસ્તિત્વમાં છે: એક એ છે કે 671 બિલિયન પેરામીટર MoE મોડેલને સ્થાનિક રીતે જમાવવા માટે મિશ્ર તર્ક અભિગમનો ઉપયોગ કરીને MoE મોડેલની સ્પારસિટી લાક્ષણિકતાઓ માટે ઑપ્ટિમાઇઝ કરવું જ્યારે હાઇબ્રિડ GPU/CPU અનુમાનનો ઉપયોગ કરવો. વધુમાં, MLA નું ઑપ્ટિમાઇઝેશન મહત્વપૂર્ણ છે. જો કે, ડીપસીકના બે મોડેલો હજુ પણ ડિપ્લોયમેન્ટ ઑપ્ટિમાઇઝેશનમાં કેટલાક પડકારોનો સામનો કરે છે. "મોડેલના કદ અને અસંખ્ય પરિમાણોને કારણે, ઑપ્ટિમાઇઝેશન ખરેખર જટિલ છે, ખાસ કરીને સ્થાનિક ડિપ્લોયમેન્ટ માટે જ્યાં પ્રદર્શન અને ખર્ચ વચ્ચે શ્રેષ્ઠ સંતુલન પ્રાપ્ત કરવું પડકારજનક હશે," ચુઆનજિંગ ટેકનોલોજીના એક સંશોધકે જણાવ્યું. સૌથી મહત્વપૂર્ણ અવરોધ મેમરી ક્ષમતા મર્યાદાઓને દૂર કરવામાં રહેલો છે. "અમે CPUs અને અન્ય કોમ્પ્યુટેશનલ સંસાધનોનો સંપૂર્ણ ઉપયોગ કરવા માટે એક વિજાતીય સહયોગ અભિગમ અપનાવીએ છીએ, ઉચ્ચ-પ્રદર્શન CPU ઓપરેટરોનો ઉપયોગ કરીને પ્રક્રિયા કરવા માટે CPU/DRAM પર છૂટાછવાયા MoE મેટ્રિક્સના ફક્ત બિન-શેર કરેલા ભાગો મૂકીએ છીએ, જ્યારે ગાઢ ભાગો GPU પર રહે છે," તેમણે આગળ સમજાવ્યું. અહેવાલો સૂચવે છે કે ચુઆનજિંગનું ઓપન-સોર્સ ફ્રેમવર્ક KTransformers મુખ્યત્વે ટેમ્પલેટ દ્વારા મૂળ ટ્રાન્સફોર્મર્સ અમલીકરણમાં વિવિધ વ્યૂહરચનાઓ અને ઓપરેટરોને ઇન્જેક્ટ કરે છે, જે CUDAGraph જેવી પદ્ધતિઓનો ઉપયોગ કરીને અનુમાન ગતિમાં નોંધપાત્ર વધારો કરે છે. DeepSeek એ આ સ્ટાર્ટઅપ્સ માટે તકો ઊભી કરી છે, કારણ કે વૃદ્ધિના લાભો સ્પષ્ટ થઈ રહ્યા છે; ઘણી કંપનીઓએ DeepSeek API લોન્ચ કર્યા પછી નોંધપાત્ર ગ્રાહક વૃદ્ધિની જાણ કરી છે, ઑપ્ટિમાઇઝેશન શોધી રહેલા અગાઉના ગ્રાહકો પાસેથી પૂછપરછ પ્રાપ્ત કરી છે. ઉદ્યોગના આંતરિક સૂત્રોએ નોંધ્યું છે કે, "ભૂતકાળમાં, કેટલાક સ્થાપિત ક્લાયન્ટ જૂથો ઘણીવાર મોટી કંપનીઓની પ્રમાણિત સેવાઓમાં બંધાયેલા હતા, જે સ્કેલને કારણે તેમના ખર્ચ લાભો દ્વારા ચુસ્તપણે બંધાયેલા હતા. જો કે, વસંત મહોત્સવ પહેલાં DeepSeek-R1/V3 નું ડિપ્લોયમેન્ટ પૂર્ણ કર્યા પછી, અમને અચાનક ઘણા જાણીતા ક્લાયન્ટ્સ તરફથી સહકાર વિનંતીઓ મળી, અને અગાઉ નિષ્ક્રિય ક્લાયન્ટ્સે પણ અમારી DeepSeek સેવાઓ રજૂ કરવા માટે સંપર્ક શરૂ કર્યો." હાલમાં, એવું લાગે છે કે DeepSeek મોડેલ ઇન્ફરન્સ પ્રદર્શનને વધુને વધુ મહત્વપૂર્ણ બનાવી રહ્યું છે, અને મોટા મોડેલ્સના વ્યાપક અપનાવવાથી, આ AI ઇન્ફ્રા ઉદ્યોગમાં વિકાસને નોંધપાત્ર રીતે પ્રભાવિત કરવાનું ચાલુ રાખશે. જો DeepSeek-સ્તરનું મોડેલ ઓછા ખર્ચે સ્થાનિક રીતે જમાવી શકાય, તો તે સરકાર અને એન્ટરપ્રાઇઝ ડિજિટલ ટ્રાન્સફોર્મેશન પ્રયાસોને મોટા પ્રમાણમાં મદદ કરશે. જો કે, પડકારો ચાલુ રહે છે, કારણ કે કેટલાક ક્લાયન્ટ્સ મોટી મોડેલ ક્ષમતાઓ અંગે ઉચ્ચ અપેક્ષાઓ રાખી શકે છે, જે તે વધુ સ્પષ્ટ બનાવે છે કે વ્યવહારિક જમાવટમાં પ્રદર્શન અને ખર્ચનું સંતુલન મહત્વપૂર્ણ બને છે. 

ડીપસીક ચેટજીપીટી કરતા વધુ સારું છે કે કેમ તેનું મૂલ્યાંકન કરવા માટે, તેમના મુખ્ય તફાવતો, શક્તિઓ અને ઉપયોગના કિસ્સાઓ સમજવું જરૂરી છે. અહીં એક વ્યાપક સરખામણી છે:

લક્ષણ/પાસા ડીપસીક ચેટજીપીટી
માલિકી ચીની કંપની દ્વારા વિકસિત ઓપનએઆઈ દ્વારા વિકસિત
સોર્સ મોડેલ ઓપન-સોર્સ માલિકીનું
કિંમત વાપરવા માટે મફત; સસ્તા API ઍક્સેસ વિકલ્પો સબ્સ્ક્રિપ્શન અથવા ઉપયોગ દીઠ ચૂકવણી કિંમત
કસ્ટમાઇઝેશન ખૂબ જ કસ્ટમાઇઝ કરી શકાય તેવું, વપરાશકર્તાઓને તેમાં ફેરફાર કરવા અને તેના પર નિર્માણ કરવાની મંજૂરી આપે છે. મર્યાદિત કસ્ટમાઇઝેશન ઉપલબ્ધ છે
ચોક્કસ કાર્યોમાં કામગીરી ડેટા એનાલિટિક્સ અને માહિતી પુનઃપ્રાપ્તિ જેવા ચોક્કસ ક્ષેત્રોમાં શ્રેષ્ઠતા ધરાવે છે. સર્જનાત્મક લેખન અને વાતચીત કાર્યોમાં મજબૂત પ્રદર્શન સાથે બહુમુખી પ્રતિભા
ભાષા સપોર્ટ ચીની ભાષા અને સંસ્કૃતિ પર મજબૂત ધ્યાન વ્યાપક ભાષા સપોર્ટ પરંતુ યુએસ-કેન્દ્રિત
તાલીમ ખર્ચ કાર્યક્ષમતા માટે ઑપ્ટિમાઇઝ કરેલ, ઓછી તાલીમ કિંમત ઉચ્ચ તાલીમ ખર્ચ, નોંધપાત્ર ગણતરીત્મક સંસાધનોની જરૂર પડે છે
પ્રતિભાવમાં ફેરફાર ભૌગોલિક રાજકીય સંદર્ભથી પ્રભાવિત થઈને, વિવિધ પ્રતિભાવો આપી શકે છે તાલીમ ડેટાના આધારે સુસંગત જવાબો
લક્ષ્ય પ્રેક્ષકો લવચીકતા ઇચ્છતા વિકાસકર્તાઓ અને સંશોધકોને ધ્યાનમાં રાખીને વાતચીત કરવાની ક્ષમતાઓ શોધી રહેલા સામાન્ય વપરાશકર્તાઓને ધ્યાનમાં રાખીને
ઉપયોગના કિસ્સાઓ કોડ જનરેશન અને ઝડપી કાર્યો માટે વધુ કાર્યક્ષમ ટેક્સ્ટ જનરેટ કરવા, પ્રશ્નોના જવાબ આપવા અને સંવાદમાં જોડાવા માટે આદર્શ

"Nvidia ને વિક્ષેપિત કરતી" પર એક મહત્વપૂર્ણ દ્રષ્ટિકોણ

હાલમાં, Huawei સિવાય, Moore Threads, Muxi, Biran Technology અને Tianxu Zhixin જેવા ઘણા સ્થાનિક ચિપ ઉત્પાદકો પણ DeepSeek ના બે મોડેલોને અનુકૂલન કરી રહ્યા છે. એક ચિપ ઉત્પાદકે AI ટેકનોલોજી રિવ્યૂને જણાવ્યું હતું કે, "DeepSeek નું માળખું નવીનતા દર્શાવે છે, છતાં તે LLM રહે છે. DeepSeek સાથે અમારું અનુકૂલન મુખ્યત્વે તર્કસંગત એપ્લિકેશનો પર કેન્દ્રિત છે, જે તકનીકી અમલીકરણને એકદમ સરળ અને ઝડપી બનાવે છે." જો કે, MoE અભિગમને સંગ્રહ અને વિતરણના સંદર્ભમાં ઉચ્ચ માંગની જરૂર છે, સાથે સાથે સ્થાનિક ચિપ્સ સાથે જમાવટ કરતી વખતે સુસંગતતા સુનિશ્ચિત કરવા સાથે, અનુકૂલન દરમિયાન ઉકેલની જરૂર હોય તેવા અસંખ્ય એન્જિનિયરિંગ પડકારો રજૂ કરે છે. "હાલમાં, સ્થાનિક કોમ્પ્યુટેશનલ પાવર Nvidia સાથે ઉપયોગીતા અને સ્થિરતા સાથે મેળ ખાતી નથી, જેના માટે સોફ્ટવેર પર્યાવરણ સેટઅપ, મુશ્કેલીનિવારણ અને પાયાના પ્રદર્શન ઑપ્ટિમાઇઝેશન માટે મૂળ ફેક્ટરી ભાગીદારીની જરૂર છે," એક ઉદ્યોગ વ્યવસાયીએ વ્યવહારુ અનુભવના આધારે જણાવ્યું હતું. તે જ સમયે, "DeepSeek R1 ના મોટા પરિમાણ સ્કેલને કારણે, સ્થાનિક કોમ્પ્યુટેશનલ પાવરને સમાંતરકરણ માટે વધુ નોડ્સની જરૂર પડે છે. વધુમાં, સ્થાનિક હાર્ડવેર સ્પષ્ટીકરણો હજુ પણ કંઈક અંશે પાછળ છે; ઉદાહરણ તરીકે, Huawei 910B હાલમાં DeepSeek દ્વારા રજૂ કરાયેલ FP8 અનુમાનને સમર્થન આપી શકતું નથી." ડીપસીક વી3 મોડેલની એક ખાસિયત એ છે કે FP8 મિશ્ર ચોકસાઇ તાલીમ માળખાનો પરિચય, જે અત્યંત મોટા મોડેલ પર અસરકારક રીતે માન્ય કરવામાં આવ્યો છે, જે એક મહત્વપૂર્ણ સિદ્ધિ છે. અગાઉ, માઇક્રોસોફ્ટ અને એનવીડિયા જેવા મુખ્ય ખેલાડીઓએ સંબંધિત કાર્ય સૂચવ્યું હતું, પરંતુ ઉદ્યોગમાં શક્યતા અંગે શંકાઓ રહે છે. એવું સમજી શકાય છે કે INT8 ની તુલનામાં, FP8 નો પ્રાથમિક ફાયદો એ છે કે તાલીમ પછીનું ક્વોન્ટાઇઝેશન લગભગ લોસલેસ ચોકસાઇ પ્રાપ્ત કરી શકે છે જ્યારે અનુમાન ગતિમાં નોંધપાત્ર વધારો કરી શકે છે. FP16 સાથે સરખામણી કરતી વખતે, FP8 Nvidia ના H20 પર બે ગણા પ્રવેગક અને H100 પર 1.5 ગણાથી વધુ પ્રવેગક પ્રાપ્ત કરી શકે છે. નોંધનીય છે કે, સ્થાનિક કોમ્પ્યુટેશનલ પાવર વત્તા સ્થાનિક મોડેલોના વલણની આસપાસની ચર્ચાઓ વેગ પકડતી વખતે, Nvidia ને વિક્ષેપિત કરી શકાય છે કે કેમ અને CUDA ખાડાને બાયપાસ કરી શકાય છે કે કેમ તે અંગે અટકળો વધુને વધુ પ્રચલિત થઈ રહી છે. એક નિર્વિવાદ હકીકત એ છે કે ડીપસીકે ખરેખર Nvidia ના બજાર મૂલ્યમાં નોંધપાત્ર ઘટાડો કર્યો છે, પરંતુ આ પરિવર્તન Nvidia ના ઉચ્ચ-સ્તરીય કોમ્પ્યુટેશનલ પાવર અખંડિતતા અંગે પ્રશ્નો ઉભા કરે છે. મૂડી-સંચાલિત કોમ્પ્યુટેશનલ સંચય અંગે અગાઉ સ્વીકૃત કથાઓને પડકારવામાં આવી રહી છે, છતાં તાલીમ પરિસ્થિતિઓમાં Nvidia ને સંપૂર્ણપણે બદલવાનું મુશ્કેલ રહે છે. DeepSeek ના CUDA ના ઊંડા ઉપયોગનું વિશ્લેષણ દર્શાવે છે કે સુગમતા - જેમ કે સંદેશાવ્યવહાર માટે SM નો ઉપયોગ કરવો અથવા નેટવર્ક કાર્ડ્સનો સીધો ઉપયોગ કરવો - નિયમિત GPU માટે સમાવવા માટે શક્ય નથી. ઉદ્યોગના દૃષ્ટિકોણ પર ભાર મૂકે છે કે Nvidia ના ખાડા ફક્ત CUDA ને બદલે સમગ્ર CUDA ઇકોસિસ્ટમને આવરી લે છે, અને PTX (સમાંતર થ્રેડ એક્ઝેક્યુશન) સૂચનાઓ જે DeepSeek ઉપયોગ કરે છે તે હજુ પણ CUDA ઇકોસિસ્ટમનો ભાગ છે. "ટૂંકા ગાળામાં, Nvidia ની કોમ્પ્યુટેશનલ શક્તિને બાયપાસ કરી શકાતી નથી - તાલીમમાં આ ખાસ કરીને સ્પષ્ટ છે; જો કે, તર્ક માટે સ્થાનિક કાર્ડ્સનો ઉપયોગ પ્રમાણમાં સરળ હશે, તેથી પ્રગતિ સંભવતઃ ઝડપી હશે. સ્થાનિક કાર્ડ્સનું અનુકૂલન મુખ્યત્વે અનુમાન પર ધ્યાન કેન્દ્રિત કરે છે; કોઈએ હજુ સુધી સ્થાનિક કાર્ડ્સ પર ડીપસીકના પ્રદર્શનના મોડેલને સ્કેલ પર તાલીમ આપવામાં વ્યવસ્થાપિત કર્યું નથી," એક ઉદ્યોગ વિશ્લેષકે AI ટેકનોલોજી રિવ્યૂને ટિપ્પણી કરી. એકંદરે, અનુમાનના દૃષ્ટિકોણથી, સ્થાનિક મોટા મોડેલ ચિપ્સ માટે પરિસ્થિતિઓ પ્રોત્સાહક છે. તાલીમની અતિશય ઊંચી આવશ્યકતાઓને કારણે, જે પ્રવેશને અવરોધે છે, તેના કારણે અનુમાનના ક્ષેત્રમાં સ્થાનિક ચિપ ઉત્પાદકો માટે તકો વધુ સ્પષ્ટ છે. વિશ્લેષકો દલીલ કરે છે કે ફક્ત સ્થાનિક અનુમાન કાર્ડનો ઉપયોગ કરવો પૂરતો છે; જો જરૂરી હોય તો, વધારાની મશીન મેળવવી શક્ય છે, જ્યારે તાલીમ મોડેલો અનન્ય પડકારો ઉભા કરે છે - મશીનોની વધતી સંખ્યાનું સંચાલન કરવું બોજારૂપ બની શકે છે, અને ઉચ્ચ ભૂલ દર તાલીમ પરિણામો પર નકારાત્મક અસર કરી શકે છે. તાલીમમાં ચોક્કસ ક્લસ્ટર સ્કેલ આવશ્યકતાઓ પણ હોય છે, જ્યારે અનુમાન માટે ક્લસ્ટરો પરની માંગ એટલી કડક નથી, આમ GPU આવશ્યકતાઓને સરળ બનાવે છે. હાલમાં, Nvidia ના સિંગલ H20 કાર્ડનું પ્રદર્શન Huawei અથવા Cambrian કરતા વધુ નથી; તેની તાકાત ક્લસ્ટરિંગમાં રહેલી છે. કોમ્પ્યુટેશનલ પાવર માર્કેટ પર એકંદર અસરના આધારે, Luchen Technology ના સ્થાપક, You Yang એ AI ટેકનોલોજી રિવ્યુ સાથેની એક મુલાકાતમાં નોંધ્યું હતું કે, "DeepSeek અલ્ટ્રા-લાર્જ ટ્રેનિંગ કોમ્પ્યુટેશનલ ક્લસ્ટરોની સ્થાપના અને ભાડાને અસ્થાયી રૂપે નબળી પાડી શકે છે. લાંબા ગાળે, મોટા મોડેલ તાલીમ, તર્ક અને એપ્લિકેશનો સાથે સંકળાયેલા ખર્ચમાં નોંધપાત્ર ઘટાડો કરીને, બજારની માંગમાં વધારો થવાની સંભાવના છે. તેથી તેના પર આધારિત AI ના અનુગામી પુનરાવર્તનો કોમ્પ્યુટેશનલ પાવર માર્કેટમાં સતત માંગને આગળ વધારશે." વધુમાં, "ડીપસીકની તર્ક અને ફાઇન-ટ્યુનિંગ સેવાઓ માટેની વધતી માંગ સ્થાનિક કોમ્પ્યુટેશનલ લેન્ડસ્કેપ સાથે વધુ સુસંગત છે, જ્યાં સ્થાનિક ક્ષમતાઓ પ્રમાણમાં નબળી છે, જે ક્લસ્ટર સ્થાપના પછી નિષ્ક્રિય સંસાધનોના કચરાને ઘટાડવામાં મદદ કરે છે; આ સ્થાનિક કોમ્પ્યુટેશનલ ઇકોસિસ્ટમના વિવિધ સ્તરોના ઉત્પાદકો માટે સક્ષમ તકો બનાવે છે." લુચેન ટેકનોલોજીએ સ્થાનિક કોમ્પ્યુટેશનલ પાવર પર આધારિત ડીપસીક R1 શ્રેણીના તર્ક API અને ક્લાઉડ ઇમેજિંગ સેવાઓ શરૂ કરવા માટે Huawei ક્લાઉડ સાથે સહયોગ કર્યો છે. યુ યાંગે ભવિષ્ય વિશે આશાવાદ વ્યક્ત કર્યો: "ડીપસીક સ્થાનિક રીતે ઉત્પાદિત ઉકેલોમાં વિશ્વાસ જગાડે છે, આગળ જતાં સ્થાનિક કોમ્પ્યુટેશનલ ક્ષમતાઓમાં વધુ ઉત્સાહ અને રોકાણને પ્રોત્સાહન આપે છે."

微信图片_20240614024031.jpg1

નિષ્કર્ષ

ડીપસીક ચેટજીપીટી કરતાં "વધુ સારું" છે કે નહીં તે વપરાશકર્તાની ચોક્કસ જરૂરિયાતો અને ઉદ્દેશ્યો પર આધાર રાખે છે. લવચીકતા, ઓછી કિંમત અને કસ્ટમાઇઝેશનની જરૂર હોય તેવા કાર્યો માટે, ડીપસીક શ્રેષ્ઠ હોઈ શકે છે. સર્જનાત્મક લેખન, સામાન્ય પૂછપરછ અને વપરાશકર્તા-મૈત્રીપૂર્ણ વાતચીત ઇન્ટરફેસ માટે, ચેટજીપીટી આગેવાની લઈ શકે છે. દરેક સાધન અલગ અલગ હેતુઓ પૂરા પાડે છે, તેથી પસંદગી મોટાભાગે તેનો ઉપયોગ કયા સંદર્ભમાં થાય છે તેના પર નિર્ભર રહેશે.

ELV કેબલ સોલ્યુશન શોધો

નિયંત્રણ કેબલ્સ

BMS, BUS, ઔદ્યોગિક, ઇન્સ્ટ્રુમેન્ટેશન કેબલ માટે.

સ્ટ્રક્ચર્ડ કેબલિંગ સિસ્ટમ

નેટવર્ક અને ડેટા, ફાઇબર-ઓપ્ટિક કેબલ, પેચ કોર્ડ, મોડ્યુલ્સ, ફેસપ્લેટ

2024 પ્રદર્શનો અને ઇવેન્ટ્સ સમીક્ષા

૧૬-૧૮ એપ્રિલ, ૨૦૨૪ દુબઈમાં મધ્ય-પૂર્વ-ઊર્જા

૧૬-૧૮ એપ્રિલ, ૨૦૨૪ મોસ્કોમાં સેક્યુરિકા

9 મે, 2024 ના રોજ શાંઘાઈમાં નવા ઉત્પાદનો અને ટેકનોલોજીનો લોન્ચ ઇવેન્ટ

૨૨-૨૫ ઓક્ટોબર, ૨૦૨૪ બેઇજિંગમાં સુરક્ષા ચીન

નવેમ્બર ૧૯-૨૦, ૨૦૨૪ કનેક્ટેડ વર્લ્ડ કેએસએ


પોસ્ટ સમય: ફેબ્રુઆરી-૧૦-૨૦૨૫