"વિશ્વના સૌથી હોંશિયાર" ગ્રોક3 નું પરીક્ષણ

AIPU વોટન ગ્રુપ (1)

પરિચય

શું તમને લાગે છે કે Grok3 પૂર્વ-પ્રશિક્ષિત મોડેલોનો "અંતિમ બિંદુ" હશે?

એલોન મસ્ક અને xAI ટીમે લાઇવસ્ટ્રીમ દરમિયાન Grok નું નવીનતમ સંસ્કરણ, Grok3, સત્તાવાર રીતે લોન્ચ કર્યું. આ ઇવેન્ટ પહેલા, મસ્કના 24/7 પ્રમોશનલ હાઇપ સાથે જોડાયેલી નોંધપાત્ર પ્રમાણમાં સંબંધિત માહિતીએ Grok3 માટે વૈશ્વિક અપેક્ષાઓ અભૂતપૂર્વ સ્તરે વધારી દીધી. એક અઠવાડિયા પહેલા, મસ્કે DeepSeek R1 પર ટિપ્પણી કરતી વખતે લાઇવસ્ટ્રીમ દરમિયાન વિશ્વાસપૂર્વક જણાવ્યું હતું કે, "xAI વધુ સારું AI મોડેલ લોન્ચ કરવા જઈ રહ્યું છે." લાઇવ રજૂ કરાયેલા ડેટા પરથી, Grok3 એ ગણિત, વિજ્ઞાન અને પ્રોગ્રામિંગ માટેના બેન્ચમાર્કમાં તમામ વર્તમાન મુખ્ય પ્રવાહના મોડેલોને પાછળ છોડી દીધા છે, મસ્કે એવો પણ દાવો કર્યો હતો કે Grok3 નો ઉપયોગ SpaceX ના મંગળ મિશન સંબંધિત કોમ્પ્યુટેશનલ કાર્યો માટે કરવામાં આવશે, "ત્રણ વર્ષમાં નોબેલ પુરસ્કાર સ્તરે સફળતા" ની આગાહી કરી હતી. જો કે, આ હાલમાં ફક્ત મસ્કના દાવા છે. લોન્ચ પછી, મેં Grok3 ના નવીનતમ બીટા સંસ્કરણનું પરીક્ષણ કર્યું અને મોટા મોડેલો માટે ક્લાસિક યુક્તિ પ્રશ્ન પૂછ્યો: "કયું મોટું છે, 9.11 કે 9.9?" દુઃખની વાત છે કે, કોઈપણ ક્વોલિફાયર કે માર્કિન્ગ્સ વિના, કહેવાતા સૌથી હોંશિયાર Grok3 હજુ પણ આ પ્રશ્નનો સાચો જવાબ આપી શક્યા નથી. Grok3 પ્રશ્નનો અર્થ ચોક્કસ રીતે ઓળખવામાં નિષ્ફળ ગયો.

 

આ કસોટીએ ઝડપથી ઘણા મિત્રોનું ધ્યાન ખેંચ્યું, અને સંયોગથી, વિદેશમાં આવા જ અનેક પરીક્ષણોએ Grok3 ને મૂળભૂત ભૌતિકશાસ્ત્ર/ગણિતના પ્રશ્નો જેમ કે "પીસાના લીનિંગ ટાવર પરથી કયો બોલ પહેલા પડે છે?" સાથે સંઘર્ષ કરતા દર્શાવ્યું છે. આમ, તેને રમૂજી રીતે "સરળ પ્રશ્નોના જવાબ આપવા તૈયાર ન હોય તેવી પ્રતિભાશાળી" તરીકે લેબલ કરવામાં આવ્યું છે.

૬૪૦

Grok3 સારું છે, પણ તે R1 કે o1-Pro કરતાં સારું નથી.

Grok3 ને વ્યવહારમાં ઘણી સામાન્ય જ્ઞાન કસોટીઓમાં "નિષ્ફળતાઓ"નો સામનો કરવો પડ્યો. xAI લોન્ચ ઇવેન્ટ દરમિયાન, મસ્કે રમત Path of Exile 2 ના પાત્ર વર્ગો અને અસરોનું વિશ્લેષણ કરવા માટે Grok3 નો ઉપયોગ કરીને દર્શાવ્યું, જે તેણે વારંવાર રમવાનો દાવો કર્યો હતો, પરંતુ Grok3 દ્વારા આપવામાં આવેલા મોટાભાગના જવાબો ખોટા હતા. લાઇવસ્ટ્રીમ દરમિયાન મસ્કને આ સ્પષ્ટ સમસ્યાની નોંધ લીધી ન હતી.

 

આ ભૂલથી વિદેશી નેટીઝન્સ માટે ગેમિંગમાં "અવેજી શોધવા" માટે મસ્કની મજાક ઉડાવવા માટે વધુ પુરાવા મળ્યા, પરંતુ વ્યવહારિક એપ્લિકેશનોમાં ગ્રોક3 ની વિશ્વસનીયતા અંગે પણ નોંધપાત્ર ચિંતાઓ ઉભી થઈ. આવા "પ્રતિભાશાળી" માટે, તેની વાસ્તવિક ક્ષમતાઓને ધ્યાનમાં લીધા વિના, મંગળ સંશોધન કાર્યો જેવા અત્યંત જટિલ એપ્લિકેશન દૃશ્યોમાં તેની વિશ્વસનીયતા શંકામાં રહે છે.

 

હાલમાં, ઘણા પરીક્ષકો જેમને અઠવાડિયા પહેલા Grok3 ની ઍક્સેસ મળી હતી, અને જેમણે ગઈકાલે થોડા કલાકો માટે મોડેલ ક્ષમતાઓનું પરીક્ષણ કર્યું હતું, તેઓ બધા એક સામાન્ય નિષ્કર્ષ તરફ નિર્દેશ કરે છે: "Grok3 સારું છે, પરંતુ તે R1 અથવા o1-Pro કરતાં વધુ સારું નથી."

૬૪૦ (૧)

"Nvidia ને વિક્ષેપિત કરતી" પર એક મહત્વપૂર્ણ દ્રષ્ટિકોણ

રિલીઝ દરમિયાન સત્તાવાર રીતે રજૂ કરાયેલ PPT માં, Grok3 ને ચેટબોટ એરેનામાં "ઘણું આગળ" દર્શાવવામાં આવ્યું હતું, પરંતુ આમાં ચતુરાઈથી ગ્રાફિક તકનીકોનો ઉપયોગ કરવામાં આવ્યો હતો: લીડરબોર્ડ પર ઊભી અક્ષ ફક્ત 1400-1300 સ્કોર રેન્જમાં પરિણામો સૂચિબદ્ધ કરે છે, જેના કારણે આ પ્રસ્તુતિમાં પરીક્ષણ પરિણામોમાં મૂળ 1% તફાવત અપવાદરૂપે નોંધપાત્ર દેખાય છે.

૬૪૦

વાસ્તવિક મોડેલ સ્કોરિંગ પરિણામોમાં, Grok3 એ DeepSeek R1 અને GPT-4.0 કરતા ફક્ત 1-2% આગળ છે, જે વ્યવહારુ પરીક્ષણોમાં ઘણા વપરાશકર્તાઓના અનુભવોને અનુરૂપ છે જેમણે "કોઈ નોંધપાત્ર તફાવત" શોધી કાઢ્યો નથી. Grok3 તેના અનુગામીઓ કરતા ફક્ત 1%-2% આગળ છે.

૬૪૦

જોકે Grok3 એ હાલમાં જાહેરમાં પરીક્ષણ કરાયેલા બધા મોડેલો કરતાં વધુ સ્કોર મેળવ્યો છે, ઘણા લોકો આને ગંભીરતાથી લેતા નથી: છેવટે, Grok2 યુગમાં xAI ની અગાઉ "સ્કોર મેનીપ્યુલેશન" માટે ટીકા કરવામાં આવી હતી. લીડરબોર્ડે જવાબ લંબાઈ શૈલીને દંડિત કર્યા પછી, સ્કોર્સમાં ઘણો ઘટાડો થયો, જેના કારણે ઉદ્યોગના આંતરિક લોકો ઘણીવાર "ઉચ્ચ સ્કોરિંગ પરંતુ ઓછી ક્ષમતા" ની ઘટનાની ટીકા કરે છે.

 

લીડરબોર્ડ "મેનીપ્યુલેશન" દ્વારા હોય કે ચિત્રોમાં ડિઝાઇન યુક્તિઓ દ્વારા, તેઓ મોડેલ ક્ષમતાઓમાં "પેકનું નેતૃત્વ" કરવાની કલ્પના પ્રત્યે xAI અને મસ્કના જુસ્સાને છતી કરે છે. મસ્કે આ માર્જિન માટે ભારે કિંમત ચૂકવી: લોન્ચ દરમિયાન, તેણે 200,000 H100 GPUs (લાઇવસ્ટ્રીમ દરમિયાન "100,000 થી વધુ" નો દાવો કરીને) નો ઉપયોગ કરવાની અને 200 મિલિયન કલાકનો કુલ તાલીમ સમય પ્રાપ્ત કરવાની બડાઈ મારી. આનાથી કેટલાક લોકો એવું માનતા હતા કે તે GPU ઉદ્યોગ માટે બીજું એક મહત્વપૂર્ણ વરદાન છે અને DeepSeek ના ક્ષેત્ર પરના પ્રભાવને "મૂર્ખતાપૂર્ણ" માને છે. નોંધપાત્ર રીતે, કેટલાક માને છે કે સંપૂર્ણ ગણતરી શક્તિ મોડેલ તાલીમનું ભવિષ્ય હશે.

 

જોકે, કેટલાક નેટીઝન્સે બે મહિનામાં 2000 H800 GPU ના વપરાશની સરખામણી DeepSeek V3 બનાવવા માટે કરી હતી, અને ગણતરી કરી હતી કે Grok3 નો વાસ્તવિક તાલીમ પાવર વપરાશ V3 કરતા 263 ગણો છે. DeepSeek V3, જેણે 1402 પોઈન્ટ મેળવ્યા હતા, અને Grok3 વચ્ચેનો તફાવત 100 પોઈન્ટથી થોડો ઓછો છે. આ ડેટાના પ્રકાશન પછી, ઘણા લોકોને ઝડપથી ખ્યાલ આવ્યો કે "વિશ્વના સૌથી મજબૂત" તરીકે Grok3 ના બિરુદ પાછળ એક સ્પષ્ટ સીમાંત ઉપયોગિતા અસર રહેલી છે - મજબૂત પ્રદર્શન ઉત્પન્ન કરતા મોટા મોડેલોના તર્કમાં ઘટાડો થવા લાગ્યો છે.

૬૪૦ (૨)

"ઉચ્ચ સ્કોરિંગ પરંતુ ઓછી ક્ષમતા" હોવા છતાં, Grok2 પાસે X (Twitter) પ્લેટફોર્મ પરથી ઉપયોગને સમર્થન આપવા માટે વિશાળ માત્રામાં ઉચ્ચ-ગુણવત્તાવાળા ફર્સ્ટ-પાર્ટી ડેટા હતા. જો કે, Grok3 ની તાલીમમાં, xAI ને સ્વાભાવિક રીતે જ OpenAI હાલમાં જે "છત"નો સામનો કરી રહ્યું છે તેનો સામનો કરવો પડ્યો - પ્રીમિયમ તાલીમ ડેટાનો અભાવ મોડેલની ક્ષમતાઓની સીમાંત ઉપયોગિતાને ઝડપથી છતી કરે છે.

 

Grok3 અને Musk ના ડેવલપર્સ કદાચ આ હકીકતોને સૌથી પહેલા સમજશે અને ઊંડાણપૂર્વક ઓળખશે, તેથી જ મસ્ક સોશિયલ મીડિયા પર સતત ઉલ્લેખ કરે છે કે વપરાશકર્તાઓ હાલમાં જે સંસ્કરણનો અનુભવ કરી રહ્યા છે તે "હજુ પણ ફક્ત બીટા" છે અને "સંપૂર્ણ સંસ્કરણ આગામી મહિનાઓમાં રિલીઝ થશે." મસ્કે Grok3 ના પ્રોડક્ટ મેનેજરની ભૂમિકા નિભાવી છે, જે વપરાશકર્તાઓને ટિપ્પણી વિભાગમાં આવતી વિવિધ સમસ્યાઓ પર પ્રતિસાદ આપવાનું સૂચન કરે છે. તે પૃથ્વી પર સૌથી વધુ અનુસરવામાં આવતા પ્રોડક્ટ મેનેજર હોઈ શકે છે.

 

છતાં, એક જ દિવસમાં, Grok3 ના પ્રદર્શને નિઃશંકપણે મજબૂત મોટા મોડેલોને તાલીમ આપવા માટે "વિશાળ કોમ્પ્યુટેશનલ સ્નાયુ" પર આધાર રાખવાની આશા રાખનારાઓ માટે ચિંતા ઉભી કરી દીધી: જાહેરમાં ઉપલબ્ધ Microsoft માહિતીના આધારે, OpenAI ના GPT-4 નું પરિમાણ કદ 1.8 ટ્રિલિયન પરિમાણો છે, જે GPT-3 કરતા દસ ગણું વધારે છે. અફવાઓ સૂચવે છે કે GPT-4.5 નું પરિમાણ કદ વધુ મોટું હોઈ શકે છે.

 

મોડેલ પેરામીટરના કદમાં વધારો થતાં, તાલીમ ખર્ચ પણ આસમાને પહોંચી રહ્યો છે. Grok3 ની હાજરી સાથે, GPT-4.5 જેવા દાવેદારો અને અન્ય લોકો કે જેઓ પેરામીટર કદ દ્વારા વધુ સારા મોડેલ પ્રદર્શન પ્રાપ્ત કરવા માટે "પૈસા બર્ન" કરવાનું ચાલુ રાખવા માંગે છે, તેમણે હવે સ્પષ્ટપણે દેખાતી ટોચમર્યાદાને ધ્યાનમાં લેવી જોઈએ અને તેને કેવી રીતે દૂર કરવી તે અંગે વિચાર કરવો જોઈએ. આ ક્ષણે, OpenAI ના ભૂતપૂર્વ મુખ્ય વૈજ્ઞાનિક, ઇલ્યા સુત્સ્કીવરે ગયા ડિસેમ્બરમાં અગાઉ કહ્યું હતું કે, "આપણે જે પૂર્વ-તાલીમથી પરિચિત છીએ તે સમાપ્ત થશે," જે ચર્ચાઓમાં ફરી ઉભરી આવ્યું છે, જેનાથી મોટા મોડેલોને તાલીમ આપવા માટે સાચો માર્ગ શોધવાના પ્રયાસો શરૂ થયા છે.

૬૪૦ (૩)

ઇલ્યાના દૃષ્ટિકોણથી ઉદ્યોગમાં ભયનો માહોલ છવાઈ ગયો છે. તેમણે સુલભ નવા ડેટાના નિકટવર્તી થાકનું સચોટપણે પૂર્વાનુમાન કર્યું હતું, જેના કારણે એવી પરિસ્થિતિ ઊભી થશે જ્યાં ડેટા સંપાદન દ્વારા કામગીરીમાં વધારો કરી શકાતો નથી, તેને અશ્મિભૂત ઇંધણના થાક સાથે સરખાવીને. તેમણે સૂચવ્યું કે "તેલની જેમ, ઇન્ટરનેટ પર માનવ-નિર્મિત સામગ્રી મર્યાદિત સંસાધન છે." સુત્સ્કીવરની આગાહીઓમાં, આગામી પેઢીના મોડેલો, પૂર્વ-તાલીમ પછી, "માનવ મગજ જેવી જ" "સાચી સ્વાયત્તતા" અને તર્ક ક્ષમતાઓ ધરાવશે.

 

આજના પૂર્વ-પ્રશિક્ષિત મોડેલોથી વિપરીત, જે મુખ્યત્વે સામગ્રી મેચિંગ પર આધાર રાખે છે (અગાઉ શીખેલા મોડેલ સામગ્રી પર આધારિત), ભવિષ્યના AI સિસ્ટમો માનવ મગજના "વિચાર" જેવી રીતે સમસ્યાઓ ઉકેલવા માટે પદ્ધતિઓ શીખવા અને સ્થાપિત કરવા સક્ષમ હશે. એક માનવ ફક્ત મૂળભૂત વ્યાવસાયિક સાહિત્ય સાથે વિષયમાં મૂળભૂત નિપુણતા પ્રાપ્ત કરી શકે છે, જ્યારે AI મોટા મોડેલને ફક્ત સૌથી મૂળભૂત એન્ટ્રી-લેવલ અસરકારકતા પ્રાપ્ત કરવા માટે લાખો ડેટા પોઇન્ટની જરૂર પડે છે. જ્યારે શબ્દોમાં થોડો ફેરફાર કરવામાં આવે છે, ત્યારે પણ આ મૂળભૂત પ્રશ્નો યોગ્ય રીતે સમજી શકાતા નથી, જે દર્શાવે છે કે મોડેલ બુદ્ધિમાં ખરેખર સુધારો થયો નથી: લેખની શરૂઆતમાં ઉલ્લેખિત મૂળભૂત છતાં ઉકેલી ન શકાય તેવા પ્રશ્નો આ ઘટનાનું સ્પષ્ટ ઉદાહરણ રજૂ કરે છે.

微信图片_20240614024031.jpg1

નિષ્કર્ષ

જોકે, ક્રૂર બળથી આગળ વધીને, જો Grok3 ખરેખર ઉદ્યોગને એ જાહેર કરવામાં સફળ થાય છે કે "પૂર્વ-પ્રશિક્ષિત મોડેલો તેમના અંતની નજીક આવી રહ્યા છે," તો તે ક્ષેત્ર માટે નોંધપાત્ર અસરો ધરાવશે.

કદાચ Grok3 ની આસપાસનો ઉન્માદ ધીમે ધીમે ઓછો થયા પછી, આપણે Fei-Fei Li ના ઉદાહરણ જેવા વધુ કિસ્સાઓ જોશું, "માત્ર $50 માં ચોક્કસ ડેટાસેટ પર ઉચ્ચ-પ્રદર્શન મોડેલોને ટ્યુન કરવા", જે આખરે AGI નો સાચો માર્ગ શોધશે.

ELV કેબલ સોલ્યુશન શોધો

નિયંત્રણ કેબલ્સ

BMS, BUS, ઔદ્યોગિક, ઇન્સ્ટ્રુમેન્ટેશન કેબલ માટે.

સ્ટ્રક્ચર્ડ કેબલિંગ સિસ્ટમ

નેટવર્ક અને ડેટા, ફાઇબર-ઓપ્ટિક કેબલ, પેચ કોર્ડ, મોડ્યુલ્સ, ફેસપ્લેટ

2024 પ્રદર્શનો અને ઇવેન્ટ્સ સમીક્ષા

૧૬-૧૮ એપ્રિલ, ૨૦૨૪ દુબઈમાં મધ્ય-પૂર્વ-ઊર્જા

૧૬-૧૮ એપ્રિલ, ૨૦૨૪ મોસ્કોમાં સેક્યુરિકા

9 મે, 2024 ના રોજ શાંઘાઈમાં નવા ઉત્પાદનો અને ટેકનોલોજીનો લોન્ચ ઇવેન્ટ

૨૨-૨૫ ઓક્ટોબર, ૨૦૨૪ બેઇજિંગમાં સુરક્ષા ચીન

નવેમ્બર ૧૯-૨૦, ૨૦૨૪ કનેક્ટેડ વર્લ્ડ કેએસએ


પોસ્ટ સમય: ફેબ્રુઆરી-૧૯-૨૦૨૫