"વિશ્વમાં હોંશિયાર" GROK3 નું પરીક્ષણ કરવું

આઈપુ વોટન જૂથ (1)

રજૂઆત

શું તમને લાગે છે કે GROK3 પ્રી-પ્રશિક્ષિત મોડેલોનો "અંતિમ બિંદુ" હશે?

એલોન મસ્ક અને ઝાઇ ટીમે લાઇવસ્ટ્રીમ દરમિયાન ગ્રોક, ગ્રોક 3 નું નવીનતમ સંસ્કરણ સત્તાવાર રીતે લોન્ચ કર્યું હતું. આ ઇવેન્ટ પહેલાં, કસ્તુરીના 24/7 પ્રમોશનલ હાઇપ સાથે, સંબંધિત માહિતીની નોંધપાત્ર માત્રા, GROK3 માટે અભૂતપૂર્વ સ્તરે વૈશ્વિક અપેક્ષાઓ વધારી. માત્ર એક અઠવાડિયા પહેલા, કસ્તુરીએ આત્મવિશ્વાસપૂર્વક એક લાઇવસ્ટ્રીમ દરમિયાન જણાવ્યું હતું કે ડીપસીક આર 1 પર ટિપ્પણી કરતી વખતે, "XAI એ વધુ સારી એઆઈ મોડેલ શરૂ કરવા જઇ રહી છે." લાઇવ પ્રસ્તુત ડેટામાંથી, GROK3 એ ગણિત, વિજ્ and ાન અને પ્રોગ્રામિંગ માટેના બેંચમાર્કમાંના તમામ વર્તમાન મુખ્ય પ્રવાહના મોડેલોને વટાવી દીધા છે, જ્યારે કસ્તુરીએ દાવો કર્યો હતો કે GROK3 નો ઉપયોગ સ્પેસએક્સના મંગળ મિશનથી સંબંધિત ગણતરીના કાર્યો માટે કરવામાં આવશે, જેમાં ત્રણ વર્ષમાં નોબેલ કિંમતી સ્તરે "સફળતાની આગાહી કરવામાં આવશે." જો કે, આ હાલમાં ફક્ત મસ્કના નિવેદનો છે. પ્રક્ષેપણ પછી, મેં GROK3 ના નવીનતમ બીટા સંસ્કરણનું પરીક્ષણ કર્યું અને મોટા મોડેલો માટે ક્લાસિક યુક્તિનો પ્રશ્ન ઉભો કર્યો: "કયું મોટું છે, 9.11 અથવા 9.9?" દુ: ખની વાત છે કે, કોઈપણ ક્વોલિફાયર અથવા નિશાનો વિના, કહેવાતા હોંશિયાર GROK3 હજી પણ આ પ્રશ્નનો યોગ્ય રીતે જવાબ આપી શક્યો નહીં. GROK3 પ્રશ્નના અર્થને સચોટ રીતે ઓળખવામાં નિષ્ફળ ગયો.

 

આ પરીક્ષણ ઝડપથી ઘણા મિત્રોનું નોંધપાત્ર ધ્યાન ખેંચ્યું, અને યોગાનુયોગ, વિદેશમાં વિવિધ સમાન પરીક્ષણોએ GROK3 બતાવ્યું છે કે "PISA ના ઝુકાવ ટાવરમાંથી પ્રથમ કયા બોલ પડે છે?" જેવા મૂળભૂત ભૌતિકશાસ્ત્ર/ગણિતના પ્રશ્નો સાથે સંઘર્ષ કરી રહ્યો છે? આમ, તેને રમૂજી રીતે "સરળ પ્રશ્નોના જવાબો આપવા તૈયાર ન હોય તેવા પ્રતિભાશાળી તરીકે લેબલ કરવામાં આવ્યું છે.

640

GROK3 સારું છે, પરંતુ તે R1 અથવા O1-PRO કરતા વધુ સારું નથી.

GROK3 એ વ્યવહારમાં ઘણા સામાન્ય જ્ knowledge ાન પરીક્ષણો પર "નિષ્ફળતા" અનુભવી. XAI લોંચ ઇવેન્ટ દરમિયાન, મસ્કએ GROK3 નો ઉપયોગ કરીને એક્ઝિલ 2 ના રમતના માર્ગના પાત્ર વર્ગો અને અસરોનું વિશ્લેષણ કરવા માટે દર્શાવ્યું, જેનો તેમણે વારંવાર રમવાનો દાવો કર્યો હતો, પરંતુ GROK3 દ્વારા પૂરા પાડવામાં આવેલા મોટાભાગના જવાબો ખોટા હતા. લાઇવસ્ટ્રીમ દરમિયાન કસ્તુરીએ આ સ્પષ્ટ મુદ્દાને ધ્યાનમાં લીધો ન હતો.

 

આ ભૂલથી ગેમિંગમાં "અવેજી શોધવા" માટે મસ્કની મજાક કરવા માટે વિદેશી નેટીઝન્સ માટે વધુ પુરાવા પૂરા પાડવામાં આવ્યા નથી, પરંતુ વ્યવહારિક કાર્યક્રમોમાં GROK3 ની વિશ્વસનીયતા અંગે નોંધપાત્ર ચિંતાઓ પણ ઉભી કરી છે. તેની વાસ્તવિક ક્ષમતાઓને ધ્યાનમાં લીધા વિના, આવા "પ્રતિભા" માટે, મંગળ સંશોધન કાર્યો જેવા અત્યંત જટિલ એપ્લિકેશન દૃશ્યોમાં તેની વિશ્વસનીયતા શંકામાં છે.

 

હાલમાં, ઘણા પરીક્ષકો કે જેમણે GROK3 અઠવાડિયા પહેલા પ્રવેશ મેળવ્યો હતો, અને જેમણે ગઈકાલે થોડા કલાકો માટે મોડેલ ક્ષમતાઓનું પરીક્ષણ કર્યું છે, બધા એક સામાન્ય નિષ્કર્ષ તરફ ધ્યાન દોરે છે: "GROK3 સારું છે, પરંતુ તે R1 અથવા O1-PRO કરતા વધુ સારું નથી."

640 (1)

"વિક્ષેપિત એનવીડિયા" પર એક નિર્ણાયક દ્રષ્ટિકોણ

પ્રકાશન દરમિયાન સત્તાવાર રીતે પ્રસ્તુત પીપીટીમાં, જીઆરઓકે 3 ચેટબ ot ટ એરેનામાં "ખૂબ આગળ" હોવાનું દર્શાવવામાં આવ્યું હતું, પરંતુ આ હોશિયારીથી ઉપયોગમાં લેવામાં આવતી ગ્રાફિક તકનીકો: લીડરબોર્ડ પરની vert ભી અક્ષ ફક્ત 1400-1300 સ્કોર રેન્જમાં સૂચિબદ્ધ પરિણામો છે, જે પરીક્ષણ પરિણામોમાં મૂળ 1% તફાવત આ પ્રસ્તુતિમાં અપવાદરૂપે નોંધપાત્ર દેખાય છે.

640

વાસ્તવિક મોડેલ સ્કોરિંગ પરિણામોમાં, GROK3 ડીપસીક આર 1 અને જીપીટી -4.0 કરતા માત્ર 1-2% આગળ છે, જે વ્યવહારિક પરીક્ષણોમાં ઘણા વપરાશકર્તાઓના અનુભવોને અનુરૂપ છે જે "કોઈ નોંધપાત્ર તફાવત નથી." GROK3 ફક્ત તેના અનુગામીને 1%-2%કરતા વધારે છે.

640

જોકે GROK3 એ હાલમાં જાહેરમાં પરીક્ષણ કરાયેલા બધા મ models ડેલો કરતા વધારે સ્કોર બનાવ્યો છે, ઘણા આને ગંભીરતાથી લેતા નથી: છેવટે, XAI ને અગાઉ GROK2 યુગમાં "સ્કોર મેનીપ્યુલેશન" માટે ટીકા કરવામાં આવી છે. જેમ જેમ લીડરબોર્ડે જવાબની લંબાઈની શૈલીને દંડ આપ્યો, તેમ તેમ, સ્કોર્સ મોટા પ્રમાણમાં ઘટાડો થયો, ઉદ્યોગના આંતરિક ભાગો ઘણીવાર "ઉચ્ચ સ્કોરિંગ પરંતુ ઓછી ક્ષમતા" ની ઘટનાની ટીકા કરે છે.

 

લીડરબોર્ડ "મેનીપ્યુલેશન" દ્વારા અથવા ચિત્રોમાં યુક્તિઓ ડિઝાઇન દ્વારા, તેઓ મોડેલ ક્ષમતાઓમાં "અગ્રણી પેક" ની કલ્પના સાથે ઝાઇ અને મસ્કના જુસ્સાને જાહેર કરે છે. કસ્તુરીએ આ માર્જિન માટે એક તીવ્ર ભાવ ચૂકવ્યો: લોકાર્પણ દરમિયાન, તેણે 200,000 એચ 100 જીપીયુ (લાઇવસ્ટ્રીમ દરમિયાન "100,000 થી વધુ" નો દાવો કર્યો) અને 200 મિલિયન કલાકનો કુલ તાલીમ સમય પ્રાપ્ત કરવાની બડાઈ આપી. આનાથી કેટલાકને એવું માન્યું કે તે જીપીયુ ઉદ્યોગ માટે બીજા નોંધપાત્ર વરદાનનું પ્રતિનિધિત્વ કરે છે અને ડીપસીકની અસરને આ ક્ષેત્ર પર "મૂર્ખ" તરીકે ધ્યાનમાં લે છે. નોંધપાત્ર રીતે, કેટલાક માને છે કે તીવ્ર ગણતરીત્મક શક્તિ મોડેલ તાલીમનું ભવિષ્ય હશે.

 

જો કે, કેટલાક નેટીઝન્સે બે મહિનામાં 2000 એચ 800 જીપીયુના વપરાશની તુલના ડીપસીક વી 3 ઉત્પન્ન કરી, ગણતરી કરી કે GROK3 નો વાસ્તવિક તાલીમ વીજ વપરાશ વી 3 કરતા 263 ગણા છે. ડીપસીક વી 3 વચ્ચેનું અંતર, જેણે 1402 પોઇન્ટ મેળવ્યા હતા, અને GROK3 ફક્ત 100 પોઇન્ટ હેઠળ છે. આ ડેટાના પ્રકાશન પછી, ઘણાને ઝડપથી સમજાયું કે "વિશ્વની સૌથી મજબૂત" તરીકે ગ્રોક 3 ના શીર્ષક પાછળ સ્પષ્ટ સીમાંત ઉપયોગિતા અસર છે - મજબૂત પ્રદર્શન પેદા કરતા મોટા મોડેલોના તર્કમાં ઘટતા વળતર બતાવવાનું શરૂ થયું છે.

640 (2)

"ઉચ્ચ સ્કોરિંગ પરંતુ ઓછી ક્ષમતા" હોવા છતાં, GROK2 માં વપરાશને ટેકો આપવા માટે X (Twitter) પ્લેટફોર્મમાંથી ઉચ્ચ ગુણવત્તાવાળા ફર્સ્ટ-પાર્ટી ડેટાની વિશાળ માત્રા હતી. જો કે, GROK3 ની તાલીમમાં, XAI એ કુદરતી રીતે "છત" નો સામનો કરવો પડ્યો હતો જેનો ઓપનએઆઈ હાલમાં સામનો કરે છે - પ્રીમિયમ તાલીમ ડેટાના અભાવથી મોડેલની ક્ષમતાઓની સીમાંત ઉપયોગિતાને ઝડપથી બહાર કા .વામાં આવે છે.

 

GROK3 અને કસ્તુરીના વિકાસકર્તાઓએ આ તથ્યોને deeply ંડેથી સમજવા અને ઓળખવા માટે પ્રથમ છે, તેથી જ મસ્કએ સતત સોશિયલ મીડિયા પર ઉલ્લેખ કર્યો છે કે સંસ્કરણ વપરાશકર્તાઓ હવે અનુભવી રહ્યા છે તે "હજી પણ ફક્ત બીટા" છે અને તે "સંપૂર્ણ સંસ્કરણ આવતા મહિનામાં રજૂ કરવામાં આવશે." કસ્તુરીએ GROK3 ના પ્રોડક્ટ મેનેજરની ભૂમિકા લીધી છે, સૂચવે છે કે વપરાશકર્તાઓ ટિપ્પણી વિભાગમાં વિવિધ મુદ્દાઓ પર પ્રતિસાદ આપે છે.

 

તેમ છતાં, એક દિવસની અંદર, મજબૂત મોટા મોડેલોને તાલીમ આપવા માટે "મોટા પ્રમાણમાં કોમ્પ્યુટેશનલ સ્નાયુ" પર આધાર રાખવાની આશા રાખનારાઓ માટે નિ ou શંકપણે GROK3 ની કામગીરીએ અલાર્મ્સ ઉભા કર્યા: જાહેરમાં ઉપલબ્ધ માઇક્રોસ .ફ્ટ માહિતીના આધારે, ઓપનએઆઈની જીપીટી -4 એ જી.પી.ટી.-3 કરતા દસ ગણા, 1.8 ટ્રિલિયન પરિમાણોનું પરિમાણ કદ ધરાવે છે. અફવાઓ સૂચવે છે કે જીપીટી -4.5 નું પરિમાણ કદ પણ મોટું હોઈ શકે છે.

 

જેમ જેમ મોડેલ પરિમાણ કદ વધે છે, તાલીમ ખર્ચ પણ આકાશી છે. GROK3 ની હાજરી સાથે, GPT-4.5 જેવા દાવેદારો અને અન્ય કે જે પરિમાણના કદ દ્વારા વધુ સારા મોડેલ પ્રદર્શનને પ્રાપ્ત કરવા માટે "પૈસા બર્નિંગ" ચાલુ રાખવા માંગે છે, તે છતને ધ્યાનમાં લેવું જોઈએ જે હવે સ્પષ્ટ રીતે દૃષ્ટિએ છે અને તેને કેવી રીતે દૂર કરવું તે ચિંતન કરે છે. આ ક્ષણે, ઓપનએઆઈના ભૂતપૂર્વ મુખ્ય વૈજ્ .ાનિક ઇલ્યા સુત્સ્કવરે અગાઉ ગયા ડિસેમ્બરમાં જણાવ્યું હતું કે, "પૂર્વ-તાલીમ સાથે આપણે પરિચિત છીએ તે સમાપ્ત થશે," જે ચર્ચામાં ફરી વળ્યું છે, મોટા મોડેલોને તાલીમ આપવા માટેના સાચા માર્ગને શોધવાના પ્રયત્નો માટે પૂછવામાં આવ્યું છે.

640 (3)

ઇલ્યાના દૃષ્ટિકોણથી ઉદ્યોગમાં એલાર્મ સંભળાય છે. તેમણે access ક્સેસિબલ નવા ડેટાના નિકટવર્તી થાકને સચોટ રીતે જાણ કરી, એવી પરિસ્થિતિ તરફ દોરી કે જ્યાં ડેટા એક્વિઝિશન દ્વારા પ્રભાવ વધારવાનું ચાલુ રાખી શકાતું નથી, તેને અશ્મિભૂત ઇંધણના થાક સાથે સરખાવી રહ્યું છે. તેમણે સંકેત આપ્યો કે "તેલની જેમ, ઇન્ટરનેટ પર માનવ દ્વારા ઉત્પન્ન સામગ્રી મર્યાદિત સાધન છે." સુત્સકીવરની આગાહીઓમાં, મોડેલોની આગામી પે generation ી, પોસ્ટ-ટ્રેનિંગ, "સાચી સ્વાયત્તતા" અને તર્ક ક્ષમતાઓ "માનવ મગજની સમાન" ધરાવશે. "

 

આજના પૂર્વ-પ્રશિક્ષિત મ models ડેલ્સથી વિપરીત જે મુખ્યત્વે સામગ્રી મેચિંગ (અગાઉ શીખી મોડેલની સામગ્રીના આધારે) પર આધાર રાખે છે, ભવિષ્યની એઆઈ સિસ્ટમો માનવ મગજની "વિચારસરણી" સમાન રીતે સમસ્યાઓ હલ કરવા માટે પદ્ધતિઓ શીખવા અને સ્થાપિત કરી શકશે. માનવી ફક્ત મૂળભૂત વ્યાવસાયિક સાહિત્યવાળા વિષયમાં મૂળભૂત નિપુણતા પ્રાપ્ત કરી શકે છે, જ્યારે એઆઈ મોટા મોડેલને ફક્ત મૂળભૂત પ્રવેશ-સ્તરની અસરકારકતા પ્રાપ્ત કરવા માટે લાખો ડેટા પોઇન્ટની જરૂર હોય છે. જ્યારે શબ્દો થોડો બદલાય છે, ત્યારે પણ આ મૂળભૂત પ્રશ્નો યોગ્ય રીતે સમજી શકાતા નથી, જે સમજાવે છે કે મોડેલની બુદ્ધિમાં સાચી રીતે સુધારો થયો નથી: લેખની શરૂઆતમાં ઉલ્લેખિત મૂળભૂત છતાં અવિશ્વસનીય પ્રશ્નો આ ઘટનાના સ્પષ્ટ ઉદાહરણને રજૂ કરે છે.

微信图片 _20240614024031.jpg1

અંત

જો કે, ઘાતક બળથી આગળ, જો GROK3 ખરેખર ઉદ્યોગને જાહેર કરવામાં સફળ થાય છે કે "પૂર્વ-પ્રશિક્ષિત મ models ડેલ્સ તેમના અંતની નજીક આવી રહ્યા છે," તે ક્ષેત્ર માટે નોંધપાત્ર અસરો લાવશે.

કદાચ GROK3 ની આસપાસના પ્રચંડ ભાગો ધીરે ધીરે ઓછા થયા પછી, અમે ફી-ફે-લિના "ફક્ત $ 50 માટે ચોક્કસ ડેટાસેટ પર ઉચ્ચ પ્રદર્શનવાળા મ models ડેલ્સને ટ્યુનિંગ કરવા" જેવા વધુ કેસો જોશું, આખરે એજીઆઈના સાચા પાથની શોધ કરી.

ELV કેબલ સોલ્યુશન શોધો

નિયંત્રણ કેબલ

બીએમએસ, બસ, industrial દ્યોગિક, ઇન્સ્ટ્રુમેન્ટેશન કેબલ માટે.

રચાયેલ કેબલિંગ પદ્ધતિ

નેટવર્ક અને ડેટા, ફાઇબર-ઓપ્ટિક કેબલ, પેચ કોર્ડ, મોડ્યુલો, ફેસપ્લેટ

2024 પ્રદર્શનો અને ઇવેન્ટ્સ સમીક્ષા

એપ્રિલ .16 મી -18 મી, 2024 દુબઇમાં મધ્ય-પૂર્વ-ઉર્જા

એપ્રિલ .16 મી -18 મી, 2024 મોસ્કોમાં સિક્યુરિકા

મે .9 મી, 2024 શાંઘાઈમાં નવા ઉત્પાદનો અને ટેક્નોલોજીસ લોંચ ઇવેન્ટ

Oct ક્ટો .22 મી -25 મી, 2024 બેઇજિંગમાં સુરક્ષા ચાઇના

નવે .19-20, 2024 કનેક્ટેડ વર્લ્ડ કેએસએ


પોસ્ટ સમય: ફેબ્રુઆરી -19-2025