Google: ఇమేజ్'లా టెక్స్ట్ను సృష్టించే కొత్త AI మోడల్.. గూగుల్ 'డిఫ్యూజన్ జెమ్మా' ప్రత్యేకతలివే!
ఈ వార్తాకథనం ఏంటి
కృత్రిమ మేధ(AI)రంగంలో గూగుల్ మరో వినూత్న అడుగు వేసింది. గూగుల్ డీప్మైండ్ తన ఓపెన్ AI మోడల్ ఫ్యామిలీ అయిన 'జెమ్మా 4'లో భాగంగా'డిఫ్యూజన్ జెమ్మా (DiffusionGemma)'పేరుతో కొత్త మోడల్ను పరిచయం చేసింది. ప్రస్తుతం అందుబాటులో ఉన్న చాలా AI మోడళ్లకు భిన్నంగా,ఇది టెక్స్ట్ను వరుసగా కాకుండా ఒకేసారి పెద్ద భాగంగా రూపొందించే సామర్థ్యాన్ని కలిగి ఉంది. దీంతో వేగంగా, సమర్థవంతంగా పని చేయగలదని గూగుల్ వెల్లడించింది. సాధారణంగా AI చాట్బాట్లు ఒక్కో పదాన్ని లేదా టోకెన్ను వరుసగా రూపొందిస్తూ సమాధానాలను ఇస్తాయి. అయితే డిఫ్యూజన్ జెమ్మా మాత్రం ఇమేజ్ జనరేషన్ టెక్నాలజీ తరహాలో పనిచేస్తుంది. మొదట యాదృచ్ఛిక టోకెన్లతో ప్రారంభించి,వాటిని పలుమార్లు మెరుగుపరుస్తూ చివరకు పూర్తిస్థాయి టెక్స్ట్ను ఒకేసారి సిద్ధం చేస్తుంది.
వివరాలు
'డీనాయిజింగ్' ప్రక్రియ
దీనిని 'డీనాయిజింగ్' ప్రక్రియగా పేర్కొంటున్నారు. చిత్రాన్ని క్రమంగా స్పష్టంగా మార్చినట్లే, ఈ మోడల్ టెక్స్ట్ను కూడా దశలవారీగా రూపొందిస్తుంది. డిఫ్యూజన్ జెమ్మాలో మొత్తం 26 బిలియన్ పారామీటర్లు ఉన్నప్పటికీ, సమాధానాలను రూపొందించే సమయంలో కేవలం 3.8 బిలియన్ పారామీటర్లు మాత్రమే యాక్టివ్గా పనిచేస్తాయి. దీంతో అధిక సామర్థ్యం కలిగిన గేమింగ్ GPUలు లేదా NVIDIA DGX వంటి లోకల్ హార్డ్వేర్పైనా సులభంగా నడపవచ్చు. హైఎండ్ GPUలోని 18GB ర్యామ్లోనే ఇది పనిచేసేలా రూపొందించారు. పనితీరు పరంగా కూడా ఈ మోడల్ ఆకట్టుకుంటోంది. NVIDIA RTX 5090 GPUపై పరీక్షల్లో సెకనుకు సుమారు 700 టోకెన్లను రూపొందించగా,ఒక్క NVIDIA H100 AI యాక్సిలరేటర్తో 1,000కు పైగా టోకెన్లను సెకనుకు ఉత్పత్తి చేసినట్లు గూగుల్ తెలిపింది.
వివరాలు
సాధారణ AI మోడళ్లకు సవాలుగా పజిల్స్ను పరిష్కరించేలా ప్రత్యేక శిక్షణ
ఇదే పరిమాణంలో ఉన్న సాధారణ జెమ్మా మోడళ్లతో పోలిస్తే ఇది నాలుగు రెట్లు వేగంగా పనిచేస్తుందని వెల్లడించింది. డిఫ్యూజన్ జెమ్మా ఒకేసారి 256 టోకెన్ల వరకు సమాంతరంగా రూపొందించగలదు. దీంతో ఇన్లైన్ టెక్స్ట్ ఎడిటింగ్, మాలిక్యులర్ సీక్వెన్సింగ్, గణిత గ్రాఫింగ్ వంటి క్లిష్టమైన పనుల్లో మెరుగైన ఫలితాలను అందించగలదని గూగుల్ చెబుతోంది. అంతేకాకుండా, సాధారణ AI మోడళ్లకు సవాలుగా ఉండే సుడోకు పజిల్స్ను పరిష్కరించేలా కూడా దీనికి ప్రత్యేక శిక్షణ ఇచ్చారు.
వివరాలు
కొన్ని సందర్భాల్లో పొరపాట్ల శాతం ఎక్కువ
అయితే, ఈ సాంకేతికతను గూగుల్ తన ప్రముఖ Gemini AI మోడళ్లలో ఇప్పటివరకు ఉపయోగించడం లేదు. కొన్ని సందర్భాల్లో పొరపాట్ల శాతం ఎక్కువగా ఉండటం, చిన్న సమాధానాల కోసం అవసరానికి మించి కంప్యూటింగ్ శక్తి వినియోగించడం వంటి పరిమితులు ఇందుకు కారణంగా పేర్కొంది. అయినప్పటికీ, లోకల్ AI ప్రాసెసింగ్కు ఇది కొత్త అవకాశాలను తెరుస్తుందని నిపుణులు భావిస్తున్నారు. అలాగే, వృథా అయ్యే కంప్యూటింగ్ సామర్థ్యాన్ని ఉపయోగించేందుకు మల్టీ-టోకెన్ ప్రిడిక్షన్ (MTP) టెక్నాలజీపై కూడా గూగుల్ పని చేస్తోంది.