Google: AI చాట్‌బాట్లలో మూడు సమాధానాల్లో ఒకటి తప్పు.. గూగుల్‌ బెంచ్‌మార్క్‌లో బయటపడిన వాస్తవాలు

వ్రాసిన వారు Sirish Praharaju

Dec 17, 2025

02:40 pm

ఈ వార్తాకథనం ఏంటి

ఆర్టిఫిషియల్ ఇంటెలిజెన్స్‌(AI)చాట్‌బాట్ల విశ్వసనీయతపై గూగుల్‌ స్వయంగా చేసిన అధ్యయనం ఇప్పుడు చర్చనీయాంశంగా మారింది. తాము తాజాగా విడుదల చేసిన FACTS Benchmark Suite ద్వారా గూగుల్‌ చేసిన పరీక్షల్లో,ఆధునిక AI మోడళ్లు ఇప్పటికీ పూర్తిస్థాయిలో నిజాలను చెప్పలేకపోతున్నాయనే విషయం స్పష్టమైంది. గణాంకాల ప్రకారం, నేటి చాట్‌బాట్లు సగటున ప్రతి మూడు సమాధానాల్లో ఒకటి తప్పుగా ఇస్తున్నాయి. ముఖ్యంగా,అవి ఎంతో ఆత్మవిశ్వాసంతో మాట్లాడినప్పటికీ సమాచారం తప్పుగా ఉండటం గమనార్హం. ఈ పరీక్షల్లో గూగుల్‌ సొంత AI అయిన Gemini 3 Pro అత్యధికంగా 69శాతం ఖచ్చితత్వాన్ని సాధించింది. అయితే, ఇది కూడా 70శాతం గడపను దాటలేకపోయింది. ఓపెన్‌ఏఐ, ఆంత్రోపిక్‌, xAI వంటి ప్రముఖ సంస్థల AI మోడళ్లు దీనికంటే తక్కువ స్కోర్లు మాత్రమే సాధించాయి.

వివరాలు

ఫైనాన్స్‌, హెల్త్‌కేర్‌కు ప్రమాదమా?

దీన్నిబట్టి, భాషలో ప్రవాహం ఉండటం వేరు, నిజం చెప్పడం వేరు అన్న విషయం మరోసారి రుజువైంది. ఇతర AI పరీక్షలతో పోలిస్తే FACTS బెంచ్‌మార్క్‌ ప్రత్యేకత ఏమిటంటే,ఇది పనిని పూర్తి చేయడాన్ని కాదు, నిజంగా సమాచారం సరైనదేనా అనే అంశాన్ని కొలుస్తుంది. టెక్స్ట్‌ను సమ్మరీ చేయడం లేదా కోడ్‌ రాయడం కంటే, ఇచ్చే సమాధానం వాస్తవాలకు అనుగుణంగా ఉందా అనే ప్రశ్నను ఇది ముందుకు తెస్తుంది. ఫైనాన్స్‌, హెల్త్‌కేర్‌, న్యాయ రంగాలాంటి కీలక విభాగాల్లో ఇది ఎంతో ముఖ్యమని గూగుల్‌ స్పష్టం చేసింది. నమ్మకంగా చెప్పిన తప్పు సమాధానాల వల్ల తప్పు నిర్ణయాలు తీసుకునే పరిస్థితి ఏర్పడుతుందని,చట్టపరమైన సమస్యలు రావచ్చని, వాస్తవ నష్టం కూడా జరిగే అవకాశముందని హెచ్చరించింది.

వివరాలు

నాలుగు ప్రధాన అంశాలపై పరీక్షలు

ఈ FACTS Benchmark Suite‌ను గూగుల్‌లోని FACTS టీమ్‌,Kaggle భాగస్వామ్యంతో రూపొందించింది. ఇందులో నాలుగు ప్రధాన అంశాలపై పరీక్షలు నిర్వహించారు. మొదటిది,ట్రైనింగ్‌ సమయంలో నేర్చుకున్న సమాచారంతోనే ప్రశ్నలకు సమాధానం చెప్పగలిగే సామర్థ్యాన్ని పరీక్షించడం. రెండవది, వెబ్‌ నుంచి సరైన సమాచారం తీసుకుని ఉపయోగించే శోధన సామర్థ్యం. మూడవది, ఇచ్చిన డాక్యుమెంట్‌కే కట్టుబడి సమాధానం ఇవ్వగలిగే 'గ్రౌండింగ్‌' పరీక్ష. నాలుగవది, చార్ట్లు, డయాగ్రామ్‌లు,చిత్రాల వంటి మల్టీమోడల్‌ అంశాలను అర్థం చేసుకునే సామర్థ్యం. విభాగాల వారీగా చూస్తే ఫలితాల్లో భారీ తేడాలు కనిపించాయి. Gemini 3 Pro తర్వాత, Gemini 2.5 Pro, OpenAIకి చెందిన ChatGPT-5 సుమారు 62 శాతం ఖచ్చితత్వంతో నిలిచాయి.

వివరాలు

AI చాట్‌బాట్లు క్రమంగా మెరుగుపడుతున్నాయి

Claude 4.5 Opus సుమారు 51 శాతం, Grok 4 దాదాపు 54 శాతం మాత్రమే సాధించాయి. ముఖ్యంగా మల్టీమోడల్‌ టాస్కుల్లో చాలా మోడళ్లు 50 శాతం కన్నా తక్కువ స్కోర్లు సాధించాయి. చార్ట్‌ను తప్పుగా అర్థం చేసుకోవడం లేదా చిత్రంలో ఉన్న సంఖ్యను తప్పుగా తీసుకోవడం వినియోగదారుల దృష్టికి రాకుండా పోయే ప్రమాదం ఉందని నిపుణులు చెబుతున్నారు. మొత్తానికి, గూగుల్‌ ఇచ్చిన నిర్ధారణ ఆందోళన కలిగించేదిగా కాకుండా సమతూకంగా ఉంది. AI చాట్‌బాట్లు క్రమంగా మెరుగుపడుతున్నాయనీ, అనేక పనుల్లో ఉపయోగకరంగా ఉన్నాయనీ పేర్కొంది. అయితే, ఇప్పటివరకు మనుషుల పర్యవేక్షణ, బలమైన నియంత్రణలు, అలాగే ఆరోగ్యకరమైన అనుమానం అవసరమేనని గూగుల్‌ స్పష్టం చేసింది.