Google: AI చాట్బాట్లలో మూడు సమాధానాల్లో ఒకటి తప్పు.. గూగుల్ బెంచ్మార్క్లో బయటపడిన వాస్తవాలు
ఈ వార్తాకథనం ఏంటి
ఆర్టిఫిషియల్ ఇంటెలిజెన్స్(AI)చాట్బాట్ల విశ్వసనీయతపై గూగుల్ స్వయంగా చేసిన అధ్యయనం ఇప్పుడు చర్చనీయాంశంగా మారింది. తాము తాజాగా విడుదల చేసిన FACTS Benchmark Suite ద్వారా గూగుల్ చేసిన పరీక్షల్లో,ఆధునిక AI మోడళ్లు ఇప్పటికీ పూర్తిస్థాయిలో నిజాలను చెప్పలేకపోతున్నాయనే విషయం స్పష్టమైంది. గణాంకాల ప్రకారం, నేటి చాట్బాట్లు సగటున ప్రతి మూడు సమాధానాల్లో ఒకటి తప్పుగా ఇస్తున్నాయి. ముఖ్యంగా,అవి ఎంతో ఆత్మవిశ్వాసంతో మాట్లాడినప్పటికీ సమాచారం తప్పుగా ఉండటం గమనార్హం. ఈ పరీక్షల్లో గూగుల్ సొంత AI అయిన Gemini 3 Pro అత్యధికంగా 69శాతం ఖచ్చితత్వాన్ని సాధించింది. అయితే, ఇది కూడా 70శాతం గడపను దాటలేకపోయింది. ఓపెన్ఏఐ, ఆంత్రోపిక్, xAI వంటి ప్రముఖ సంస్థల AI మోడళ్లు దీనికంటే తక్కువ స్కోర్లు మాత్రమే సాధించాయి.
వివరాలు
ఫైనాన్స్, హెల్త్కేర్కు ప్రమాదమా?
దీన్నిబట్టి, భాషలో ప్రవాహం ఉండటం వేరు, నిజం చెప్పడం వేరు అన్న విషయం మరోసారి రుజువైంది. ఇతర AI పరీక్షలతో పోలిస్తే FACTS బెంచ్మార్క్ ప్రత్యేకత ఏమిటంటే,ఇది పనిని పూర్తి చేయడాన్ని కాదు, నిజంగా సమాచారం సరైనదేనా అనే అంశాన్ని కొలుస్తుంది. టెక్స్ట్ను సమ్మరీ చేయడం లేదా కోడ్ రాయడం కంటే, ఇచ్చే సమాధానం వాస్తవాలకు అనుగుణంగా ఉందా అనే ప్రశ్నను ఇది ముందుకు తెస్తుంది. ఫైనాన్స్, హెల్త్కేర్, న్యాయ రంగాలాంటి కీలక విభాగాల్లో ఇది ఎంతో ముఖ్యమని గూగుల్ స్పష్టం చేసింది. నమ్మకంగా చెప్పిన తప్పు సమాధానాల వల్ల తప్పు నిర్ణయాలు తీసుకునే పరిస్థితి ఏర్పడుతుందని,చట్టపరమైన సమస్యలు రావచ్చని, వాస్తవ నష్టం కూడా జరిగే అవకాశముందని హెచ్చరించింది.
వివరాలు
నాలుగు ప్రధాన అంశాలపై పరీక్షలు
ఈ FACTS Benchmark Suiteను గూగుల్లోని FACTS టీమ్,Kaggle భాగస్వామ్యంతో రూపొందించింది. ఇందులో నాలుగు ప్రధాన అంశాలపై పరీక్షలు నిర్వహించారు. మొదటిది,ట్రైనింగ్ సమయంలో నేర్చుకున్న సమాచారంతోనే ప్రశ్నలకు సమాధానం చెప్పగలిగే సామర్థ్యాన్ని పరీక్షించడం. రెండవది, వెబ్ నుంచి సరైన సమాచారం తీసుకుని ఉపయోగించే శోధన సామర్థ్యం. మూడవది, ఇచ్చిన డాక్యుమెంట్కే కట్టుబడి సమాధానం ఇవ్వగలిగే 'గ్రౌండింగ్' పరీక్ష. నాలుగవది, చార్ట్లు, డయాగ్రామ్లు,చిత్రాల వంటి మల్టీమోడల్ అంశాలను అర్థం చేసుకునే సామర్థ్యం. విభాగాల వారీగా చూస్తే ఫలితాల్లో భారీ తేడాలు కనిపించాయి. Gemini 3 Pro తర్వాత, Gemini 2.5 Pro, OpenAIకి చెందిన ChatGPT-5 సుమారు 62 శాతం ఖచ్చితత్వంతో నిలిచాయి.
వివరాలు
AI చాట్బాట్లు క్రమంగా మెరుగుపడుతున్నాయి
Claude 4.5 Opus సుమారు 51 శాతం, Grok 4 దాదాపు 54 శాతం మాత్రమే సాధించాయి. ముఖ్యంగా మల్టీమోడల్ టాస్కుల్లో చాలా మోడళ్లు 50 శాతం కన్నా తక్కువ స్కోర్లు సాధించాయి. చార్ట్ను తప్పుగా అర్థం చేసుకోవడం లేదా చిత్రంలో ఉన్న సంఖ్యను తప్పుగా తీసుకోవడం వినియోగదారుల దృష్టికి రాకుండా పోయే ప్రమాదం ఉందని నిపుణులు చెబుతున్నారు. మొత్తానికి, గూగుల్ ఇచ్చిన నిర్ధారణ ఆందోళన కలిగించేదిగా కాకుండా సమతూకంగా ఉంది. AI చాట్బాట్లు క్రమంగా మెరుగుపడుతున్నాయనీ, అనేక పనుల్లో ఉపయోగకరంగా ఉన్నాయనీ పేర్కొంది. అయితే, ఇప్పటివరకు మనుషుల పర్యవేక్షణ, బలమైన నియంత్రణలు, అలాగే ఆరోగ్యకరమైన అనుమానం అవసరమేనని గూగుల్ స్పష్టం చేసింది.