Skeleton key:AI సాధనాల్లో 'స్కెలిటన్ కీ' తస్కరణ తత్వం ఉంది. . మైక్రోసాఫ్ట్ జాగ్రత్త అప్రమత్తతో మెలగాలి

వ్రాసిన వారు Stalin

Jul 02, 2024

02:06 pm

ఈ వార్తాకథనం ఏంటి

చట్టవిరుద్ధ కార్యకలాపాలలో చాట్‌బాట్‌లు సహాయం చేయకుండా నిరోధించడానికి పలు చర్యలు తీసుకుంటున్నారు. కానీ , భద్రతా చర్యలను తప్పించుకోవడానికి వినియోగదారులు వినూత్న మార్గాలను కనుగొన్నారు. దీంతో, AI కంపెనీలు కొత్త సవాలును ఎదుర్కొంటున్నాయి. ఈ సంవత్సరం ప్రారంభంలో, ఒక వైట్ హ్యాట్ హ్యాకర్ "గాడ్‌మోడ్" చాట్‌జిపిటి జైల్‌బ్రేక్‌ను కనుగొన్నాడు. ఇది చాట్‌బాట్ మెత్ , నాపాల్మ్‌ను ఉత్పత్తి చేయడంలో సహాయకారిగా వుంటుంది. ఈ సమస్యను OpenAI వెంటనే పరిష్కరించింది. అయినప్పటికీ, మైక్రోసాఫ్ట్ అజూర్ CTO మార్క్ రస్సినోవిచ్ ఇటీవల "స్కెలిటన్ కీ" అని పిలిచే మరొక జైల్‌బ్రేకింగ్ టెక్నిక్‌ను అంగీకరించారు.

వివరాలు

'స్కెలిటన్ కీ' జైల్‌బ్రేక్: బహుళ-దశల వ్యూహం

"స్కెలిటన్ కీ" దాడి దాని ఆపరేటర్ల విధానాలను ఉల్లంఘించేలా సిస్టమ్‌ను మార్చటానికి బహుళ-దశల వ్యూహాన్ని ఉపయోగిస్తుంది. ఇది వినియోగదారునిచే ఎక్కువగా ప్రభావితమవుతుంది. హానికరమైన సూచనలను అమలు చేస్తుంది. ఒక సందర్భంలో, విద్యా భద్రత అనే తప్పుడు నెపంతో మోలోటోవ్ కాక్‌టెయిల్‌ను తయారు చేయడానికి సూచనలను జాబితా చేయమని ఒక వినియోగదారు చాట్‌బాట్‌ను అడిగారు.చాట్‌బాట్ ,గార్డ్‌రైల్‌లను సక్రియం చేశారు. వినియోగదారు , మోసపూరితమైన భద్రత దావాతో అవి దాటవేశారు. ప్రయోగ ఫలితాలు

వివరాలు

ప్రముఖ చాట్‌బాట్‌లపై జైల్‌బ్రేక్ పరీక్షలు

OpenAI , GPT-4o, Meta's Llama3 , Anthropic's Claude 3 Opusతో సహా అనేక అధునాతన చాట్‌బాట్‌లపై Microsoft "స్కెలిటన్ కీ" జైల్‌బ్రేక్‌ను పరీక్షించింది. జైల్‌బ్రేక్ అన్ని మోడళ్లలో విజయవంతమైందని రుస్సినోవిచ్ వెల్లడించాడు, "జైల్‌బ్రేక్ అనేది మోడల్‌పైనే దాడి" అని సూచించడానికి దారితీసింది. పేలుడు పదార్థాలు, బయో ఆయుధాలు, రాజకీయ కంటెంట్, స్వీయ-హాని, జాత్యహంకారం, డ్రగ్స్, గ్రాఫిక్, సెక్స్, హింస వంటి వివిధ రిస్క్ , సేఫ్టీ కంటెంట్ కేటగిరీలలో ప్రతి మోడల్ పరీక్షించారని ఆయన స్పష్టం చేశారు.

వివరాలు

AI కంపెనీలకు కొనసాగుతున్న సవాళ్లు

డెవలపర్‌లు "స్కెలిటన్ కీ" జైల్‌బ్రేక్ టెక్నిక్‌ని సూచిస్తున్నప్పటికీ, ఇతర పద్ధతులు ముఖ్యమైన ముప్పులను కలిగిస్తూనే ఉన్నాయి. గ్రేడీ కోఆర్డినేట్ గ్రేడియంట్ (BEAST) వంటి ప్రత్యర్థి దాడులు ఇప్పటికీ OpenAI వంటి కంపెనీలచే స్థాపించిన గార్డ్‌రైల్‌లను సులభంగా అధిగమించగలవు. ఈ నిరంతర సమస్య, AI కంపెనీలు తమ చాట్‌బాట్‌లు హానికరమైన సమాచారాన్ని వ్యాప్తి చేయకుండా నిరోధించడానికి గణనీయమైన స్థాయిలో పనిని కలిగి ఉన్నాయని తెలిపింది.