Skeleton key:AI సాధనాల్లో 'స్కెలిటన్ కీ' తస్కరణ తత్వం ఉంది. . మైక్రోసాఫ్ట్ జాగ్రత్త అప్రమత్తతో మెలగాలి
చట్టవిరుద్ధ కార్యకలాపాలలో చాట్బాట్లు సహాయం చేయకుండా నిరోధించడానికి పలు చర్యలు తీసుకుంటున్నారు. కానీ , భద్రతా చర్యలను తప్పించుకోవడానికి వినియోగదారులు వినూత్న మార్గాలను కనుగొన్నారు. దీంతో, AI కంపెనీలు కొత్త సవాలును ఎదుర్కొంటున్నాయి. ఈ సంవత్సరం ప్రారంభంలో, ఒక వైట్ హ్యాట్ హ్యాకర్ "గాడ్మోడ్" చాట్జిపిటి జైల్బ్రేక్ను కనుగొన్నాడు. ఇది చాట్బాట్ మెత్ , నాపాల్మ్ను ఉత్పత్తి చేయడంలో సహాయకారిగా వుంటుంది. ఈ సమస్యను OpenAI వెంటనే పరిష్కరించింది. అయినప్పటికీ, మైక్రోసాఫ్ట్ అజూర్ CTO మార్క్ రస్సినోవిచ్ ఇటీవల "స్కెలిటన్ కీ" అని పిలిచే మరొక జైల్బ్రేకింగ్ టెక్నిక్ను అంగీకరించారు.
'స్కెలిటన్ కీ' జైల్బ్రేక్: బహుళ-దశల వ్యూహం
"స్కెలిటన్ కీ" దాడి దాని ఆపరేటర్ల విధానాలను ఉల్లంఘించేలా సిస్టమ్ను మార్చటానికి బహుళ-దశల వ్యూహాన్ని ఉపయోగిస్తుంది. ఇది వినియోగదారునిచే ఎక్కువగా ప్రభావితమవుతుంది. హానికరమైన సూచనలను అమలు చేస్తుంది. ఒక సందర్భంలో, విద్యా భద్రత అనే తప్పుడు నెపంతో మోలోటోవ్ కాక్టెయిల్ను తయారు చేయడానికి సూచనలను జాబితా చేయమని ఒక వినియోగదారు చాట్బాట్ను అడిగారు.చాట్బాట్ ,గార్డ్రైల్లను సక్రియం చేశారు. వినియోగదారు , మోసపూరితమైన భద్రత దావాతో అవి దాటవేశారు. ప్రయోగ ఫలితాలు
ప్రముఖ చాట్బాట్లపై జైల్బ్రేక్ పరీక్షలు
OpenAI , GPT-4o, Meta's Llama3 , Anthropic's Claude 3 Opusతో సహా అనేక అధునాతన చాట్బాట్లపై Microsoft "స్కెలిటన్ కీ" జైల్బ్రేక్ను పరీక్షించింది. జైల్బ్రేక్ అన్ని మోడళ్లలో విజయవంతమైందని రుస్సినోవిచ్ వెల్లడించాడు, "జైల్బ్రేక్ అనేది మోడల్పైనే దాడి" అని సూచించడానికి దారితీసింది. పేలుడు పదార్థాలు, బయో ఆయుధాలు, రాజకీయ కంటెంట్, స్వీయ-హాని, జాత్యహంకారం, డ్రగ్స్, గ్రాఫిక్, సెక్స్, హింస వంటి వివిధ రిస్క్ , సేఫ్టీ కంటెంట్ కేటగిరీలలో ప్రతి మోడల్ పరీక్షించారని ఆయన స్పష్టం చేశారు.
AI కంపెనీలకు కొనసాగుతున్న సవాళ్లు
డెవలపర్లు "స్కెలిటన్ కీ" జైల్బ్రేక్ టెక్నిక్ని సూచిస్తున్నప్పటికీ, ఇతర పద్ధతులు ముఖ్యమైన ముప్పులను కలిగిస్తూనే ఉన్నాయి. గ్రేడీ కోఆర్డినేట్ గ్రేడియంట్ (BEAST) వంటి ప్రత్యర్థి దాడులు ఇప్పటికీ OpenAI వంటి కంపెనీలచే స్థాపించిన గార్డ్రైల్లను సులభంగా అధిగమించగలవు. ఈ నిరంతర సమస్య, AI కంపెనీలు తమ చాట్బాట్లు హానికరమైన సమాచారాన్ని వ్యాప్తి చేయకుండా నిరోధించడానికి గణనీయమైన స్థాయిలో పనిని కలిగి ఉన్నాయని తెలిపింది.