Microsoft: 'డీప్ఫేక్ వాయిస్లను' సృష్టిస్తున్న మైక్రోసాఫ్ట్ AI.. కాబట్టి అవి నిషేధించబడ్డాయి
మైక్రోసాఫ్ట్ ఒక AI స్పీచ్ జెనరేటర్, VALL-E 2ను అభివృద్ధి చేసింది. ఇది మానవ స్వరాలను అనుకరించే సామర్థ్యాన్ని కలిగి ఉంది. ఇది సామాన్య ప్రజలకు విడుదల చేయరు. arXivలో ప్రచురించబడిన ఒక పేపర్ ప్రకారం, టెక్స్ట్-టు-స్పీచ్ (TTS) జెనరేటర్ కేవలం కొన్ని సెకన్ల ఆడియోను ఉపయోగించి మానవ ప్రసంగాన్ని పునరుత్పత్తి చేయగలదు. పరిశోధకులు VALL-E 2ని "న్యూరల్ కోడెక్ లాంగ్వేజ్ మోడల్స్లో సరికొత్త పురోగతిగా అభివర్ణించారు. ఇది జీరో-షాట్ టెక్స్ట్-టు-స్పీచ్ సింథసిస్ (TTS)లో ఒక మైలురాయిని సూచిస్తుంది. ఇది మొదటిసారిగా మానవ సమానత్వాన్ని సాధించింది."
VALL-E 2 పనితీరు వెనుక ఉన్న ముఖ్య కారణాలు
VALL-E 2 అధిక-నాణ్యత స్పీచ్ సింథసిస్ రెండు ముఖ్య లక్షణాలకు ఆపాదించబడింది: "రిపీటీషన్ అవేర్ శాంప్లింగ్" ,"గ్రూప్డ్ కోడ్ మోడలింగ్." మునుపటిది భాషా యూనిట్ల పునరావృత్తులు, శబ్దాల అనంతమైన లూప్లు, పదబంధాలను నిరోధించడం ద్వారా AI టెక్స్ట్ని స్పీచ్గా మార్చడాన్ని మెరుగుపరుస్తుంది. రెండోది సీక్వెన్స్ నిడివిని తగ్గించడం, VALL-E 2 ఎంత త్వరగా స్పీచ్ని ఉత్పత్తి చేస్తుందో వేగవంతం చేయడం,పొడవైన తీగల శబ్దాలను ప్రాసెస్ చేయడంలో సమస్యలను నిర్వహించడం ద్వారా సామర్థ్యాన్ని పెంచుతుంది.
VALL-E 2 స్పీచ్ సింథసిస్లో మునుపటి AI సిస్టమ్లను అధిగమించింది
VALL-E 2 పనితీరును అంచనా వేయడానికి పరిశోధకులు LibriSpeech, VCTK స్పీచ్ లైబ్రరీలు, ELLA-V అనే మూల్యాంకన ఫ్రేమ్వర్క్ నుండి ఆడియో నమూనాలను ఉపయోగించారు. వారు "VALL-E 2 మునుపటి జీరో-షాట్ TTS సిస్టమ్లను స్పీచ్ పటిష్టత, సహజత్వం, స్పీకర్ సారూప్యతలలో అధిగమిస్తుంది," ఈ బెంచ్మార్క్లలో మానవ సమానత్వాన్ని చేరుకున్న మొదటి వ్యక్తిగా ఇది నిలిచింది. అయినప్పటికీ, VALL-E 2 అవుట్పుట్ నాణ్యత ప్రసంగ ప్రాంప్ట్ల పొడవు, నాణ్యత, నేపథ్య శబ్దం వంటి పర్యావరణ కారకాల ద్వారా ప్రభావితమవుతుంది.
దుర్వినియోగ ఆందోళనలపై Microsoft VALL-E 2ని నిలిపివేసింది
సామర్థ్యాలు ఉన్నప్పటికీ, మైక్రోసాఫ్ట్ దుర్వినియోగ ప్రమాదాల కారణంగా VALL-E 2ని ప్రజలకు అందించకూడదని నిర్ణయించుకుంది. ఈ నిర్ణయం వాయిస్ క్లోనింగ్, డీప్ఫేక్ టెక్నాలజీ చుట్టూ పెరుగుతున్న ఆందోళనలను ప్రతిధ్వనిస్తుంది. పరిశోధకులు ఒక బ్లాగ్ పోస్ట్లో "VALL-E 2 అనేది పూర్తిగా పరిశోధన ప్రాజెక్ట్. ప్రస్తుతం, VALL-E 2ని ఉత్పత్తిలో చేర్చడానికి లేదా ప్రజలకు ప్రాప్యతను విస్తరించడానికి మాకు ఎటువంటి ప్రణాళిక లేదు."
AI స్పీచ్ టెక్ కోసం సాధ్యమైన అప్లికేషన్లు
విద్య, వినోదం, జర్నలిజం, యాక్సెసిబిలిటీ ఫీచర్లు, అనువాదం, ఇంటరాక్టివ్ వాయిస్ రెస్పాన్స్ సిస్టమ్లు, చాట్బాట్లలో VALL-E 2 వంటి AI స్పీచ్ టెక్నాలజీ కోసం సంభావ్య అప్లికేషన్లను పరిశోధకులు సూచించారు. వాస్తవ ప్రపంచంలో కనిపించని స్పీకర్లకు మోడల్ సాధారణీకరించబడితే, స్పీకర్ వారి వాయిస్ వినియోగాన్ని ఆమోదించేలా ప్రోటోకాల్, సింథసైజ్డ్ స్పీచ్ డిటెక్షన్ మోడల్ను కలిగి ఉండాలని వారు పేర్కొన్నారు.