செயற்கை நுண்ணறிவுத் தொழில்நுட்பம் இன்று அடுத்தடுத்த கட்டங்களை நோக்கி அசுர வேகத்தில் நகர்ந்து கொண்டிருக்கிறது. எழுத்து, படம், ஒலி எனப் பல்வேறு வகையான தரவுகளை ஒரே நேரத்தில் உள்வாங்கிச் செயலாற்றும் ‘மல்டிமாடல் ஏஐ’ (Multimodal AI) சிஸ்டம்கள் இதில் மிக முக்கியமானவை. ஆனால், மனிதர்களைப் போலவே இந்த ஏஐ சிஸ்டம்களும் இதுவரை எழுத்துக்களை விடப் படங்களுக்கு அதிக முக்கியத்துவம் கொடுக்கும் ஒரு பக்கச்சார்பான (Modality Imbalance) போக்கைக் கொண்டிருந்தன. இந்தத் தடையை உடைத்து, எழுத்தையும் படத்தையும் சமமாகப் பாவித்து துல்லியமான முடிவுகளை வழங்கும் புதிய பயிற்சி முறையை ஆராய்ச்சியாளர்கள் இப்போது கண்டறிந்துள்ளனர்.
தரவு சமநிலையின்மை: ஏஐ எதிர்கொண்ட சவால்
மனிதர்களாகிய நாம் ஒரு விஷயத்தைப் புரிந்துகொள்ளும்போது, பெரும்பாலும் எழுத்துப்பூர்வமான தகவல்களை விடக் காட்சிப் பதிவுகளுக்கே (Visuals) அதிக முன்னுரிமை கொடுக்கிறோம். இதேபோன்ற ஒரு போக்கு மல்டிமாடல் ஏஐ சிஸ்டம்களிடமும் காணப்பட்டது.

தரவுகளைப் பகுப்பாய்வு செய்யும்போது, அவை படங்களுக்கு அதிக முக்கியத்துவம் கொடுத்து, அதோடு இணைக்கப்பட்டிருக்கும் முக்கியமான எழுத்துப்பூர்வமான சூழலை (Textual context) சில நேரங்களில் கோட்டை விட்டுவிடுகின்றன. இதனால், ஏஐ வழங்கும் முடிவுகளில் துல்லியம் குறைவதோடு, சில சமயங்களில் தவறான கணிப்புகளும் உருவாகின்றன. குறிப்பாக, எழுத்து வடிவத் தரவுகள் மிக அவசியமாகத் தேவைப்படும் இடங்களில் இந்தச் சார்புநிலை பெரும் முட்டுக்கட்டையாக இருந்தது.
KAIST ஆராய்ச்சியாளர்களின் புதிய பயிற்சி முறை
இந்தச் சவாலுக்குத் தீர்வாக, கொரியா மேம்பட்ட அறிவியல் மற்றும் தொழில்நுட்பக் கழகத்தின் (KAIST) ஆராய்ச்சியாளர்கள் ஒரு புதுமையான தரவுப் பெருக்குதல் (Data augmentation) முறையை உருவாக்கியுள்ளனர்.
இதன்படி, ஏஐ மாடல்களுக்குப் பயிற்சி அளிக்கும்போது ஒன்றோடொன்று தொடர்புடைய தர ஜோடிகளுடன் (Aligned data pairs), வேண்டுமென்றே முரண்பாடான அர்த்தங்களைக் கொண்ட தர ஜோடிகளையும் (Misaligned data pairs) கலந்து வழங்குகின்றனர். இந்த முரண்பாடான சூழல், ஏஐ மாடலை எந்த ஒரு குறிப்பிட்ட தரவின் பக்கமும் சாயாமல், எழுத்து, படம், ஒலி ஆகிய அனைத்து உள்ளீடுகளையும் சமமாகப் பார்க்கக் கட்டாயப்படுத்துகிறது. இதன் மூலம், சூழல் எதுவாக இருந்தாலும் அனைத்துத் தரவுகளையும் சம எடைக் கொண்டு துல்லியமாக ஒருங்கிணைக்க ஏஐ பழகிக்கொள்கிறது.
வடிவமைப்பு மற்றும் உள்ளடக்க உருவாக்கத்தில் ஏற்படும் மாற்றங்கள்
எழுத்தையும் படத்தையும் ஏஐ சமமாகப் புரிந்துகொள்ளத் தொடங்குவது, டிஜிட்டல் உள்ளடக்க உருவாக்கத்தில் (Content Creation) பிரம்மாண்ட மாற்றங்களை ஏற்படுத்தப் போகிறது.
-
மேம்பட்ட உள்ளடக்க உருவாக்கம்: மார்க்கெட்டிங், கல்வி மற்றும் பொழுதுபோக்குத் துறைகளில், சூழலுக்குப் பொருத்தமான மற்றும் தெளிவான மல்டிமீடியா உள்ளடக்கங்களை ஏஐ மூலம் மிக எளிதாக உருவாக்க முடியும்.
-
அனைவருக்குமான அணுகல் (Accessibility): பார்வைக் குறைபாடு அல்லது கேட்டல் குறைபாடு உள்ளவர்களுக்குத் தேவையான விளக்க உரை மற்றும் காட்சி வடிவங்களைச் சமச்சீராக உருவாக்கித் தர இந்தத் தொழில்நுட்பம் உதவும்.
-
துல்லியமான தரவுப் பகுப்பாய்வு: மருத்துவ இமேஜிங் (Medical imaging) அல்லது அறிவியல் ஆராய்ச்சிகளில், ஒரு நோயாளியின் ஸ்கேன் அறிக்கையையும், அதுகுறித்த மருத்துவரின் எழுத்துப்பூர்வமான குறிப்புகளையும் ஏஐ சமமாக ஆராய்ந்து மிகத் துல்லியமான முடிவுகளை வழங்கும்.
சமச்சீர் மல்டிமாடல் ஏஐ-ன் நிஜ உலகக் கருவிகள்
இந்த அதிநவீனப் பயிற்சி முறைகளின் பலனைப் பயனர்கள் நேரடியாக அனுபவிக்கும் வகையில் ‘பிக்சல்டோஜோ’ (PixelDojo) தளம் சில மேம்பட்ட கருவிகளை வழங்கி வருகிறது:
மல்டிமாடல் ஏஐ மாடல்களில் எழுத்துக்கும் படத்துக்கும் சமமான முக்கியத்துவம் அளிக்கும் இந்தத் தொழில்நுட்ப நகர்வு, ஏஐ-ன் பரிணாம வளர்ச்சியில் ஒரு முக்கிய மைல்கல். இந்தத் தொழில்நுட்பம் மேலும் முதிர்ச்சியடையும் போது, மனித மூளையைப் போலவே சூழலைப் புரிந்துகொண்டு, இன்னும் சிக்கலான மற்றும் ஆக்கப்பூர்வமான மல்டிமீடியா உள்ளடக்கங்களை உருவாக்கும் திறன் கொண்ட அதிநவீன ஏஐ சிஸ்டம்களை நாம் காண முடியும். படைப்புத் துறை முதல் அறிவியல் ஆராய்ச்சி வரை, அனைத்துத் தரவுகளையும் சமமாக மதிப்பிடும் ஏஐ-ன் வரவு மனிதகுலத்திற்குப் பெரும் துணையாக இருக்கும் என்பதில் ஐயமில்லை.

Related Posts
கூகுளின் ‘லிட்டில் செஃப்’: தொழில்நுட்ப உலகில் புரட்சியை ஏற்படுத்தும் ‘ரெமி’ AI ஏஜென்ட்!
தடுமாறும் சட்டங்கள்.. தடம் மாறும் AI!
AI ஏஜெண்டுகள்: கட்டுக்கடங்காத வேகமா அல்லது கண்காணிக்கப்படும் வளர்ச்சியா?