May 26, 2026

Namma Multimedia

The gold mine of tomorrow's world

எழுத்தையும் படத்தையும் சமமாகப் பார்க்கும் மல்டிமாடல் ஏஐ: தொழில்நுட்ப உலகின் புதிய மைல்கல்!

செயற்கை நுண்ணறிவுத் தொழில்நுட்பம் இன்று அடுத்தடுத்த கட்டங்களை நோக்கி அசுர வேகத்தில் நகர்ந்து கொண்டிருக்கிறது. எழுத்து, படம், ஒலி எனப் பல்வேறு வகையான தரவுகளை ஒரே நேரத்தில் உள்வாங்கிச் செயலாற்றும் ‘மல்டிமாடல் ஏஐ’ (Multimodal AI) சிஸ்டம்கள் இதில் மிக முக்கியமானவை. ஆனால், மனிதர்களைப் போலவே இந்த ஏஐ சிஸ்டம்களும் இதுவரை எழுத்துக்களை விடப் படங்களுக்கு அதிக முக்கியத்துவம் கொடுக்கும் ஒரு பக்கச்சார்பான (Modality Imbalance) போக்கைக் கொண்டிருந்தன. இந்தத் தடையை உடைத்து, எழுத்தையும் படத்தையும் சமமாகப் பாவித்து துல்லியமான முடிவுகளை வழங்கும் புதிய பயிற்சி முறையை ஆராய்ச்சியாளர்கள் இப்போது கண்டறிந்துள்ளனர்.

தரவு சமநிலையின்மை: ஏஐ எதிர்கொண்ட சவால்

மனிதர்களாகிய நாம் ஒரு விஷயத்தைப் புரிந்துகொள்ளும்போது, பெரும்பாலும் எழுத்துப்பூர்வமான தகவல்களை விடக் காட்சிப் பதிவுகளுக்கே (Visuals) அதிக முன்னுரிமை கொடுக்கிறோம். இதேபோன்ற ஒரு போக்கு மல்டிமாடல் ஏஐ சிஸ்டம்களிடமும் காணப்பட்டது.

தரவுகளைப் பகுப்பாய்வு செய்யும்போது, அவை படங்களுக்கு அதிக முக்கியத்துவம் கொடுத்து, அதோடு இணைக்கப்பட்டிருக்கும் முக்கியமான எழுத்துப்பூர்வமான சூழலை (Textual context) சில நேரங்களில் கோட்டை விட்டுவிடுகின்றன. இதனால், ஏஐ வழங்கும் முடிவுகளில் துல்லியம் குறைவதோடு, சில சமயங்களில் தவறான கணிப்புகளும் உருவாகின்றன. குறிப்பாக, எழுத்து வடிவத் தரவுகள் மிக அவசியமாகத் தேவைப்படும் இடங்களில் இந்தச் சார்புநிலை பெரும் முட்டுக்கட்டையாக இருந்தது.

KAIST ஆராய்ச்சியாளர்களின் புதிய பயிற்சி முறை

இந்தச் சவாலுக்குத் தீர்வாக, கொரியா மேம்பட்ட அறிவியல் மற்றும் தொழில்நுட்பக் கழகத்தின் (KAIST) ஆராய்ச்சியாளர்கள் ஒரு புதுமையான தரவுப் பெருக்குதல் (Data augmentation) முறையை உருவாக்கியுள்ளனர்.

இதன்படி, ஏஐ மாடல்களுக்குப் பயிற்சி அளிக்கும்போது ஒன்றோடொன்று தொடர்புடைய தர ஜோடிகளுடன் (Aligned data pairs), வேண்டுமென்றே முரண்பாடான அர்த்தங்களைக் கொண்ட தர ஜோடிகளையும் (Misaligned data pairs) கலந்து வழங்குகின்றனர். இந்த முரண்பாடான சூழல், ஏஐ மாடலை எந்த ஒரு குறிப்பிட்ட தரவின் பக்கமும் சாயாமல், எழுத்து, படம், ஒலி ஆகிய அனைத்து உள்ளீடுகளையும் சமமாகப் பார்க்கக் கட்டாயப்படுத்துகிறது. இதன் மூலம், சூழல் எதுவாக இருந்தாலும் அனைத்துத் தரவுகளையும் சம எடைக் கொண்டு துல்லியமாக ஒருங்கிணைக்க ஏஐ பழகிக்கொள்கிறது.

வடிவமைப்பு மற்றும் உள்ளடக்க உருவாக்கத்தில் ஏற்படும் மாற்றங்கள்

எழுத்தையும் படத்தையும் ஏஐ சமமாகப் புரிந்துகொள்ளத் தொடங்குவது, டிஜிட்டல் உள்ளடக்க உருவாக்கத்தில் (Content Creation) பிரம்மாண்ட மாற்றங்களை ஏற்படுத்தப் போகிறது.

  • மேம்பட்ட உள்ளடக்க உருவாக்கம்: மார்க்கெட்டிங், கல்வி மற்றும் பொழுதுபோக்குத் துறைகளில், சூழலுக்குப் பொருத்தமான மற்றும் தெளிவான மல்டிமீடியா உள்ளடக்கங்களை ஏஐ மூலம் மிக எளிதாக உருவாக்க முடியும்.

  • அனைவருக்குமான அணுகல் (Accessibility): பார்வைக் குறைபாடு அல்லது கேட்டல் குறைபாடு உள்ளவர்களுக்குத் தேவையான விளக்க உரை மற்றும் காட்சி வடிவங்களைச் சமச்சீராக உருவாக்கித் தர இந்தத் தொழில்நுட்பம் உதவும்.

  • துல்லியமான தரவுப் பகுப்பாய்வு: மருத்துவ இமேஜிங் (Medical imaging) அல்லது அறிவியல் ஆராய்ச்சிகளில், ஒரு நோயாளியின் ஸ்கேன் அறிக்கையையும், அதுகுறித்த மருத்துவரின் எழுத்துப்பூர்வமான குறிப்புகளையும் ஏஐ சமமாக ஆராய்ந்து மிகத் துல்லியமான முடிவுகளை வழங்கும்.

சமச்சீர் மல்டிமாடல் ஏஐ-ன் நிஜ உலகக் கருவிகள்

இந்த அதிநவீனப் பயிற்சி முறைகளின் பலனைப் பயனர்கள் நேரடியாக அனுபவிக்கும் வகையில் ‘பிக்சல்டோஜோ’ (PixelDojo) தளம் சில மேம்பட்ட கருவிகளை வழங்கி வருகிறது:

ஏஐ கருவி அதன் முதன்மைச் செயல்பாடு
கூகுள் நேனோ பனானா (Google Nano Banana) கூகுளின் அட்வான்ஸ்டு ஏஐ மாடல்கள் மூலம் இயங்கும் இக்கருவி, பல படங்களை ஒன்றாக இணைக்கவும் (Multi-image fusion), எடிட் செய்யவும் உதவுகிறது.
ஜிபிடி இமேஜ் 2 (GPT Image 2) ஓபன்ஏஐ-ன் தொழில்நுட்பத்தில் உருவான இக்கருவி, 4K தரத்திலான படங்களை உருவாக்குவதோடு, அந்தப் படங்களுக்குள் எழுத்துக்களை மிகத் தெளிவாகவும் துல்லியமாகவும் பொறிக்கிறது.
க்வென் இமேஜ் 2 (QWEN Image 2) பல படங்களை இணைத்தல், துல்லியமான டெக்ஸ்ட் ரெண்டரிங் மற்றும் ஒரு படத்தின் பாணியை இன்னொன்றுக்கு மாற்றும் ஸ்டைல் டிரான்ஸ்ஃபர் (Style transfer) போன்ற வசதிகளை இது வழங்குகிறது.

மல்டிமாடல் ஏஐ மாடல்களில் எழுத்துக்கும் படத்துக்கும் சமமான முக்கியத்துவம் அளிக்கும் இந்தத் தொழில்நுட்ப நகர்வு, ஏஐ-ன் பரிணாம வளர்ச்சியில் ஒரு முக்கிய மைல்கல். இந்தத் தொழில்நுட்பம் மேலும் முதிர்ச்சியடையும் போது, மனித மூளையைப் போலவே சூழலைப் புரிந்துகொண்டு, இன்னும் சிக்கலான மற்றும் ஆக்கப்பூர்வமான மல்டிமீடியா உள்ளடக்கங்களை உருவாக்கும் திறன் கொண்ட அதிநவீன ஏஐ சிஸ்டம்களை நாம் காண முடியும். படைப்புத் துறை முதல் அறிவியல் ஆராய்ச்சி வரை, அனைத்துத் தரவுகளையும் சமமாக மதிப்பிடும் ஏஐ-ன் வரவு மனிதகுலத்திற்குப் பெரும் துணையாக இருக்கும் என்பதில் ஐயமில்லை.

Spread the love
error: Content is protected !!