ஒரு பிரம்மாண்டமான கட்டிடத்திற்கு அஸ்திவாரம் எவ்வளவு முக்கியமோ, அதேபோல்தான் ஏஐ எனப்படும் செயற்கை நுண்ணறிவிற்கு இந்த டேட்டா கலெக்ஷன் (தகவல் சேகரிப்பு) மற்றும் லேபிளிங் (அடையாளப்படுத்துதல்) அஸ்திவாரமாக இருக்கிறது. மேலோட்டமாகப் பார்த்தால் இது ஏதோ எண்களையும் படங்களையும் சேமிப்பது போலத் தோன்றும், ஆனால் இதன் பின்னால் ஒரு மிகப்பெரிய உழைப்பும் நுணுக்கமும் ஒளிந்திருக்கிறது.
டேட்டா கலெக்ஷன்: தகவல்களின் பெருங்கடல்
ஏஐ-க்குத் தேவையான தகவல்கள் எங்கிருந்து வருகின்றன? நாம் இணையத்தில் தேடும் தேடல்கள், சமூக வலைதளப் பதிவுகள், மருத்துவமனைப் பதிவேடுகள், வானிலை ஆய்வு மையத் தரவுகள் எனப் பல இடங்களிலிருந்து இவை திரட்டப்படுகின்றன.

-
மூன்று வகை தரவுகள்:
-
Structured Data: எக்செல் ஷீட் போல வரிசையாக அடுக்கப்பட்ட எண்கள் மற்றும் பெயர்கள்.
-
Unstructured Data: புகைப்படங்கள், வீடியோக்கள், மின்னஞ்சல்கள் மற்றும் ஆடியோ கோப்புகள். இவைதான் இன்று ஏஐ-க்கு அதிகத் தீனியாக இருக்கின்றன.
-
Synthetic Data: நிஜ உலகில் தகவல்கள் கிடைக்காதபோது, கணினிகளே உருவாக்கும் ‘செயற்கைத் தரவுகள்’. உதாரணமாக, விபத்துக்களைத் தவிர்க்கப் பழகும் தன்னாட்சி கார்களுக்கு (Self-driving cars) விபத்து நடப்பது போன்ற செயற்கை காட்சிகள் தரவுகளாகத் தரப்படுகின்றன.
-
லேபிளிங்: இயந்திரத்திற்குப் பாடம் சொல்லும் ஆசிரியர்கள்
வெறும் தகவல்களை இயந்திரத்திடம் கொட்டினால் அதற்கு ஒன்றும் புரியாது. “இந்த படத்தில் இருப்பது கார்”, “இந்த ஆடியோவில் பேசுவது தமிழ்”, “இந்த மின்னஞ்சல் ஒரு ஸ்பேம் (Spam)” என்று நாம் ஒவ்வொன்றாகச் சொல்லிக் கொடுக்க வேண்டும். இதைப் புரிய வைக்கப் பல நுணுக்கமான முறைகள் உள்ளன:
-
பவுண்டிங் பாக்ஸ் (Bounding Boxes): ஒரு புகைப்படத்தில் இருக்கும் மனிதர் அல்லது பொருளைச் சுற்றி ஒரு கட்டம் போட்டு அடையாளம் காட்டுவது.
-
செக்மென்டேஷன் (Segmentation): ஒரு படத்தில் உள்ள ஒவ்வொரு பிக்சலையும் (Pixel) பிரித்து, எது சாலை, எது நடைபாதை, எது மரம் என்று துல்லியமாகப் பிரித்துக் காட்டுவது. இது மருத்துவத் துறையில் ஸ்கேன் ரிப்போர்ட்டுகளை ஆய்வு செய்யப் பயன்படுகிறது.
-
சென்டிமென்ட் அனாலிசிஸ் (Sentiment Analysis): ஒரு மனிதன் கோபமாகப் பேசுகிறானா அல்லது மகிழ்ச்சியாகப் பேசுகிறானா என்று அவனது சொற்களை வைத்து லேபிள் செய்வது.
நிழல் உலகத் தொழிலாளர்கள்: டேட்டா லேபிளர்கள்
உலகம் முழுவதும் லட்சக்கணக்கான மனிதர்கள் கணினி முன்னால் அமர்ந்து, நாள் முழுவதும் படங்களுக்கு லேபிள் ஒட்டும் பணியைச் செய்து வருகின்றனர். ஆப்பிரிக்கா மற்றும் ஆசிய நாடுகளில் இருக்கும் பல இளைஞர்களுக்கு இது ஒரு மிகப்பெரிய வேலைவாய்ப்பாக மாறியுள்ளது. நாம் இன்று பயன்படுத்தும் ‘சாட் ஜிபிடி’ (ChatGPT) போன்ற ஏஐ மாடல்கள் இவ்வளவு புத்திசாலித்தனமாகப் பேசுவதற்குப் பின்னால், பல ஆயிரம் மனிதர்கள் செய்த லேபிளிங் உழைப்பு இருக்கிறது என்பதுதான் நிதர்சனம்.
எதிர்கால சவால்: தரவுகளின் தரம்
“Garbage In, Garbage Out” என்பது ஏஐ உலகில் ஒரு பிரபலமான பழமொழி. அதாவது, நீங்கள் குப்பையான அல்லது தவறான தகவல்களை ஏஐ-க்குக் கொடுத்தால், அது தரும் முடிவுகளும் குப்பையாகத்தான் இருக்கும்.
-
சார்பு நிலை (Bias): ஒரு குறிப்பிட்ட இனத்தையோ அல்லது பாலினத்தையோ சார்ந்த தகவல்களை மட்டுமே கொடுத்தால், ஏஐ-யும் ஒருதலைப்பட்சமாகவே முடிவெடுக்கும். இதைத் தவிர்க்கத் துல்லியமான மற்றும் நடுநிலையான லேபிளிங் இன்று மிகப்பெரிய சவாலாக இருக்கிறது.
2036-ஆம் ஆண்டில் ஏஐ மனிதர்களை விடப் பல மடங்கு புத்திசாலியாக இருந்தாலும், அதன் அடிப்படை அறிவுக்கு நாம் இன்று செய்துகொண்டிருக்கும் இந்த டேட்டா லேபிளிங் தான் ஆணிவேராக இருக்கும்.

Related Posts
ஐடி நிறுவனங்களின் ‘ஈகோ’ யுத்தம்: ரகசியங்களை காக்க நடக்கும் சட்டப் போராட்டம்!
மனித எல்லைகளுக்கு அப்பால்: ஏஐ எனும் சூப்பர்மேன் சக்தி!
டிஜிட்டல் மருத்துவர்: கிராமப்புறச் சுகாதாரப் புரட்சியில் ஏஐ-யின் விஸ்வரூபம்!