Shadow

கணினி ஆய்வில் தமிழ் – 04

கணினி ஆய்வில் தமிழ் – 03

சென்ற வாரம் மெஷின் ட்ரான்ஸ்லேஷன் பற்றி பார்த்தோம். இந்த வாரம் அனஃபோரா அனாலிசிஸ் (anaphora analysis) மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (named entity recognition) பற்றி பார்ப்போம். முதலில் அனஃபோரா பற்றி பார்போம். அனஃபோரா அனாலிசிசை ப்ரோநெளன் ரெசல்யூஷன்  (pronoun resolution) என்றும் சொல்வார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம்.

“சூரபத்மன் முருகனால் கொல்லப்பட்டான். அவன் மிகவும் கொடியவன்.”

இரண்டாம் வாக்கியத்தில் உள்ள “அவன்” என்கிற சொல் சூரபத்மனைத்தான் குறிக்கிறது என நாம் அறிவோம். கணினிக்கு அதை தெரிவிப்பது கடினம். அதாவது வாக்கியங்களில் வரும் ப்ரோனவுன் முந்தைய வாக்கியங்களில் உள்ள தகுந்த பெயர்ச் சொல்லை சரியாக கணினியால் எடுத்துக் கொள்ள வைப்பதை அனஃபோரா அனாலிசிஸ் (அ) ப்ரோநெளன் ரெசல்யூஷன் என்கிறோம். இதே போல் ப்ரோநெளன் பின்வரும் வாக்கியங்களில் உள்ள பெயர்ச்சொல்லை கணினி எடுத்துக் கொண்டால், கேட்டஃபோரா அனாலிசிஸ் (cataphora analysis) என்பார்கள். மேலே சொல்லப்பட்டுள்ள எடுத்துக்காட்டை பார்த்தோமேயானால் “அவன்” என்ற அனஃபோரா முந்தைய வாக்கியத்தில் உள்ள முருகனை குறிக்கவேண்டுமா அல்லது சூரபத்மனை குறிக்க வேண்டுமா என்ற முடிவை கணினி எடுப்பது கடினம். ஏனென்றால் சூரபத்மன் என்பவன் கொடியன்; முருகன் நல்லவன் என்பன போன்ற தெளிவான விதிகளை கணினிக்கு அளிப்பது கடினம். அனஃபோரா அனாலிசிசில் பெரும்பாலும் “அவன்” என்ற வார்த்தைக்கு மிக அருகில் இருக்கும் பெயர்ச்சொல்லையே குறிக்குமாறு கணினிக்கு விதி எழுதுவார்கள். அப்படி விதி இருந்தால் “அவன்” என்ற சொல் முருகனைக் குறித்து தவறான முடிவைத்தரும். இருப்பினும் அனஃபோரா அனாலிசிஸ் நூறு சதவீத சரியான விடையை தருவது கடினம். ஏனெனில் அனஃபோரா என்பது இன்னமும் தமிழ் மட்டுமல்லாமல் பல மொழிகளிலும் தீர்க்கப்படாத ஒரு பிரச்சனையாகவே இருக்கிறது. ஆய்வுகள் பல இத்துறையில் நடந்து கொண்டிருக்கின்றன.

அனஃபோரா அனாலிசிஸ் கூகுள்  போன்ற தேடு பொறிகளுக்கு மிகவும் இன்றியமையாத ஒன்று. வலைப் பக்கங்களை இன்டெக்ஸ் (index) செய்வார்கள். அதாவது முக்கியமான வார்த்தைகளை ஒரு பக்கத்தில் தேர்ந்தெடுத்து அப்பக்கத்தை டேட்டா பேசில் (database)வைத்திருப்பார்கள். உதாரணத்திற்கு ‘சென்னை’ என்று தேடு பொறியில் தேடினால், சென்னை என்கிற வார்த்தை எந்தெந்த ஆவணங்களில் இடம் பெற்றிருக்கிறது, எத்தனை முறை வந்திருக்கிறது போன்ற தகவல்களை டேட்டா பேசில் வைத்திருப்பார்கள். நாம் கூகுளில் க்வெரி (query)கொடுக்கும் போது இந்த இன்டெக்ஸ் (index)செய்யப்பட்ட வார்த்தைகள் மூலமாகவே அப்பக்கம் பயனருக்கு தரப்படுகிறது. அதை போன்ற முக்கியமான வார்த்தைகளை தேர்ந்தெடுக்க பல வழிகள் உள்ளன. அதில் ஒன்று, ஒரு வார்த்தை அதிகமான முறை ஒரு பக்கத்தில் இடம் பெற்றிருந்தால் அதை முக்கியமென எடுத்துக் கொள்ளலாம். சென்னையை பற்றிய விக்கிபீடியா பக்கத்தை எடுத்துக் கொள்வோம். அப்பக்கத்தில் சென்னையை “இந்நகரம்”, “மாநகரம்” என்று ப்ரோநெளன் மூலமாக சென்னையை விளக்கியிருந்தால் “சென்னை” என்கிற வார்த்தையின் முக்கியத்துவம் குறையக்கூடும். அம்மாதிரியான இடங்களில் அனஃபோரா அவசியம். அனஃபோரா அனாலிசிசில் சிக்கல்கள் இருந்த போதிலும் கூகுள் சிறப்பாக இயங்குகிறது. ஆனால் மேலும் சிறப்பாக இயங்க அனஃபோரா பற்றிய சிறந்த ஆய்வுகள் வெளிவர வேண்டும்.

நேம்ட் என்டிட்டி ரெகக்னிஷன் (named entity recognition) பற்றி சுருக்கமாக பார்ப்போம். அதாவது பெயர், இடம், தேதி, நேரம், பணம் போன்றவற்றை நேம்ட் என்டிட்டி என்பார்கள். ஒரு வலைப் பக்கத்தை இன்டக்ஸ்(index) செய்யும்பொழுது நேம்ட் என்டிட்டிக்கு முக்கியத்துவம் தருவது அவசியம். இவற்றை கண்டுபிடிப்பதற்கு பல முறைகள் உள்ளன. ஆங்கிலத்தில் நேம்ட் என்டிட்டிக்கள் காப்பிட்டல் (capital)எழுத்தகளில் இருக்கும். அதனால் ஆங்கிலத்தில் கண்டு பிடிப்பது சுலபம். தமிழில் அப்படி இல்லை; ஆகையால் இதுபற்றிய ஆய்வுகள் செய்வதும்  தமிழை பொறுத்தவரை கடினமாகும். அடுத்த வாரம் இதுபோன்ற விபரங்களைப் பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 05

Leave a Reply