

“சூரபத்மன் முருகனால் கொல்லப்பட்டான். அவன் மிகவும் கொடியவன்.”
இரண்டாம் வாக்கியத்தில் உள்ள “அவன்” என்கிற சொல் சூரபத்மனைத்தான் குறிக்கிறது என நாம் அறிவோம். கணினிக்கு அதை தெரிவிப்பது கடினம். அதாவது வாக்கியங்களில் வரும் ப்ரோனவுன் முந்தைய வாக்கியங்களில் உள்ள தகுந்த பெயர்ச் சொல்லை சரியாக கணினியால் எடுத்துக் கொள்ள வைப்பதை அனஃபோரா அனாலிசிஸ் (அ) ப்ரோநெளன் ரெசல்யூஷன் என்கிறோம். இதே போல் ப்ரோநெளன் பின்வரும் வாக்கியங்களில் உள்ள பெயர்ச்சொல்லை கணினி எடுத்துக் கொண்டால், கேட்டஃபோரா அனாலிசிஸ் (cataphora analysis) என்பார்கள். மேலே சொல்லப்பட்டுள்ள எடுத்துக்காட்டை பார்த்தோமேயானால் “அவன்” என்ற அனஃபோரா முந்தைய வாக்கியத்தில் உள்ள முருகனை குறிக்கவேண்டுமா அல்லது சூரபத்மனை குறிக்க வேண்டுமா என்ற முடிவை கணினி எடுப்பது கடினம். ஏனென்றால் சூரபத்மன் என்பவன் கொடியன்; முருகன் நல்லவன் என்பன போன்ற தெளிவான விதிகளை கணினிக்கு அளிப்பது கடினம். அனஃபோரா அனாலிசிசில் பெரும்பாலும் “அவன்” என்ற வார்த்தைக்கு மிக அருகில் இருக்கும் பெயர்ச்சொல்லையே குறிக்குமாறு கணினிக்கு விதி எழுதுவார்கள். அப்படி விதி இருந்தால் “அவன்” என்ற சொல் முருகனைக் குறித்து தவறான முடிவைத்தரும். இருப்பினும் அனஃபோரா அனாலிசிஸ் நூறு சதவீத சரியான விடையை தருவது கடினம். ஏனெனில் அனஃபோரா என்பது இன்னமும் தமிழ் மட்டுமல்லாமல் பல மொழிகளிலும் தீர்க்கப்படாத ஒரு பிரச்சனையாகவே இருக்கிறது. ஆய்வுகள் பல இத்துறையில் நடந்து கொண்டிருக்கின்றன.
அனஃபோரா அனாலிசிஸ் கூகுள் போன்ற தேடு பொறிகளுக்கு மிகவும் இன்றியமையாத ஒன்று. வலைப் பக்கங்களை இன்டெக்ஸ் (index) செய்வார்கள். அதாவது முக்கியமான வார்த்தைகளை ஒரு பக்கத்தில் தேர்ந்தெடுத்து அப்பக்கத்தை டேட்டா பேசில் (database)வைத்திருப்பார்கள். உதாரணத்திற்கு ‘சென்னை’ என்று தேடு பொறியில் தேடினால், சென்னை என்கிற வார்த்தை எந்தெந்த ஆவணங்களில் இடம் பெற்றிருக்கிறது, எத்தனை முறை வந்திருக்கிறது போன்ற தகவல்களை டேட்டா பேசில் வைத்திருப்பார்கள். நாம் கூகுளில் க்வெரி (query)கொடுக்கும் போது இந்த இன்டெக்ஸ் (index)செய்யப்பட்ட வார்த்தைகள் மூலமாகவே அப்பக்கம் பயனருக்கு தரப்படுகிறது. அதை போன்ற முக்கியமான வார்த்தைகளை தேர்ந்தெடுக்க பல வழிகள் உள்ளன. அதில் ஒன்று, ஒரு வார்த்தை அதிகமான முறை ஒரு பக்கத்தில் இடம் பெற்றிருந்தால் அதை முக்கியமென எடுத்துக் கொள்ளலாம். சென்னையை பற்றிய விக்கிபீடியா பக்கத்தை எடுத்துக் கொள்வோம். அப்பக்கத்தில் சென்னையை “இந்நகரம்”, “மாநகரம்” என்று ப்ரோநெளன் மூலமாக சென்னையை விளக்கியிருந்தால் “சென்னை” என்கிற வார்த்தையின் முக்கியத்துவம் குறையக்கூடும். அம்மாதிரியான இடங்களில் அனஃபோரா அவசியம். அனஃபோரா அனாலிசிசில் சிக்கல்கள் இருந்த போதிலும் கூகுள் சிறப்பாக இயங்குகிறது. ஆனால் மேலும் சிறப்பாக இயங்க அனஃபோரா பற்றிய சிறந்த ஆய்வுகள் வெளிவர வேண்டும்.
‘நேம்ட் என்டிட்டி ரெகக்னிஷன்‘ (named entity recognition) பற்றி சுருக்கமாக பார்ப்போம். அதாவது பெயர், இடம், தேதி, நேரம், பணம் போன்றவற்றை நேம்ட் என்டிட்டி என்பார்கள். ஒரு வலைப் பக்கத்தை இன்டக்ஸ்(index) செய்யும்பொழுது நேம்ட் என்டிட்டிக்கு முக்கியத்துவம் தருவது அவசியம். இவற்றை கண்டுபிடிப்பதற்கு பல முறைகள் உள்ளன. ஆங்கிலத்தில் நேம்ட் என்டிட்டிக்கள் காப்பிட்டல் (capital)எழுத்தகளில் இருக்கும். அதனால் ஆங்கிலத்தில் கண்டு பிடிப்பது சுலபம். தமிழில் அப்படி இல்லை; ஆகையால் இதுபற்றிய ஆய்வுகள் செய்வதும் தமிழை பொறுத்தவரை கடினமாகும். அடுத்த வாரம் இதுபோன்ற விபரங்களைப் பார்ப்போம்.
வாழ்க தமிழ்! வளர்க தமிழ்!!
– சுபலலிதா