Kanini Thamizh 04

கணினி ஆய்வில் தமிழ் – 04

கணினி ஆய்வில் தமிழ் – 03

சென்ற வாரம் மெஷின் ட்ரான்ஸ்லேஷன் பற்றி பார்த்தோம். இந்த வாரம் அனஃபோரா அனாலிசிஸ் (anaphora analysis) மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (named entity recognition) பற்றி பார்ப்போம். முதலில் அனஃபோரா பற்றி பார்போம். அனஃபோரா அனாலிசிசை ப்ரோநெளன் ரெசல்யூஷன்  (pronoun resolution) என்றும் சொல்வார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம்.

“சூரபத்மன் முருகனால் கொல்லப்பட்டான். அவன் மிகவும் கொடியவன்.”

இரண்டாம் வாக்கியத்தில் உள்ள “அவன்” என்கிற சொல் சூரபத்மனைத்தான் குறிக்கிறது என நாம் அறிவோம். கணினிக்கு அதை தெரிவிப்பது கடினம். அதாவது வாக்கியங்களில் வரும் ப்ரோனவுன் முந்தைய வாக்கியங்களில் உள்ள தகுந்த பெயர்ச் சொல்லை சரியாக கணினியால் எடுத்துக் கொள்ள வைப்பதை அனஃபோரா அனாலிசிஸ் (அ) ப்ரோநெளன் ரெசல்யூஷன் என்கிறோம். இதே போல் ப்ரோநெளன் பின்வரும் வாக்கியங்களில் உள்ள பெயர்ச்சொல்லை கணினி எடுத்துக் கொண்டால், கேட்டஃபோரா அனாலிசிஸ் (cataphora analysis) என்பார்கள். மேலே சொல்லப்பட்டுள்ள எடுத்துக்காட்டை பார்த்தோமேயானால் “அவன்” என்ற அனஃபோரா முந்தைய வாக்கியத்தில் உள்ள முருகனை குறிக்கவேண்டுமா அல்லது சூரபத்மனை குறிக்க வேண்டுமா என்ற முடிவை கணினி எடுப்பது கடினம். ஏனென்றால் சூரபத்மன் என்பவன் கொடியன்; முருகன் நல்லவன் என்பன போன்ற தெளிவான விதிகளை கணினிக்கு அளிப்பது கடினம். அனஃபோரா அனாலிசிசில் பெரும்பாலும் “அவன்” என்ற வார்த்தைக்கு மிக அருகில் இருக்கும் பெயர்ச்சொல்லையே குறிக்குமாறு கணினிக்கு விதி எழுதுவார்கள். அப்படி விதி இருந்தால் “அவன்” என்ற சொல் முருகனைக் குறித்து தவறான முடிவைத்தரும். இருப்பினும் அனஃபோரா அனாலிசிஸ் நூறு சதவீத சரியான விடையை தருவது கடினம். ஏனெனில் அனஃபோரா என்பது இன்னமும் தமிழ் மட்டுமல்லாமல் பல மொழிகளிலும் தீர்க்கப்படாத ஒரு பிரச்சனையாகவே இருக்கிறது. ஆய்வுகள் பல இத்துறையில் நடந்து கொண்டிருக்கின்றன.

அனஃபோரா அனாலிசிஸ் கூகுள்  போன்ற தேடு பொறிகளுக்கு மிகவும் இன்றியமையாத ஒன்று. வலைப் பக்கங்களை இன்டெக்ஸ் (index) செய்வார்கள். அதாவது முக்கியமான வார்த்தைகளை ஒரு பக்கத்தில் தேர்ந்தெடுத்து அப்பக்கத்தை டேட்டா பேசில் (database)வைத்திருப்பார்கள். உதாரணத்திற்கு ‘சென்னை’ என்று தேடு பொறியில் தேடினால், சென்னை என்கிற வார்த்தை எந்தெந்த ஆவணங்களில் இடம் பெற்றிருக்கிறது, எத்தனை முறை வந்திருக்கிறது போன்ற தகவல்களை டேட்டா பேசில் வைத்திருப்பார்கள். நாம் கூகுளில் க்வெரி (query)கொடுக்கும் போது இந்த இன்டெக்ஸ் (index)செய்யப்பட்ட வார்த்தைகள் மூலமாகவே அப்பக்கம் பயனருக்கு தரப்படுகிறது. அதை போன்ற முக்கியமான வார்த்தைகளை தேர்ந்தெடுக்க பல வழிகள் உள்ளன. அதில் ஒன்று, ஒரு வார்த்தை அதிகமான முறை ஒரு பக்கத்தில் இடம் பெற்றிருந்தால் அதை முக்கியமென எடுத்துக் கொள்ளலாம். சென்னையை பற்றிய விக்கிபீடியா பக்கத்தை எடுத்துக் கொள்வோம். அப்பக்கத்தில் சென்னையை “இந்நகரம்”, “மாநகரம்” என்று ப்ரோநெளன் மூலமாக சென்னையை விளக்கியிருந்தால் “சென்னை” என்கிற வார்த்தையின் முக்கியத்துவம் குறையக்கூடும். அம்மாதிரியான இடங்களில் அனஃபோரா அவசியம். அனஃபோரா அனாலிசிசில் சிக்கல்கள் இருந்த போதிலும் கூகுள் சிறப்பாக இயங்குகிறது. ஆனால் மேலும் சிறப்பாக இயங்க அனஃபோரா பற்றிய சிறந்த ஆய்வுகள் வெளிவர வேண்டும்.

நேம்ட் என்டிட்டி ரெகக்னிஷன் (named entity recognition) பற்றி சுருக்கமாக பார்ப்போம். அதாவது பெயர், இடம், தேதி, நேரம், பணம் போன்றவற்றை நேம்ட் என்டிட்டி என்பார்கள். ஒரு வலைப் பக்கத்தை இன்டக்ஸ்(index) செய்யும்பொழுது நேம்ட் என்டிட்டிக்கு முக்கியத்துவம் தருவது அவசியம். இவற்றை கண்டுபிடிப்பதற்கு பல முறைகள் உள்ளன. ஆங்கிலத்தில் நேம்ட் என்டிட்டிக்கள் காப்பிட்டல் (capital)எழுத்தகளில் இருக்கும். அதனால் ஆங்கிலத்தில் கண்டு பிடிப்பது சுலபம். தமிழில் அப்படி இல்லை; ஆகையால் இதுபற்றிய ஆய்வுகள் செய்வதும்  தமிழை பொறுத்தவரை கடினமாகும். அடுத்த வாரம் இதுபோன்ற விபரங்களைப் பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 05

Comments

comments




28 thoughts on “கணினி ஆய்வில் தமிழ் – 04

  1. BookerRak

    sildenafil medana 50 mg
    viagra pills
    buying viagra london over counter
    [url=http://sildenafilcsj.com/index.html#]viagra without a doctor prescription[/url]
    can buy viagra bangladesh

  2. MichaelLob

    generico de sildenafil

    viagra going generic 2012
    [url=http://viagrahto.com/index.html#][/url]
    can you get viagra over the counter in the uk

Leave a Reply

Your email address will not be published.