Kanini Thamizh 02

கணினி ஆய்வில் தமிழ் – 02

கணினி ஆய்வில் தமிழ் – 01

முந்தைய கட்டுரையில் தமிழ் மொழியை கணினியில் பயன்படுத்துவதில் உள்ள ‘எழுத்துரு’ பிரச்சனைகளை பார்த்தோம். ஒரு மொழியை எழுத்து வடிவத்திலோ ஒலி/ஒளி வடிவத்திலோ ஆராய்வதை “நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்” என்பார்கள். இதில் பல்வேறு வகையான ஆய்வுகள் அல்லது பயன்பாடுகள் இருக்கின்றன. அவை பின்வருமாறு..

    * இன்ஃபர்மேஷன் ரெட்ரீவல் (கூகுள் தேடு பொறி)
    * இன்ஃபர்மேஷன் எக்ச்டிராக்ஷன் (கூகுள் தேடு பொறியில் உள்ள இமேஜ் சர்ச் வசதி)
    * மெஷின் ட்ரான்ஸ்லேஷன்
(கூகுளில் உள்ள மொழிபெயர்ப்பு வசதி)
    * ட்ரான்சிலரேஷன்
(கூகுளில் உள்ள ஆங்கிலம் மூலம் தமிழ் தட்டச்சு செய்யும் முறை)

தகவல்கள் சேகரித்தல், எடுத்தல், மொழிபெயர்த்தல், ஆங்கிலத்தில் தமிழை எழுதி தமிழ் சொற்கள் பெறுதல் என இவ்வாறு சொல்லிக்கொண்டே போகலாம். இம்முறைகளை பற்றி ஒவ்வொன்றாக வரும் கட்டுரைகளில் பார்ப்போம். முதலில் ஒரு மொழியை ஆராய அதன் “மார்ஃபாலாஜி (சொல்லமைப்பு)” பற்றி அறிவது மிக்க அவசியம். மார்ஃபாலாஜி என்பது ஒரு மொழியின் சொற்களின் அமைப்பு பற்றி அறிவதாகும். அவ்வகையில் தமிழை, “மார்ஃபாலஜிகலி ரிச் லாங்குவேஜ் (வளமான சொல்லமைப்புடைய மொழி)” என்று சொல்வார்கள். அதாவது தமிழின் மொழி அமைப்பானது சொற்களின் விவரத்தை அறிய மிகவும் ஏதுவாக அமைந்துள்ளது. ஒரு சொற்களிலிருந்தே அது குறிக்கும் பால், காலம், வினை(செயல்) போன்றவற்றை எளிதில் அறியும் விதத்தில் தமிழ்மொழி அமைந்துள்ளது. அதை ஒரு எடுத்துக்காட்டுடன் பார்க்கலாம்.

“சீதா பாட்டு பாடுகிறாள்” என்ற வாக்கியத்தில் ‘பாடுகிறாள்’ என்ற வார்த்தையின் சொல்லமைப்பை நாம் இப்போது ஆராய்வோம். இதை தான் “மார்ஃபாலஜிகல் அனாலிசிஸ் (சொற்களை பிரித்தாராய்தல்)” என்பார்கள்.

சொல்லமைப்பை ஆராயும் முன் அச்சொலைப் பிரித்து எழுதுதல் வேண்டும். பாடுகிறாள்= பாடு+கிறு+ஆள். “பாடு”என்ற சொல் உள்ளதால் இச்சொல் வினைச்சொல் ஆகிறது. “ஆள்” என்று முடிவதால் பெண் பால் ஆகிறது.

இதையே நாம் ஆங்கிலத்தில் பார்ப்போம். “Seetha is singing”. “Singing” என்ற சொல்லில் இருந்து சீதா என்ற பெயர்ச்சொல் ஆண் பாலா, பெண்பாலா என்று கணினியால் கணிக்க முடியாது. அதனால் தான் தமிழை வளமான சொல்லமைப்புடைய மொழி என்கிறோம்.

மேலே சொல்லப்பட்டுள்ள வாக்கியத்தை கணினி கொண்டு ஆராய பல விதிகள் கணினிக்கு நாம் அளிக்க வேண்டும். உதாரணத்திற்கு “கிறு” என்ற வார்த்தை வந்தால் வினைச்சொல்லாக விடையளி போன்ற விதிகள் கணினிக்கு நாம் கொடுக்க வேண்டும். விதிகள் பொதுவானதாகவும் அனைத்து வார்த்தைகளையும் பிரித்தாராயும் திறன் வாய்ந்ததாக இருத்தல் வேண்டும். ஏனெனில் தமிழ் வாக்கியங்கள்/வார்த்தைகள் பல அமைப்புகளை கொண்டது. அனைத்து அமைப்புகளையும் விதிகள் அரவணைத்தல் வேண்டும். விதிகளை மொழி ஆராய்ச்சியாளர் (Linguist) உருவாக்குவார். கணினி பொறியாளர்/ஆய்வாளர் அதை கணினி மொழி மூலம் கணினியில் இணைப்பார்.

இம்மாதிரியான மார்ஃபலஜிகல் அனாலிசிஸ், கூகுள் போன்ற தேடு பொறியில் நாம் தருகிற கேள்விக்கேற்ப (query) தகுந்த ஆவணங்களை அளித்தல், கணினி மூலம் வேறு மொழியில் மொழி பெயர்த்தல் என பல வகையில் பயன்படுகிறது. இது போன்று தமிழ் மொழியை கணினியில் ஆராய்வதில் உள்ள தகவல்களை அடுத்த கட்டுரையில் பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 03

Comments

comments




Leave a Reply

Your email address will not be published.