Search

கணினி ஆய்வில் தமிழ் – 03

கணினி ஆய்வில் தமிழ் – 02

சென்ற கட்டுரையில் “மார்பாலஜிகல் அனாலிசிஸ்” பற்றி பார்த்தோம். ‘நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்‘கில் பெரும்பாலான ஆய்வுகளின் முதல் படி மார்பாலஜிகல் அனாலிசிஸ் ஆகவே இருக்கும். ஏனெனில் எழுத்துக்களின்/வார்த்தைகளின்  உருவ அமைப்பை பற்றி முழுமையாக அறிந்து விட்டால் அதை உபயோகப்படுத்துவதற்கான வழிகளை எளிதில் ஆராய முடியும். இக்கட்டுரையில் வாக்கிய அமைப்பை பற்றி பார்ப்போம். இது மார்பாலஜிகல் அனாலிசிஸிற்கு அடுத்த படி ஆகும். கூகுளில் உள்ள மொழிபெயர்ப்பு வசதியை நீங்கள் பார்த்திருப்பீர்கள். இதனை மெஷின் ட்ரான்ஸ்லேஷன் என்று கூறுவார்கள். அதாவது கணினிக்கு கொடுக்கப்பட்ட விதிகளின் அடிப்படையில் கணினியே மொழிபெயர்ப்பதால் மெஷின் ட்ரான்ஸ்லேஷன் என சொல்கிறோம். நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் ஆய்வில் மிக கடினமான ஆய்வு மெஷின் ட்ரான்ஸ்லேஷன் தான். இத்துறையில் மிகப்பெரிய அளவில் ஆய்வுகள் நடந்துக் கொண்டிருக்கும் போதிலும் இன்னும் அசுர மாற்றங்கள் நிகழவில்லை என்பதே உண்மையாகும். கூகுளில், “Google translation ” என்று கொடுத்துப் பாருங்கள். தமிழ் மொழியை டிரான்ஸ்லேட் செய்யும் வசதி இன்னும் வரவில்லை. ட்ரான்சிலரேஷன்(transliteration) வசதி, கூகுளில் உள்ள ஆங்கிலம் மூலம் தமிழ் தட்டச்சு செய்யும் முறை வந்த போதிலும் மொழிபெயர்ப்பு(translation) வசதி இன்னும் கொடுக்கப்படவில்லை. நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்கில், “சிமான்டிக்(semantic) லெவல்” என்று சொல்வார்கள். அதாவது வாக்கியங்களில் உள்ள வார்த்தைகளை அப்படியே மொழி பெயர்க்காமல், வாக்கியங்களில் உள்ள வார்த்தைகளில் உள்ள பொருளை உள்வாங்கி எந்த மொழியில் மொழிபெயர்கிறோமோ அம்மொழியின் வாக்கிய அமைப்பையும் உணர்ந்து மொழிபெயர்ப்பது சிமான்டிக் லெவல் ஆகும். அதை ஒரு எடுத்துக்காட்டுடன் பார்க்கலாம்.

“பழத்தை ரகு சாப்பிட்டான் ” என்ற வாக்கியத்தை ஆங்கிலத்தில் அப்படியே மொழி பெயர்த்தால் “Fruit Ragu ate ” என்று வரும். சரியான முறையில் மொழிபெயர்க்க தமிழ் மொழியின் வாக்கிய அமைப்பையும், ஆங்கில மொழியின் வாக்கிய அமைப்பையும் நன்கு ஆராய்ந்து மொழிபெயர்க்க வேண்டும். “பார்சிங்(Parsing) ” என்றொரு முறை உள்ளது. நாம் சிறு வயதில் ஆங்கில இலக்கணம் கற்கும் போது படித்திருப்போம். அதாவது ஒரு வாக்கியத்தை நவுன் ஃப்ரேஸ், வேர்ப் ஃப்ரேஸ் (noun phrase,  verb phrase) என அதில் வரும் பெயர்ச்சொல், வினைச்சொல் பிரித்துப் படித்திருப்போம். ஒரு எடுத்துக்காட்டுடன் பார்ப்போம்- “சீதா பாட்டு பாடினாள்”. இதை பார்சிங்கில் எப்படி கையாளுகிறோம் என பார்ப்போம்.

முதிலில் மேற்கூறியுள்ள வாக்கியத்தை இப்படி பிரிக்க வேண்டும். S=NP+VP (சீதா + பாட்டு பாடினாள்). NP என்றால் நவுன் ஃபிரேஸ். VP என்றால் வேர்ப் ஃபிரேஸ். இப்பொழுது NPயை NP=N(சீதா) என பிரிக்க வேண்டும் (N என்றால் நவுன்(பெயர்ச்சொல்), V என்றால் வேர்ப்(வினைச்சொல்)). அடுத்து VPயை  VP= N+V (பாட்டு+பாடினாள்) என பிரிக்க வேண்டும். இப்படி பல்வேறு வாக்கியங்களை பிரித்து ஆராய்ந்தோமேயானால் ஒரு மொழியின் வாக்கிய அமைப்பு விளங்கி விடும். மொழிபெயர்ப்பு செய்யும் போது இரண்டு மொழிகளின் வாக்கிய அமைப்பை பற்றி அறிவது மொழிபெயர்ப்பை அர்த்தமுள்ளது ஆக்கும். ஆனால் அப்படி செய்வது மிகக்கடினம். ஒவ்வொரு மொழியும் மற்ற மொழியிலிருந்து வாக்கிய அமைப்பில் மாறுபட்டு உள்ளது. ஆகவே தான் இத்துறையில் ஆய்வு செய்வதற்கான விஷயங்கள் நிறைய உள்ளன. தமிழை எடுத்துக் கொண்டோமேயானால், ”Partially free word order language’ என்று சொல்வார்கள். ஒரு எடுத்துக்காட்டுடன் இதைப் பார்ப்போம்.

“ரகு பழத்தை சாப்பிட்டான்” என்றாலும் பழத்தை ரகு சாப்பிட்டான்” என்றாலும் ஒரே அர்த்தத்தை தான் தருகிறது. அதாவது பெயர்ச்சொல்லின் இடம் வாக்கியத்தில் எங்கு வேண்டுமானாலும் தமிழில் வரலாம் இம்மாதிரியான சிக்கல்கள் இருப்பதாலும் தமிழை மெஷின் ட்ரான்ஸ்லேஷன் செய்வது கடினமாக உள்ளது. இது போன்ற மற்ற தகவல்களை அடுத்த கட்டுரையில் பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 04




Leave a Reply