Kanini Thamizh 03

கணினி ஆய்வில் தமிழ் – 03

கணினி ஆய்வில் தமிழ் – 02

சென்ற கட்டுரையில் “மார்பாலஜிகல் அனாலிசிஸ்” பற்றி பார்த்தோம். ‘நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்‘கில் பெரும்பாலான ஆய்வுகளின் முதல் படி மார்பாலஜிகல் அனாலிசிஸ் ஆகவே இருக்கும். ஏனெனில் எழுத்துக்களின்/வார்த்தைகளின்  உருவ அமைப்பை பற்றி முழுமையாக அறிந்து விட்டால் அதை உபயோகப்படுத்துவதற்கான வழிகளை எளிதில் ஆராய முடியும். இக்கட்டுரையில் வாக்கிய அமைப்பை பற்றி பார்ப்போம். இது மார்பாலஜிகல் அனாலிசிஸிற்கு அடுத்த படி ஆகும். கூகுளில் உள்ள மொழிபெயர்ப்பு வசதியை நீங்கள் பார்த்திருப்பீர்கள். இதனை மெஷின் ட்ரான்ஸ்லேஷன் என்று கூறுவார்கள். அதாவது கணினிக்கு கொடுக்கப்பட்ட விதிகளின் அடிப்படையில் கணினியே மொழிபெயர்ப்பதால் மெஷின் ட்ரான்ஸ்லேஷன் என சொல்கிறோம். நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் ஆய்வில் மிக கடினமான ஆய்வு மெஷின் ட்ரான்ஸ்லேஷன் தான். இத்துறையில் மிகப்பெரிய அளவில் ஆய்வுகள் நடந்துக் கொண்டிருக்கும் போதிலும் இன்னும் அசுர மாற்றங்கள் நிகழவில்லை என்பதே உண்மையாகும். கூகுளில், “Google translation ” என்று கொடுத்துப் பாருங்கள். தமிழ் மொழியை டிரான்ஸ்லேட் செய்யும் வசதி இன்னும் வரவில்லை. ட்ரான்சிலரேஷன்(transliteration) வசதி, கூகுளில் உள்ள ஆங்கிலம் மூலம் தமிழ் தட்டச்சு செய்யும் முறை வந்த போதிலும் மொழிபெயர்ப்பு(translation) வசதி இன்னும் கொடுக்கப்படவில்லை. நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்கில், “சிமான்டிக்(semantic) லெவல்” என்று சொல்வார்கள். அதாவது வாக்கியங்களில் உள்ள வார்த்தைகளை அப்படியே மொழி பெயர்க்காமல், வாக்கியங்களில் உள்ள வார்த்தைகளில் உள்ள பொருளை உள்வாங்கி எந்த மொழியில் மொழிபெயர்கிறோமோ அம்மொழியின் வாக்கிய அமைப்பையும் உணர்ந்து மொழிபெயர்ப்பது சிமான்டிக் லெவல் ஆகும். அதை ஒரு எடுத்துக்காட்டுடன் பார்க்கலாம்.

“பழத்தை ரகு சாப்பிட்டான் ” என்ற வாக்கியத்தை ஆங்கிலத்தில் அப்படியே மொழி பெயர்த்தால் “Fruit Ragu ate ” என்று வரும். சரியான முறையில் மொழிபெயர்க்க தமிழ் மொழியின் வாக்கிய அமைப்பையும், ஆங்கில மொழியின் வாக்கிய அமைப்பையும் நன்கு ஆராய்ந்து மொழிபெயர்க்க வேண்டும். “பார்சிங்(Parsing) ” என்றொரு முறை உள்ளது. நாம் சிறு வயதில் ஆங்கில இலக்கணம் கற்கும் போது படித்திருப்போம். அதாவது ஒரு வாக்கியத்தை நவுன் ஃப்ரேஸ், வேர்ப் ஃப்ரேஸ் (noun phrase,  verb phrase) என அதில் வரும் பெயர்ச்சொல், வினைச்சொல் பிரித்துப் படித்திருப்போம். ஒரு எடுத்துக்காட்டுடன் பார்ப்போம்- “சீதா பாட்டு பாடினாள்”. இதை பார்சிங்கில் எப்படி கையாளுகிறோம் என பார்ப்போம்.

முதிலில் மேற்கூறியுள்ள வாக்கியத்தை இப்படி பிரிக்க வேண்டும். S=NP+VP (சீதா + பாட்டு பாடினாள்). NP என்றால் நவுன் ஃபிரேஸ். VP என்றால் வேர்ப் ஃபிரேஸ். இப்பொழுது NPயை NP=N(சீதா) என பிரிக்க வேண்டும் (N என்றால் நவுன்(பெயர்ச்சொல்), V என்றால் வேர்ப்(வினைச்சொல்)). அடுத்து VPயை  VP= N+V (பாட்டு+பாடினாள்) என பிரிக்க வேண்டும். இப்படி பல்வேறு வாக்கியங்களை பிரித்து ஆராய்ந்தோமேயானால் ஒரு மொழியின் வாக்கிய அமைப்பு விளங்கி விடும். மொழிபெயர்ப்பு செய்யும் போது இரண்டு மொழிகளின் வாக்கிய அமைப்பை பற்றி அறிவது மொழிபெயர்ப்பை அர்த்தமுள்ளது ஆக்கும். ஆனால் அப்படி செய்வது மிகக்கடினம். ஒவ்வொரு மொழியும் மற்ற மொழியிலிருந்து வாக்கிய அமைப்பில் மாறுபட்டு உள்ளது. ஆகவே தான் இத்துறையில் ஆய்வு செய்வதற்கான விஷயங்கள் நிறைய உள்ளன. தமிழை எடுத்துக் கொண்டோமேயானால், ”Partially free word order language’ என்று சொல்வார்கள். ஒரு எடுத்துக்காட்டுடன் இதைப் பார்ப்போம்.

“ரகு பழத்தை சாப்பிட்டான்” என்றாலும் பழத்தை ரகு சாப்பிட்டான்” என்றாலும் ஒரே அர்த்தத்தை தான் தருகிறது. அதாவது பெயர்ச்சொல்லின் இடம் வாக்கியத்தில் எங்கு வேண்டுமானாலும் தமிழில் வரலாம் இம்மாதிரியான சிக்கல்கள் இருப்பதாலும் தமிழை மெஷின் ட்ரான்ஸ்லேஷன் செய்வது கடினமாக உள்ளது. இது போன்ற மற்ற தகவல்களை அடுத்த கட்டுரையில் பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 04

Comments

comments




268 thoughts on “கணினி ஆய்வில் தமிழ் – 03

  1. foot pain dehydration

    You can definitely see your skills in the work you write.
    The arena hopes for more passionate writers like you who are not
    afraid to mention how they believe. Always follow your heart.

  2. foot pain guide

    Hi i am kavin, its my first time to commenting anyplace,
    when i read this article i thought i could also create comment due
    to this sensible piece of writing.

  3. MichaelLob

    viagra sale ireland

    buy original pfizer viagra
    [url=http://viagrahto.com/index.html#][/url]
    do you need prescription to get viagra

Leave a Reply

Your email address will not be published.