Kanini Thamizh 01

கணினி ஆய்வில் தமிழ் – 01

கல் தோன்றி மண்தோன்றா காலத்திற்கு முன் தோன்றியது தமிழ் என்பதை நாம் ஆணித்தரமாக சொல்ல நம் முன்னோர்கள் நமக்காக விட்டு சென்ற கல்வெட்டுக்களே ஆதாரம். காலம் நாகரீகத்தோடு கைக் கோர்த்துக் கொண்டு பயணித்ததால் ஓலைச் சுவடி, தாள்(பேப்பர்) என தனது இருப்பை புதிது போல் நீடித்து வந்த தமிழ் இன்று அதிகம் வசிப்பது கணினியில். நமக்கு முன் முன்னோர்கள் தொகுத்தளித்த தமிழை நாம் எதிர்வரும் புதிய தலைமுறைகளுக்கு தொகுத்தளிக்க வேண்டும் அல்லவா? கண்டிப்பாக வேண்டும். இது தமிழ் படிக்க, எழுத தெரிந்த ஒவ்வொரு சாமான்யனின் தார்மீக கடமையாகும்.

நான் அண்ணா பல்கலைக் கழகத்தில் ஆராய்ச்சி மாணவியாக சேர்ந்த பிறகுதான், அது எவ்வளவு கடினமான செயல் என்று புரிந்தது. தமிழில் கணினி சம்பந்தப்பட்ட ஆய்வு மற்றும் ஆராய்ச்சி (பி.ஹெச்.டீ) செய்பவர்கள் பெரும்பாலும் பொறியியலில் இளநிலை, முதுநிலை பட்டதாரிகளாகவே இருக்கிறார்கள். அதே போல் மைய அரசின் உதவியுடன் செய்யப்படும் பல ஆராய்ச்சித் திட்டங்கள் தமிழை மையமாகக் கொண்டு ஆய்வு செய்யப்படுவது வியப்புக்குரிய சங்கதி. அண்ணா பல்கலைக்கழக கணினி பிரிவில் தமிழை மையமாகக் கொண்டு பல ஆய்வுகள் நடைபெற்றுக் கொண்டிருக்கின்றன. தமிழை கணினி ஆய்வின் கோணத்தில் பார்க்கும்போது என்னென்ன சிக்கல்கள் உள்ளன, என்னென்ன ஆய்வுகள் தமிழில் செய்யப்பட்டுள்ளன போன்ற விபரங்களை ஒவ்வொன்றாக பார்ப்போம்.

முதலாவதாக தமிழில் ஆய்வு செய்வதில் இருக்கும் சிக்கல் தமிழில் இருக்கும் பல்வேறு எழுத்துருக்கள் (பான்ட்டுகள்) ஆகும். தமிழை பிராசஸ் செய்ய ஒரு கருவி வடிவமைக்கும் போது அனைத்து எழுத்துருக்களையும் அரவணைத்து வடிவமைப்பது கடினம். ஒரு தேடு பொறி(சர்ச் எஞ்சின்) உருவாக்கும் போது வலைத்தள ஆவணங்கள் ஒவ்வொன்றும் வித விதமான எழுத்துருவில் இருப்பதால் அனைத்து ஆவணங்களையும் பிராசஸ் செய்வது கடினம். முதலில் டேப் என்கோடிங் முறையில் பல ஆவணங்கள் வலைத்தளத்தில் இருந்தன. டேப் அண்ணா, டேப் மதுரம் போன்ற எழுத்துருக்களை நீங்கள் உபயோகித்திருப்பீர்கள். இப்பொழுது யூனிகோடு என்கோடிங் முறை பெரும்பாலும் பயன்படுத்தபடுகிறது. ‘லதா’ என்கிற எழுத்துரு யூனிகோடு எழுத்துரு ஆகும். இதன் காரணமாக முதலில் டேப் எழுத்துக்களை பிராசஸ் செய்த மொழிக்கருவிகள் யாவையும் யூனிகோடு எழுத்துருக்களை பிராசஸ் செய்ய பிரத்யேக கன்வெர்டர்கள் மூலம் மாற்ற நேர்ந்தது. அனைத்து வலைத்தளங்களும் யூனிகோடு முறையை பின்பற்றினால் இனி மேற்கொள்ளப்படும் ஆய்வுகளுக்கு வசதியாக இருக்கும் என்பது எனது சிரம் தாழ்ந்த வேண்டுகோள்.

இப்படி பல எழுத்துரு சிரமங்கள் இருப்பினும் தமிழ் மொழியில் பிற இந்திய மொழிகளை காட்டிலும் அதிக வலைத்தள ஆவணங்கள் இருப்பது பெருமைக்குரிய விஷயமாகும். தமிழிலில் இருக்கும் விக்கிபீடியா ஆவணங்கள் மட்டுமே ஒரு தமிழ் தேடு பொறியை வடிவமைக்க ஓரளவிற்கு போதுமானது. அவ்வளவு விக்கிபீடியா ஆவணங்கள் தமிழில் உள்ளன. உலகெங்கும் உள்ள தமிழர்களின் தமிழ் ஆர்வமே இதன் முக்கிய காரணம் என்பதை நான் குறிப்பிடத் தேவையில்லை. தமிழ் கணினி ஆய்வில் உள்ள பிற சிக்கல்களை அடுத்த கட்டுரையில் பாப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 02

Comments

comments




766 thoughts on “கணினி ஆய்வில் தமிழ் – 01

  1. Jamesnoupt

    what car insurance

    [url=http://autousapremiumnew.webgarden.cz/rubriky/autousapremiumnew-s-blog/how-to-conserve-money-on-auto]what is car insurance[/url]

    for auto insurancecar insurance in ca
    auto insurance

    what is car insurance forcar insurance fl

  2. 6uwa3iwAhfM

    781570 803528hello admin, your internet site pages pattern is simple and clean and i like it. Your articles are remarkable. Remember to maintain up the very good function. Greets.. 448983

Leave a Reply

Your email address will not be published.