Kanini Thamizh 10

கணினி ஆய்வில் தமிழ் – 10

கணினி ஆய்வில் தமிழ் – 9

இந்த வாரம் ஒரு நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் சம்பந்தப்பட்ட ஒரு பயன்பாட்டினை உருவாக்க தேவையான டேட்டா என்ட்ரி வேலைகள் என்ன என்பதைப் பற்றிப் பார்ப்போம். உதாரணத்திற்கு ஒரு தேடு பொறியை உருவாக்க வேண்டுமெனில் அதற்கு தேவையான ஆவணங்கள்/ வலைத்தளங்களில் உள்ள வார்த்தைகளையும் அதன் பல்வேறு அர்த்தங்கள் மற்றும் அவ்வார்த்தையினோடு என்ன வார்த்தைகள் வரக்கூடும் என்பன போன்ற தகவல்களை நாம் டேட்டா பேசில் முன்னமே பதிவு செய்து வைத்தல் வேண்டும். இப்படி செய்யும் பொருட்டு அத்தேடு பொறி மிகுந்த அர்த்தமுள்ளதாகவும் பயனரின் தேவையை பூர்த்தி செய்யக் கூடியதாகவும் அமையும். நாம் முன்னரே பார்த்தது போல், “திருநெல்வேலி” என்று வினா கொடுத்தால் திருநெல்வேலி என்கிற வார்த்தை பெரும்பாலும் சேர்ந்து வரக்கூடிய வார்த்தைகளான “அல்வா”, தாமிரபரணி” மற்றும் அங்குள்ள கல்லூரிகள், வழிப்பாட்டுத் தலங்கள் ஆகியவை இடம்பெற்றுள்ள வலைத்தளங்களும் பயனருக்கு கிடைக்கும். இவ்வகையான டேட்டா பேஸ்கள் பல ரூபத்தில் உள்ளன. அவற்றில் மிக முக்கியமானவை, “டிக்ஷனரி (dictionary)”, “வேர்ட்நெட் (wordnet)” மற்றும் ஆன்டாலாஜி (ontology) ஆகும். டிக்ஷனரி பற்றி நாம் அனைவரும் அறிவோம். “கணபதி” என்று வினா கொடுத்தால் “பிள்ளையார்”, “விக்னேஷ்” போன்ற வார்த்தைகள்  இடம்பெற்றுள்ள வலைத்தளங்கள் நமக்கு கிடைப்பதற்கு டிக்ஷனரி உதவுகிறது. ஒரு தேடு பொறியின் டேட்டா பேசில் எவ்வளவு வலைப்பக்கங்கள் உள்ளதோ அவற்றில் உள்ள அனைத்து வார்த்தைகளின் அர்த்தங்கள் மற்றும் அவற்றின் பொருட்சோல் மற்றும் எதிர்ச்சொல் ஆகியவற்றை டிக்ஷனரியில் பதிவு செய்து வைத்தால் தேடு பொறியின் செயல்திறன் அதிகரிக்கும். எங்கள் ஆய்வுக் கூடத்தில் வடிவைக்கப்படும் தேடு பொறி சுமார் முப்பதாயிரம் வலைப்பக்கங்களை கொண்டு ஆரம்பிக்கப்பட்டது. இத்தேடு பொறி சிறப்பாக செயல் பட இரண்டு லட்சம் வார்த்தைகள் டிக்ஷனரியில் பதிய நேர்ந்தது. இம்மாதிரியான டிக்ஷனரி வேலைகள் தான் நேட்சுரல் லாங்குவேஜ் ப்ராசசிங்கில் மிக கடுமையான ஆனால் தவிர்க்க முடியாத செயல்பாடு ஆகும். இவற்றை செமி ஆட்டோமேட்டிக் (semi automatic) முறையிலும் செய்யலாம். ஆனால் முழுமையாக ஆட்டோமேட் செய்வது கடினம்.

வேர்ட்நெட்டை (wordnet) எடுத்துக் கொண்டால் ஒரு சொல்லின் பல்வேறு அர்த்தங்கள் மற்றும் அதன் தொடர்புடைய சொற்களை பதிவு செய்ய உதவுகிறது. ஒரு சொல்லிற்கும் இன்னொரு சொல்லிற்கும் பல்வேறு வகையில் தொடர்பு இருக்கக் கூடும். “முகம்” என்ற சொல்லிற்கும் “கண்” என்ற சொல்லிற்கும் “மேரநிம்” (meronym) என்கிற தொடர்பு உள்ளது.அதாவது “பார்ட் ஆஃப்“(part of) என்று அர்த்தம். கண் என்பது முகத்தின் பகுதியாதலால், “கண்” என்ற சொல்லும், “முகம்” என்ற சொல்லும் மேரநிம் மூலமாக வேர்ட்நெட்டில் பதிந்து வைக்கப்படிருக்கும். பயனர் “முகம்” என்று கொடுத்தால் முகத்தின் பல்வேறு பாகங்களைப் பற்றிய செய்திகள் நமக்கு கிடைக்க இம்முறை உதவுகிறது. வேர்ட்நெட்டுகள் பெரும்பாலும் “மை எஸ்க்யூவல்” (my sql) மூலமாக உருவாக்கப்படுகிறது.

ஆன்டாலஜியை எடுத்துக் கொண்டால் வேர்ட்நெட்டின் அடுத்த படியாக கருதப்படுகிறது. பெரும்பாலும் ஆன்டாலஜி ஒரு டொமைனிற்கு (domain) உருவாக்கபடுகிறது. உதாரணத்திற்கு சுற்றுல்லாத் துறை பற்றிய தேடு பொறி உருவாக்குகிறோம் என்று வைத்துக் கொள்வோம். நாடுகள், அதன் மாநிலங்கள், அதன் நகரங்கள், அதன் சுற்றுலாத் தலங்கள் என ஒரு ஹைரார்க்கியில் (hierarchy) பதிவு செய்யப்பட்டிருக்கும். “சென்னை” என்கிற வார்த்தை “இந்தியா” என்கிற வார்த்தையோடு, “சிட்டி ஆஃப்” (city of) என்கிற தொடர்போடு பதிவு செய்யப்பட்டிருக்கும். வேர்ட்நெட்டிற்கும் ஆன்டாலஜிக்கும் என்ன வேறுபாடு என்னவெனில் வேர்ட்நெட்டில் ஒரு சொல்லிற்கும் இன்னொரு சொல்லிற்கும் உள்ள தொடர்புகளின் வகைகள் மிக குறைவு, ஆனால் ஆன்டாலஜியில் தொடர்புகளின் வகைகள் நமது தேவைக்கேற்ப நாமே ஒரு தொடர்பை ஏற்படுத்தி ஒரு சொல்லை இன்னொரு சொல்லோடு தொடர்பு படுத்திக் கொள்ளலாம். “ப்ரோடீஜ்” (protege) என்பது ஆன்டாலாஜி உருவாக்க பயன்படும் ஒரு கருவி ஆகும். ஆன்டாலஜியை மையமாக வைத்தே பல ஆய்வுகள் நடைப்பெற்றுக் கொண்டிருக்கின்றன.

இந்த தொடர் இதனோடு முடிவடைகிறது. இத்தொடருக்கு ஊக்கமளித்து பொருத்தமாக இமேஜ் வடிவமைத்த “இது தமிழ்” குழுமத்திற்கும், தொடர்ந்து படித்து விமர்சனம்/ கடிதம் மூலம் உற்சாகப்படுத்திய வாசகர்களிற்கும் என் மனமார்ந்த நன்றியைத் தெரிவித்துக் கொள்கிறேன்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

சுபலலிதா

Comments

comments




14 thoughts on “கணினி ஆய்வில் தமிழ் – 10

  1. BookerRak

    real viagra prices
    buy cheap viagra
    can i buy viagra over the counter in mexico
    [url=http://sildenafilcsj.com/index.html#]viagra without a doctor prescription[/url]
    sildenafil 50 mg efectos en mujeres

  2. JamesJef

    generic cialis mail order
    cialis
    generic cialis online cheap
    [url=http://tadalafilopm.com/#]order cialis online[/url]
    cheap cialis online pharmacy prescription

Leave a Reply

Your email address will not be published.