Shadow

கணினி ஆய்வில் தமிழ் – 10

கணினி ஆய்வில் தமிழ் – 9

இந்த வாரம் ஒரு நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் சம்பந்தப்பட்ட ஒரு பயன்பாட்டினை உருவாக்க தேவையான டேட்டா என்ட்ரி வேலைகள் என்ன என்பதைப் பற்றிப் பார்ப்போம். உதாரணத்திற்கு ஒரு தேடு பொறியை உருவாக்க வேண்டுமெனில் அதற்கு தேவையான ஆவணங்கள்/ வலைத்தளங்களில் உள்ள வார்த்தைகளையும் அதன் பல்வேறு அர்த்தங்கள் மற்றும் அவ்வார்த்தையினோடு என்ன வார்த்தைகள் வரக்கூடும் என்பன போன்ற தகவல்களை நாம் டேட்டா பேசில் முன்னமே பதிவு செய்து வைத்தல் வேண்டும். இப்படி செய்யும் பொருட்டு அத்தேடு பொறி மிகுந்த அர்த்தமுள்ளதாகவும் பயனரின் தேவையை பூர்த்தி செய்யக் கூடியதாகவும் அமையும். நாம் முன்னரே பார்த்தது போல், “திருநெல்வேலி” என்று வினா கொடுத்தால் திருநெல்வேலி என்கிற வார்த்தை பெரும்பாலும் சேர்ந்து வரக்கூடிய வார்த்தைகளான “அல்வா”, தாமிரபரணி” மற்றும் அங்குள்ள கல்லூரிகள், வழிப்பாட்டுத் தலங்கள் ஆகியவை இடம்பெற்றுள்ள வலைத்தளங்களும் பயனருக்கு கிடைக்கும். இவ்வகையான டேட்டா பேஸ்கள் பல ரூபத்தில் உள்ளன. அவற்றில் மிக முக்கியமானவை, “டிக்ஷனரி (dictionary)”, “வேர்ட்நெட் (wordnet)” மற்றும் ஆன்டாலாஜி (ontology) ஆகும். டிக்ஷனரி பற்றி நாம் அனைவரும் அறிவோம். “கணபதி” என்று வினா கொடுத்தால் “பிள்ளையார்”, “விக்னேஷ்” போன்ற வார்த்தைகள்  இடம்பெற்றுள்ள வலைத்தளங்கள் நமக்கு கிடைப்பதற்கு டிக்ஷனரி உதவுகிறது. ஒரு தேடு பொறியின் டேட்டா பேசில் எவ்வளவு வலைப்பக்கங்கள் உள்ளதோ அவற்றில் உள்ள அனைத்து வார்த்தைகளின் அர்த்தங்கள் மற்றும் அவற்றின் பொருட்சோல் மற்றும் எதிர்ச்சொல் ஆகியவற்றை டிக்ஷனரியில் பதிவு செய்து வைத்தால் தேடு பொறியின் செயல்திறன் அதிகரிக்கும். எங்கள் ஆய்வுக் கூடத்தில் வடிவைக்கப்படும் தேடு பொறி சுமார் முப்பதாயிரம் வலைப்பக்கங்களை கொண்டு ஆரம்பிக்கப்பட்டது. இத்தேடு பொறி சிறப்பாக செயல் பட இரண்டு லட்சம் வார்த்தைகள் டிக்ஷனரியில் பதிய நேர்ந்தது. இம்மாதிரியான டிக்ஷனரி வேலைகள் தான் நேட்சுரல் லாங்குவேஜ் ப்ராசசிங்கில் மிக கடுமையான ஆனால் தவிர்க்க முடியாத செயல்பாடு ஆகும். இவற்றை செமி ஆட்டோமேட்டிக் (semi automatic) முறையிலும் செய்யலாம். ஆனால் முழுமையாக ஆட்டோமேட் செய்வது கடினம்.

வேர்ட்நெட்டை (wordnet) எடுத்துக் கொண்டால் ஒரு சொல்லின் பல்வேறு அர்த்தங்கள் மற்றும் அதன் தொடர்புடைய சொற்களை பதிவு செய்ய உதவுகிறது. ஒரு சொல்லிற்கும் இன்னொரு சொல்லிற்கும் பல்வேறு வகையில் தொடர்பு இருக்கக் கூடும். “முகம்” என்ற சொல்லிற்கும் “கண்” என்ற சொல்லிற்கும் “மேரநிம்” (meronym) என்கிற தொடர்பு உள்ளது.அதாவது “பார்ட் ஆஃப்“(part of) என்று அர்த்தம். கண் என்பது முகத்தின் பகுதியாதலால், “கண்” என்ற சொல்லும், “முகம்” என்ற சொல்லும் மேரநிம் மூலமாக வேர்ட்நெட்டில் பதிந்து வைக்கப்படிருக்கும். பயனர் “முகம்” என்று கொடுத்தால் முகத்தின் பல்வேறு பாகங்களைப் பற்றிய செய்திகள் நமக்கு கிடைக்க இம்முறை உதவுகிறது. வேர்ட்நெட்டுகள் பெரும்பாலும் “மை எஸ்க்யூவல்” (my sql) மூலமாக உருவாக்கப்படுகிறது.

ஆன்டாலஜியை எடுத்துக் கொண்டால் வேர்ட்நெட்டின் அடுத்த படியாக கருதப்படுகிறது. பெரும்பாலும் ஆன்டாலஜி ஒரு டொமைனிற்கு (domain) உருவாக்கபடுகிறது. உதாரணத்திற்கு சுற்றுல்லாத் துறை பற்றிய தேடு பொறி உருவாக்குகிறோம் என்று வைத்துக் கொள்வோம். நாடுகள், அதன் மாநிலங்கள், அதன் நகரங்கள், அதன் சுற்றுலாத் தலங்கள் என ஒரு ஹைரார்க்கியில் (hierarchy) பதிவு செய்யப்பட்டிருக்கும். “சென்னை” என்கிற வார்த்தை “இந்தியா” என்கிற வார்த்தையோடு, “சிட்டி ஆஃப்” (city of) என்கிற தொடர்போடு பதிவு செய்யப்பட்டிருக்கும். வேர்ட்நெட்டிற்கும் ஆன்டாலஜிக்கும் என்ன வேறுபாடு என்னவெனில் வேர்ட்நெட்டில் ஒரு சொல்லிற்கும் இன்னொரு சொல்லிற்கும் உள்ள தொடர்புகளின் வகைகள் மிக குறைவு, ஆனால் ஆன்டாலஜியில் தொடர்புகளின் வகைகள் நமது தேவைக்கேற்ப நாமே ஒரு தொடர்பை ஏற்படுத்தி ஒரு சொல்லை இன்னொரு சொல்லோடு தொடர்பு படுத்திக் கொள்ளலாம். “ப்ரோடீஜ்” (protege) என்பது ஆன்டாலாஜி உருவாக்க பயன்படும் ஒரு கருவி ஆகும். ஆன்டாலஜியை மையமாக வைத்தே பல ஆய்வுகள் நடைப்பெற்றுக் கொண்டிருக்கின்றன.

இந்த தொடர் இதனோடு முடிவடைகிறது. இத்தொடருக்கு ஊக்கமளித்து பொருத்தமாக இமேஜ் வடிவமைத்த “இது தமிழ்” குழுமத்திற்கும், தொடர்ந்து படித்து விமர்சனம்/ கடிதம் மூலம் உற்சாகப்படுத்திய வாசகர்களிற்கும் என் மனமார்ந்த நன்றியைத் தெரிவித்துக் கொள்கிறேன்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

சுபலலிதா

Leave a Reply