Search

கணினி ஆய்வில் தமிழ் – 08

கணினி ஆய்வில் தமிழ் – 07

சென்ற வாரம் ஒரு தேடு பொறியில் ஆஃப்லைன் செயல்பாடுகளைப் பற்றிப் பார்த்தோம். இந்த வாரம் ஒரு தேடு பொறியில் பயனர் வினா (க்வெரி: query) கொடுத்தவுடன் அளிக்கப்படும் வலைப்பக்கங்கள் எவ்வாறு வரிசைப்படுத்தப் படுகின்றன என்பதை பற்றிப் பார்ப்போம்.

உதாரணத்திற்கு “அண்ணா பல்கலைக்கழகம்” என்று வினாவைக் கொடுக்கிறோம் என்று வைத்துக் கொள்வோம். அண்ணா பல்கலைக்கழக வலைத்தளமான “www.annauniv.edu” முதலில் வரிசைப்படுத்தப்பட்டு இருக்க வேண்டும். அண்ணா பல்கலைக்கழகம் பற்றிய தகவல்களைக் கொண்ட பிற வலைத்தளங்கள் வரிசையில் பின்னர் வர வேண்டும்.

வியாபார நோக்கம் இல்லாமல் செயல்படும் தேடு பொறிகள், பயனர் அளிக்கும் வினாவையும் டேட்டா பேசில் (data base) உள்ள வலைப் பக்கங்களையும் நன்கு ஆராய்ந்து, மேத்தமாட்டிக்கல் மாடல் (Mathematical model) மூலமாக ராங்கிங் அல்காரிதத்தை (Ranking alogorithm) வகுத்து செயல்படுகின்றன. இம்மாதிரியான மேத்தமாட்டிக்கல் மாடல்களை உருவாக்க பல சிமிலாரிட்டி மெஷர்கள் (Similarity measure), டிஸ்டன்ஸ் மெஷர்கள் (Distance measure) உள்ளன. கொசைன் சிமிலாரிட்டி (Cosine similarity), யுக்லிடியென் சிமிலாரிட்டி மெஷர்கள் (Euclidean similarity measure), நியரெஸ்ட் நெய்பர்கள் (Nearest neighbour) போன்றவை பெரும்பாலும் பயன்படுத்தக் கூடிய மெஷர்கள் ஆகும். இம்மெஷர்கள் கொடுக்கப்பட்ட வினாவிற்கும், தேடு பொறி கொடுக்கும் ஆவணங்கள்/ வலைத்தளங்களுக்கும் எந்த அளவிற்கு ஒற்றுமை உள்ளது என்பதை ஆராந்து அவ்வொற்றுமைக்கு ஏற்றார் போல் வலைத்தளங்களை வரிசைப்படுத்த உதவுகின்றன.

Apple என்ற வினாவை ஏதேனும் ஒரு தேடு பொறிக்கு கொடுத்துப் பாருங்கள். நான் ஒரு முறை கொடுத்த பொழுது, பிரசித்தி பெற்ற கணினி நிறுவனமான ஆப்பிளின் வலைத்தளம் முதலில் வந்தது. இதில் கவலைக்கிடமான விஷயம் என்னவென்றால் “ஆப்பிள் பழம்” பற்றிய செய்தி இருபத்தைந்தாவது இடத்தில் இருந்தது. இப்படி வருவதற்கு இரு காரணங்கள் இருக்கலாம். ஒன்று வியாபார நோக்கமாக இருக்கலாம். இல்லையேல் உண்மையிலேயே அத்தேடு பொறியின் டேட்டா பேசில் ஆப்பிள் பழத்தைப் பற்றிய வலைத்தளங்களைக் காட்டிலும் மற்ற வலைத்தளங்கள் எண்ணிக்கையில் அதிக முறை தேடப் பட்டிருக்கலாம்.

அடுத்த வாரம் பண்டைக்கால தமிழ் இலக்கண நூலான ‘நன்னூல்‘ மற்றும் சமஸ்கிருத “நியாயா“, “மீமாம்சா” போன்றவற்றில் உள்ள பொக்கிஷ கருத்துக்களை எவ்வாறு இக்கால கட்டத்தில் உள்ள நேட்சுரல் லாங்குவேஜ் ப்ராசசிங்கிற்கு (Natural language processing) பயன்படுத்தலாம் என்பன போன்ற தகவல்களைப் பற்றிப் பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 09




Leave a Reply