Kanini Thamizh 08

கணினி ஆய்வில் தமிழ் – 08

கணினி ஆய்வில் தமிழ் – 07

சென்ற வாரம் ஒரு தேடு பொறியில் ஆஃப்லைன் செயல்பாடுகளைப் பற்றிப் பார்த்தோம். இந்த வாரம் ஒரு தேடு பொறியில் பயனர் வினா (க்வெரி: query) கொடுத்தவுடன் அளிக்கப்படும் வலைப்பக்கங்கள் எவ்வாறு வரிசைப்படுத்தப் படுகின்றன என்பதை பற்றிப் பார்ப்போம்.

உதாரணத்திற்கு “அண்ணா பல்கலைக்கழகம்” என்று வினாவைக் கொடுக்கிறோம் என்று வைத்துக் கொள்வோம். அண்ணா பல்கலைக்கழக வலைத்தளமான “www.annauniv.edu” முதலில் வரிசைப்படுத்தப்பட்டு இருக்க வேண்டும். அண்ணா பல்கலைக்கழகம் பற்றிய தகவல்களைக் கொண்ட பிற வலைத்தளங்கள் வரிசையில் பின்னர் வர வேண்டும்.

வியாபார நோக்கம் இல்லாமல் செயல்படும் தேடு பொறிகள், பயனர் அளிக்கும் வினாவையும் டேட்டா பேசில் (data base) உள்ள வலைப் பக்கங்களையும் நன்கு ஆராய்ந்து, மேத்தமாட்டிக்கல் மாடல் (Mathematical model) மூலமாக ராங்கிங் அல்காரிதத்தை (Ranking alogorithm) வகுத்து செயல்படுகின்றன. இம்மாதிரியான மேத்தமாட்டிக்கல் மாடல்களை உருவாக்க பல சிமிலாரிட்டி மெஷர்கள் (Similarity measure), டிஸ்டன்ஸ் மெஷர்கள் (Distance measure) உள்ளன. கொசைன் சிமிலாரிட்டி (Cosine similarity), யுக்லிடியென் சிமிலாரிட்டி மெஷர்கள் (Euclidean similarity measure), நியரெஸ்ட் நெய்பர்கள் (Nearest neighbour) போன்றவை பெரும்பாலும் பயன்படுத்தக் கூடிய மெஷர்கள் ஆகும். இம்மெஷர்கள் கொடுக்கப்பட்ட வினாவிற்கும், தேடு பொறி கொடுக்கும் ஆவணங்கள்/ வலைத்தளங்களுக்கும் எந்த அளவிற்கு ஒற்றுமை உள்ளது என்பதை ஆராந்து அவ்வொற்றுமைக்கு ஏற்றார் போல் வலைத்தளங்களை வரிசைப்படுத்த உதவுகின்றன.

Apple என்ற வினாவை ஏதேனும் ஒரு தேடு பொறிக்கு கொடுத்துப் பாருங்கள். நான் ஒரு முறை கொடுத்த பொழுது, பிரசித்தி பெற்ற கணினி நிறுவனமான ஆப்பிளின் வலைத்தளம் முதலில் வந்தது. இதில் கவலைக்கிடமான விஷயம் என்னவென்றால் “ஆப்பிள் பழம்” பற்றிய செய்தி இருபத்தைந்தாவது இடத்தில் இருந்தது. இப்படி வருவதற்கு இரு காரணங்கள் இருக்கலாம். ஒன்று வியாபார நோக்கமாக இருக்கலாம். இல்லையேல் உண்மையிலேயே அத்தேடு பொறியின் டேட்டா பேசில் ஆப்பிள் பழத்தைப் பற்றிய வலைத்தளங்களைக் காட்டிலும் மற்ற வலைத்தளங்கள் எண்ணிக்கையில் அதிக முறை தேடப் பட்டிருக்கலாம்.

அடுத்த வாரம் பண்டைக்கால தமிழ் இலக்கண நூலான ‘நன்னூல்‘ மற்றும் சமஸ்கிருத “நியாயா“, “மீமாம்சா” போன்றவற்றில் உள்ள பொக்கிஷ கருத்துக்களை எவ்வாறு இக்கால கட்டத்தில் உள்ள நேட்சுரல் லாங்குவேஜ் ப்ராசசிங்கிற்கு (Natural language processing) பயன்படுத்தலாம் என்பன போன்ற தகவல்களைப் பற்றிப் பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 09

Comments

comments




35 thoughts on “கணினி ஆய்வில் தமிழ் – 08

  1. MichaelLob

    viagra sale online australia

    how to buy viagra in ireland
    [url=http://viagrahto.com/index.html#][/url]
    buy viagra hong kong expat

Leave a Reply

Your email address will not be published.