Kanini Thamizh 05

கணினி ஆய்வில் தமிழ் – 05

கணினி ஆய்வில் தமிழ் – 04

சென்ற வாரம் அனஃபோரா அனாலிசிஸ் மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (Anaphora Analysis and Named Entity Recognition) பற்றி பார்த்தோம். இந்த வாரம் கூகுள் போன்ற தேடு பொறிகள் எப்படி செயல்படுகின்றன என்பதைப் பற்றிப் பார்ப்போம்.

ஒரு தேடு பொறியின் செயல்பாட்டினை இருவகையாக பிரிக்கலாம். அவை ஆன்லைன் மற்றும் ஆஃப்லைன் செயல்பாடுகள் ஆகும். முதலில் ஆன்லைன் பற்றி பார்ப்போம். ஏனெனில் பயனருக்கு ஓரளவிற்கு பரிச்சயமானது ஆன்லைன் செயல்பாடுகளே ஆகும். அவை பின்வருமாறு:

* பயனர் கொடுக்கும் வினா (query) தேடு பொறியினுள் செலுத்தபடுகிறது.

* அவ்வினா பல வினாக்களாக விரிவாக்கப்படுகிறது. இதனை க்வெரி எக்ஸ்பான்ஷன் (query expansion) என்பார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம். தமிழில் கூகுளை நீங்கள் உபயோகித்திருபீர்கள். “முருகன் கோவில்” என்று நீங்கள் வினா கொடுத்தால், பழனி முருகன் கோவில் பற்றிய ஆவணங்கள் உங்களுக்கு கிடைக்கும். வினாவில் “பழனி” இல்லாத போது பழனி முருகன் கோவில் பற்றிய செய்திகள் நமக்கு கிடைப்பதற்கு ஒரு காரணம், நாம் கொடுக்கும் வினா விரிவாக்கப்பட்டு தேடு பொறிக்கு அளிக்கப்படுவதால் தான். “முருகன் கோவில்” என்கிற வார்த்தை எந்தெந்த வார்த்தைகளுடன் சேர்ந்து பெரும்பாலான ஆவணங்களில் வந்துள்ளதோ அவ்வார்த்தைகள் பயனர் கொடுக்கும் வார்த்தைகளுடன் விரிவாக்கப்படுகிறது. உதாரணத்திற்கு “திருச்செந்தூர்”, “திருவண்ணாமலை”, “பழனி” போன்ற வார்த்தைகள் “முருகன் கோவில்” என்ற வார்த்தையுடன் சேர்ந்து பல ஆவணங்களில் வந்திருந்தால், அவற்றை முன்னரே தனியாக ஆராய்ந்து பிரித்து எடுத்து வைத்திருபார்கள். அதனை நாம் வினா அளிக்கும் போது நாம் கொடுக்கும் வினாவிற்கேற்ப விரிவாக்குகிறாகள். வினா விரிவாக்கத்திற்கு பல அல்காரிதம் (algorithm), முறைகள் உள்ளன. லேடன்ட் சிமான்டிக் இன்டெக்சிங் (latent semantic indexing)முறை, கூகுள் பயன்படுத்தும் முறைகளுள் ஒன்று. இம்முறையை பற்றி சுருக்கமாக ஒரு எடுத்துக்காட்டுடன் பாப்போம் . “ஆப்பிள்”, “மக்கின்டாஷ்”, “கம்ப்யூடர்”(apple, machintosh, computer) ஆகிய மூன்று வார்த்தைகளும் பல முறை ஒன்றாக ஆவணங்கள் /வலைத்தளங்களில் வந்திருந்தால், நாம் இம்மூன்று வார்த்தைகளில் எந்த வார்த்தையை வினாவாக கொடுத்தாலும், மற்ற இரண்டு வார்த்தை பற்றிய தகவல்கள் நமக்கு கிடைக்கும்.

* விரிவாக்கப்பட்ட வினாக்கள் இடம்பெற்றிருக்கும் ஆவணங்களை /வலைத்தளங்களை நமக்கு தேடு பொறி அளிக்கிறது. ஆவணங்கள் வினாக்களுக்கு தகுந்தவாறு வரிசைப்படுத்தப்பட்டு நமக்கு அளிக்கப்படுகின்றன. இதனை சர்ச்சிங் அன்ட் ரான்கிங் (searching and ranking) என்பார்கள். “அண்ணா பல்கலைக்கழகம்” என்று வினா கொடுத்தால், அண்ணா பல்கலைக்கழகத்தின் வலைத்தளம் முதல் இடத்தில் இருப்பதற்கும், அண்ணா பல்கலைக்கழகம் பற்றிய பிற வலைத்தளங்கள் /செய்திகள் வரிசையில் பிந்தி வருவதற்கும் முறையான சர்ச்சிங் அன்ட் ரான்கிங் அல்காரிதம் (searching and ranking algorithms)பயன்படுத்தபடுவதே காரணமாகும்.

இவ்வாரம் தேடுபொறியின் ஆன்லைன் செயல்பாடுகளைப் பற்றி பார்த்தோம். அடுத்தவாரம் ஆஃப்லைன் செயல்பாடுகளைப் பற்றி பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 06

Comments

comments




41 thoughts on “கணினி ஆய்வில் தமிழ் – 05

Leave a Reply

Your email address will not be published.