

ஒரு தேடு பொறியின் செயல்பாட்டினை இருவகையாக பிரிக்கலாம். அவை ஆன்லைன் மற்றும் ஆஃப்லைன் செயல்பாடுகள் ஆகும். முதலில் ஆன்லைன் பற்றி பார்ப்போம். ஏனெனில் பயனருக்கு ஓரளவிற்கு பரிச்சயமானது ஆன்லைன் செயல்பாடுகளே ஆகும். அவை பின்வருமாறு:
* பயனர் கொடுக்கும் வினா (query) தேடு பொறியினுள் செலுத்தபடுகிறது.
* அவ்வினா பல வினாக்களாக விரிவாக்கப்படுகிறது. இதனை க்வெரி எக்ஸ்பான்ஷன் (query expansion) என்பார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம். தமிழில் கூகுளை நீங்கள் உபயோகித்திருபீர்கள். “முருகன் கோவில்” என்று நீங்கள் வினா கொடுத்தால், பழனி முருகன் கோவில் பற்றிய ஆவணங்கள் உங்களுக்கு கிடைக்கும். வினாவில் “பழனி” இல்லாத போது பழனி முருகன் கோவில் பற்றிய செய்திகள் நமக்கு கிடைப்பதற்கு ஒரு காரணம், நாம் கொடுக்கும் வினா விரிவாக்கப்பட்டு தேடு பொறிக்கு அளிக்கப்படுவதால் தான். “முருகன் கோவில்” என்கிற வார்த்தை எந்தெந்த வார்த்தைகளுடன் சேர்ந்து பெரும்பாலான ஆவணங்களில் வந்துள்ளதோ அவ்வார்த்தைகள் பயனர் கொடுக்கும் வார்த்தைகளுடன் விரிவாக்கப்படுகிறது. உதாரணத்திற்கு “திருச்செந்தூர்”, “திருவண்ணாமலை”, “பழனி” போன்ற வார்த்தைகள் “முருகன் கோவில்” என்ற வார்த்தையுடன் சேர்ந்து பல ஆவணங்களில் வந்திருந்தால், அவற்றை முன்னரே தனியாக ஆராய்ந்து பிரித்து எடுத்து வைத்திருபார்கள். அதனை நாம் வினா அளிக்கும் போது நாம் கொடுக்கும் வினாவிற்கேற்ப விரிவாக்குகிறாகள். வினா விரிவாக்கத்திற்கு பல அல்காரிதம் (algorithm), முறைகள் உள்ளன. லேடன்ட் சிமான்டிக் இன்டெக்சிங் (latent semantic indexing)முறை, கூகுள் பயன்படுத்தும் முறைகளுள் ஒன்று. இம்முறையை பற்றி சுருக்கமாக ஒரு எடுத்துக்காட்டுடன் பாப்போம் . “ஆப்பிள்”, “மக்கின்டாஷ்”, “கம்ப்யூடர்”(apple, machintosh, computer) ஆகிய மூன்று வார்த்தைகளும் பல முறை ஒன்றாக ஆவணங்கள் /வலைத்தளங்களில் வந்திருந்தால், நாம் இம்மூன்று வார்த்தைகளில் எந்த வார்த்தையை வினாவாக கொடுத்தாலும், மற்ற இரண்டு வார்த்தை பற்றிய தகவல்கள் நமக்கு கிடைக்கும்.
* விரிவாக்கப்பட்ட வினாக்கள் இடம்பெற்றிருக்கும் ஆவணங்களை /வலைத்தளங்களை நமக்கு தேடு பொறி அளிக்கிறது. ஆவணங்கள் வினாக்களுக்கு தகுந்தவாறு வரிசைப்படுத்தப்பட்டு நமக்கு அளிக்கப்படுகின்றன. இதனை சர்ச்சிங் அன்ட் ரான்கிங் (searching and ranking) என்பார்கள். “அண்ணா பல்கலைக்கழகம்” என்று வினா கொடுத்தால், அண்ணா பல்கலைக்கழகத்தின் வலைத்தளம் முதல் இடத்தில் இருப்பதற்கும், அண்ணா பல்கலைக்கழகம் பற்றிய பிற வலைத்தளங்கள் /செய்திகள் வரிசையில் பிந்தி வருவதற்கும் முறையான சர்ச்சிங் அன்ட் ரான்கிங் அல்காரிதம் (searching and ranking algorithms)பயன்படுத்தபடுவதே காரணமாகும்.
இவ்வாரம் தேடுபொறியின் ஆன்லைன் செயல்பாடுகளைப் பற்றி பார்த்தோம். அடுத்தவாரம் ஆஃப்லைன் செயல்பாடுகளைப் பற்றி பார்ப்போம்.
வாழ்க தமிழ்! வளர்க தமிழ்!!
– சுபலலிதா