Kanini Thamizh 05

கணினி ஆய்வில் தமிழ் – 05

கணினி ஆய்வில் தமிழ் – 04

சென்ற வாரம் அனஃபோரா அனாலிசிஸ் மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (Anaphora Analysis and Named Entity Recognition) பற்றி பார்த்தோம். இந்த வாரம் கூகுள் போன்ற தேடு பொறிகள் எப்படி செயல்படுகின்றன என்பதைப் பற்றிப் பார்ப்போம்.

ஒரு தேடு பொறியின் செயல்பாட்டினை இருவகையாக பிரிக்கலாம். அவை ஆன்லைன் மற்றும் ஆஃப்லைன் செயல்பாடுகள் ஆகும். முதலில் ஆன்லைன் பற்றி பார்ப்போம். ஏனெனில் பயனருக்கு ஓரளவிற்கு பரிச்சயமானது ஆன்லைன் செயல்பாடுகளே ஆகும். அவை பின்வருமாறு:

* பயனர் கொடுக்கும் வினா (query) தேடு பொறியினுள் செலுத்தபடுகிறது.

* அவ்வினா பல வினாக்களாக விரிவாக்கப்படுகிறது. இதனை க்வெரி எக்ஸ்பான்ஷன் (query expansion) என்பார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம். தமிழில் கூகுளை நீங்கள் உபயோகித்திருபீர்கள். “முருகன் கோவில்” என்று நீங்கள் வினா கொடுத்தால், பழனி முருகன் கோவில் பற்றிய ஆவணங்கள் உங்களுக்கு கிடைக்கும். வினாவில் “பழனி” இல்லாத போது பழனி முருகன் கோவில் பற்றிய செய்திகள் நமக்கு கிடைப்பதற்கு ஒரு காரணம், நாம் கொடுக்கும் வினா விரிவாக்கப்பட்டு தேடு பொறிக்கு அளிக்கப்படுவதால் தான். “முருகன் கோவில்” என்கிற வார்த்தை எந்தெந்த வார்த்தைகளுடன் சேர்ந்து பெரும்பாலான ஆவணங்களில் வந்துள்ளதோ அவ்வார்த்தைகள் பயனர் கொடுக்கும் வார்த்தைகளுடன் விரிவாக்கப்படுகிறது. உதாரணத்திற்கு “திருச்செந்தூர்”, “திருவண்ணாமலை”, “பழனி” போன்ற வார்த்தைகள் “முருகன் கோவில்” என்ற வார்த்தையுடன் சேர்ந்து பல ஆவணங்களில் வந்திருந்தால், அவற்றை முன்னரே தனியாக ஆராய்ந்து பிரித்து எடுத்து வைத்திருபார்கள். அதனை நாம் வினா அளிக்கும் போது நாம் கொடுக்கும் வினாவிற்கேற்ப விரிவாக்குகிறாகள். வினா விரிவாக்கத்திற்கு பல அல்காரிதம் (algorithm), முறைகள் உள்ளன. லேடன்ட் சிமான்டிக் இன்டெக்சிங் (latent semantic indexing)முறை, கூகுள் பயன்படுத்தும் முறைகளுள் ஒன்று. இம்முறையை பற்றி சுருக்கமாக ஒரு எடுத்துக்காட்டுடன் பாப்போம் . “ஆப்பிள்”, “மக்கின்டாஷ்”, “கம்ப்யூடர்”(apple, machintosh, computer) ஆகிய மூன்று வார்த்தைகளும் பல முறை ஒன்றாக ஆவணங்கள் /வலைத்தளங்களில் வந்திருந்தால், நாம் இம்மூன்று வார்த்தைகளில் எந்த வார்த்தையை வினாவாக கொடுத்தாலும், மற்ற இரண்டு வார்த்தை பற்றிய தகவல்கள் நமக்கு கிடைக்கும்.

* விரிவாக்கப்பட்ட வினாக்கள் இடம்பெற்றிருக்கும் ஆவணங்களை /வலைத்தளங்களை நமக்கு தேடு பொறி அளிக்கிறது. ஆவணங்கள் வினாக்களுக்கு தகுந்தவாறு வரிசைப்படுத்தப்பட்டு நமக்கு அளிக்கப்படுகின்றன. இதனை சர்ச்சிங் அன்ட் ரான்கிங் (searching and ranking) என்பார்கள். “அண்ணா பல்கலைக்கழகம்” என்று வினா கொடுத்தால், அண்ணா பல்கலைக்கழகத்தின் வலைத்தளம் முதல் இடத்தில் இருப்பதற்கும், அண்ணா பல்கலைக்கழகம் பற்றிய பிற வலைத்தளங்கள் /செய்திகள் வரிசையில் பிந்தி வருவதற்கும் முறையான சர்ச்சிங் அன்ட் ரான்கிங் அல்காரிதம் (searching and ranking algorithms)பயன்படுத்தபடுவதே காரணமாகும்.

இவ்வாரம் தேடுபொறியின் ஆன்லைன் செயல்பாடுகளைப் பற்றி பார்த்தோம். அடுத்தவாரம் ஆஃப்லைன் செயல்பாடுகளைப் பற்றி பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 06

Comments

comments




367 thoughts on “கணினி ஆய்வில் தமிழ் – 05

  1. AlanaJeole

    us pharmacy for cialis

    [url=http://www.thedentisthub.org/forums/discussion/19134/5-perks-of-making-use-of-a-worldwide-drug-store]canadian discount pharmacies[/url]

    generic latisse for sale

    free sample viagra

    canadadrugstoresonline.com

  2. Jamesnoupt

    a car insurance

    [url=http://freesound.org/people/autousapremium/]auto insurance[/url]

    what is car insurancewhat is a cheap car insurance
    Auto Insurance

    auto insurance quotescheap car insurance for

Leave a Reply

Your email address will not be published.