Search
Kanini Thamizh 06

கணினி ஆய்வில் தமிழ் – 06

கணினி ஆய்வில் தமிழ் – 05

சென்ற வாரம் தேடு பொறியின் ஆன்லைன் செயல்பாடுகளைப் பற்றி பார்த்தோம்.இவ்வாரம் ஆஃப்லைன் செயல்பாடுகள் பற்றி பார்ப்போம்.

பின் வருவன ஆஃப்லைன் செயல்பாடுகள் ஆகும்.

வலைத்தளங்களை கிரால் (Crawl) செய்தல் வேண்டும் .இதை செய்யும் நிரலிக்கு “கிராலர் (Crawler)” என்று பெயர்.

கிரால் செய்யப்பட்ட வலைத்தளங்களின் உள்ள இமேஜ், எழுத்துமூலம் உள்ள செய்திகள் போன்றவற்றை பிரித்து ஒவ்வொன்றிற்கும் ஆவணங்கள் அடிப்படையில் ஐ.டிக்கள் (IDs) கொடுக்கப்படும். பின் வரும் செயல்பாடுகள் இந்த ஐ.டியை வைத்தே செயல்படும் .
வலைத்தளங்களிலிருந்து பிரித்தெடுக்கப்பட்ட  இமேஜ்  மற்றும் செய்திகளில் உள்ள முக்கியமானவற்றை  இன்டெக்ஸ் செய்வார்கள். உதராணத்திற்கு “இந்தியா” என்கிற வார்த்தை அல்லது இமேஜ் d1,d4 d50,d1000 முதலிய வலைத்தளங்களில் / ஆவணங்களில் உள்ளது என குறித்து வைப்பார்கள் .  d1,d4... என்பது வலைத்தளங்களுக்கு கொடுக்கப்பட்ட ஐ.டி ஆகும். இன்டெக்ஸ் செய்ய பல வழிகள் உள்ளன. ஒரு வார்த்தை எத்தனை முறை ஒரு ஆவணத்தில் வந்துள்ளது, எந்தெந்த வார்த்தைகளுடன் நிறைய முறை வந்துள்ளது என பல உத்திகளை இன்டெக்ஸ் செய்ய கையாளலாம். சென்ற வாரம், “லேடன்ட் சிமான்டிக் இன்டெக்சிங்” பற்றி பார்த்தோம். இம்முறை மூலம் நாம் வினா விரிவாக்கத்திற்கு வேண்டிய தகவல்களையும் குறித்துக் கொள்ளலாம். வினா விரிவாக்கம் /க்வெரி எக்ஸ்பான்ஷன் பற்றியும் சென்ற வாரம் பார்த்தோம். இன்டெக்ஸ் செய்யப்பட்ட வார்த்தைகள் எப்படி ஸ்டோர் செய்யப்பட்டுளதோ அதே முறையில் வினா விரிவாக்கம் தரும் வார்த்தைகளும் இருக்க வேண்டியது அவசியம். உதாரணத்திற்கு இன்டெக்சில், “திருநெல்வேலி -அல்வா -தாமிரபரணி” என ‘திருநெல்வேலி’ என்ற வார்த்தையுடன் மிகுந்து காணப்படும் வார்த்தைகளை சேர்த்து இன்டெக்ஸ் செய்யும் உத்தி கையாளப்பட்டு இருந்தால் அதே உத்தியை வினா விரிவாக்கத்திற்கும் பயன்படுத்தவேண்டும். அப்பொழுது தான் நாம் கூகுளில், “திருநெல்வேலி” என்று வினா கொடுத்தால் அவ்வினா “திருநெல்வேலி -அல்வா -தாமிரபரணி” என விரிவாக்கப்பட்டு இம்மூன்று வார்த்தைகள் தனித்தனியே இடம்பெற்றிருக்கும் ஆவணங்கள்  மட்டுமல்லாமல் இம்மூன்று வார்த்தைகளும் ஒரே ஆவணத்தில் இடம் பெற்றிருந்தாலும் நமக்கு கிடைக்கும். சிறிது குழப்பமாக இருக்கிறதே என்று நினைப்பவர்களுக்கு இந்த எடுத்துக்காட்டு உதவும் என நினைக்கிறன் .
இன்டெக்ஸ் வார்த்தைகள்

திருநெல்வேலி அல்வா தாமிரபரணி: d1, d100, d890
திருநெல்வேலி அல்வா: d5, d450, 500, 600
திருநெல்வேலி தாமிரபரணி: d100, d800, 4500
திருநெல்வேலி: d1,… d4000
அல்வா: d6,… d6000
தாமிரபரணி: d3,.. d5000

அதாவது இவ்வார்த்தைகள் எந்தெந்த ஆவணங்களில் உள்ளன என ஐ.டிக்கள் மூலம் இன்டெக்சில் ஸ்டோர் செய்யப்பட்டுள்ளது என வைத்துக் கொள்வோம்  .

இப்பொழுது வினா “திருநெல்வேலி” என்று வைத்துக் கொள்வோம். வினா விரிவாக்கம் “திருநெல்வேலி அல்வா தாமிரபரணி” என்று இருந்தால் தான் நமக்கு d1,d100,d890,d5,450.. என்று அல்வா, தாமிரபரணி சம்பந்தப்பட்ட ஆவணங்கள் கிடைக்கும். இல்லையேல் இன்டெக்சில் அல்வா, தாமிரபரணி இருந்தும் பயனில்லை. மெமரி விரயம்தான் ஏற்படும். ஆகவே வினா விரிவாக்கம் என்பது இன்டெக்சுடன் ஒத்துப் போக வேண்டும். வினா விரிவாக்கம் ஆன்லைனில் நடைப்பெற்றாலும் அதற்கு வேண்டிய ஏற்பாடுகள் ஆஃப்லைனில் தான் நடைபெறுகிறது. ஆஃப்லைன் செயல்பாடுகள் பற்றிய மேலும் விபரங்களை அடுத்த வாரம் பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 07




Leave a Reply