Kanini Thamizh 06

கணினி ஆய்வில் தமிழ் – 06

கணினி ஆய்வில் தமிழ் – 05

சென்ற வாரம் தேடு பொறியின் ஆன்லைன் செயல்பாடுகளைப் பற்றி பார்த்தோம்.இவ்வாரம் ஆஃப்லைன் செயல்பாடுகள் பற்றி பார்ப்போம்.

பின் வருவன ஆஃப்லைன் செயல்பாடுகள் ஆகும்.

வலைத்தளங்களை கிரால் (Crawl) செய்தல் வேண்டும் .இதை செய்யும் நிரலிக்கு “கிராலர் (Crawler)” என்று பெயர்.

கிரால் செய்யப்பட்ட வலைத்தளங்களின் உள்ள இமேஜ், எழுத்துமூலம் உள்ள செய்திகள் போன்றவற்றை பிரித்து ஒவ்வொன்றிற்கும் ஆவணங்கள் அடிப்படையில் ஐ.டிக்கள் (IDs) கொடுக்கப்படும். பின் வரும் செயல்பாடுகள் இந்த ஐ.டியை வைத்தே செயல்படும் .
வலைத்தளங்களிலிருந்து பிரித்தெடுக்கப்பட்ட  இமேஜ்  மற்றும் செய்திகளில் உள்ள முக்கியமானவற்றை  இன்டெக்ஸ் செய்வார்கள். உதராணத்திற்கு “இந்தியா” என்கிற வார்த்தை அல்லது இமேஜ் d1,d4 d50,d1000 முதலிய வலைத்தளங்களில் / ஆவணங்களில் உள்ளது என குறித்து வைப்பார்கள் .  d1,d4... என்பது வலைத்தளங்களுக்கு கொடுக்கப்பட்ட ஐ.டி ஆகும். இன்டெக்ஸ் செய்ய பல வழிகள் உள்ளன. ஒரு வார்த்தை எத்தனை முறை ஒரு ஆவணத்தில் வந்துள்ளது, எந்தெந்த வார்த்தைகளுடன் நிறைய முறை வந்துள்ளது என பல உத்திகளை இன்டெக்ஸ் செய்ய கையாளலாம். சென்ற வாரம், “லேடன்ட் சிமான்டிக் இன்டெக்சிங்” பற்றி பார்த்தோம். இம்முறை மூலம் நாம் வினா விரிவாக்கத்திற்கு வேண்டிய தகவல்களையும் குறித்துக் கொள்ளலாம். வினா விரிவாக்கம் /க்வெரி எக்ஸ்பான்ஷன் பற்றியும் சென்ற வாரம் பார்த்தோம். இன்டெக்ஸ் செய்யப்பட்ட வார்த்தைகள் எப்படி ஸ்டோர் செய்யப்பட்டுளதோ அதே முறையில் வினா விரிவாக்கம் தரும் வார்த்தைகளும் இருக்க வேண்டியது அவசியம். உதாரணத்திற்கு இன்டெக்சில், “திருநெல்வேலி -அல்வா -தாமிரபரணி” என ‘திருநெல்வேலி’ என்ற வார்த்தையுடன் மிகுந்து காணப்படும் வார்த்தைகளை சேர்த்து இன்டெக்ஸ் செய்யும் உத்தி கையாளப்பட்டு இருந்தால் அதே உத்தியை வினா விரிவாக்கத்திற்கும் பயன்படுத்தவேண்டும். அப்பொழுது தான் நாம் கூகுளில், “திருநெல்வேலி” என்று வினா கொடுத்தால் அவ்வினா “திருநெல்வேலி -அல்வா -தாமிரபரணி” என விரிவாக்கப்பட்டு இம்மூன்று வார்த்தைகள் தனித்தனியே இடம்பெற்றிருக்கும் ஆவணங்கள்  மட்டுமல்லாமல் இம்மூன்று வார்த்தைகளும் ஒரே ஆவணத்தில் இடம் பெற்றிருந்தாலும் நமக்கு கிடைக்கும். சிறிது குழப்பமாக இருக்கிறதே என்று நினைப்பவர்களுக்கு இந்த எடுத்துக்காட்டு உதவும் என நினைக்கிறன் .
இன்டெக்ஸ் வார்த்தைகள்

திருநெல்வேலி அல்வா தாமிரபரணி: d1, d100, d890
திருநெல்வேலி அல்வா: d5, d450, 500, 600
திருநெல்வேலி தாமிரபரணி: d100, d800, 4500
திருநெல்வேலி: d1,… d4000
அல்வா: d6,… d6000
தாமிரபரணி: d3,.. d5000

அதாவது இவ்வார்த்தைகள் எந்தெந்த ஆவணங்களில் உள்ளன என ஐ.டிக்கள் மூலம் இன்டெக்சில் ஸ்டோர் செய்யப்பட்டுள்ளது என வைத்துக் கொள்வோம்  .

இப்பொழுது வினா “திருநெல்வேலி” என்று வைத்துக் கொள்வோம். வினா விரிவாக்கம் “திருநெல்வேலி அல்வா தாமிரபரணி” என்று இருந்தால் தான் நமக்கு d1,d100,d890,d5,450.. என்று அல்வா, தாமிரபரணி சம்பந்தப்பட்ட ஆவணங்கள் கிடைக்கும். இல்லையேல் இன்டெக்சில் அல்வா, தாமிரபரணி இருந்தும் பயனில்லை. மெமரி விரயம்தான் ஏற்படும். ஆகவே வினா விரிவாக்கம் என்பது இன்டெக்சுடன் ஒத்துப் போக வேண்டும். வினா விரிவாக்கம் ஆன்லைனில் நடைப்பெற்றாலும் அதற்கு வேண்டிய ஏற்பாடுகள் ஆஃப்லைனில் தான் நடைபெறுகிறது. ஆஃப்லைன் செயல்பாடுகள் பற்றிய மேலும் விபரங்களை அடுத்த வாரம் பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

– சுபலலிதா

கணினி ஆய்வில் தமிழ் – 07

Comments

comments




Leave a Reply

Your email address will not be published.