Shadow

தொழில்நுட்பம்

கணினி ஆய்வில் தமிழ் – 06

கணினி ஆய்வில் தமிழ் – 06

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 05சென்ற வாரம் தேடு பொறியின் ஆன்லைன் செயல்பாடுகளைப் பற்றி பார்த்தோம்.இவ்வாரம் ஆஃப்லைன் செயல்பாடுகள் பற்றி பார்ப்போம்.பின் வருவன ஆஃப்லைன் செயல்பாடுகள் ஆகும்.வலைத்தளங்களை கிரால் (Crawl) செய்தல் வேண்டும் .இதை செய்யும் நிரலிக்கு "கிராலர் (Crawler)" என்று பெயர்.கிரால் செய்யப்பட்ட வலைத்தளங்களின் உள்ள இமேஜ், எழுத்துமூலம் உள்ள செய்திகள் போன்றவற்றை பிரித்து ஒவ்வொன்றிற்கும் ஆவணங்கள் அடிப்படையில் ஐ.டிக்கள் (IDs) கொடுக்கப்படும். பின் வரும் செயல்பாடுகள் இந்த ஐ.டியை வைத்தே செயல்படும் . வலைத்தளங்களிலிருந்து பிரித்தெடுக்கப்பட்ட  இமேஜ்  மற்றும் செய்திகளில் உள்ள முக்கியமானவற்றை  இன்டெக்ஸ் செய்வார்கள். உதராணத்திற்கு "இந்தியா" என்கிற வார்த்தை அல்லது இமேஜ் d1,d4 d50,d1000 முதலிய வலைத்தளங்களில் / ஆவணங்களில் உள்ளது என குறித்து வைப்பார்கள் .  d1,d4... என...
கணினி ஆய்வில் தமிழ் – 05

கணினி ஆய்வில் தமிழ் – 05

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 04 சென்ற வாரம் அனஃபோரா அனாலிசிஸ் மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (Anaphora Analysis and Named Entity Recognition) பற்றி பார்த்தோம். இந்த வாரம் கூகுள் போன்ற தேடு பொறிகள் எப்படி செயல்படுகின்றன என்பதைப் பற்றிப் பார்ப்போம்.ஒரு தேடு பொறியின் செயல்பாட்டினை இருவகையாக பிரிக்கலாம். அவை ஆன்லைன் மற்றும் ஆஃப்லைன் செயல்பாடுகள் ஆகும். முதலில் ஆன்லைன் பற்றி பார்ப்போம். ஏனெனில் பயனருக்கு ஓரளவிற்கு பரிச்சயமானது ஆன்லைன் செயல்பாடுகளே ஆகும். அவை பின்வருமாறு:* பயனர் கொடுக்கும் வினா (query) தேடு பொறியினுள் செலுத்தபடுகிறது.* அவ்வினா பல வினாக்களாக விரிவாக்கப்படுகிறது. இதனை க்வெரி எக்ஸ்பான்ஷன் (query expansion) என்பார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம். தமிழில் கூகுளை நீங்கள் உபயோகித்திருபீர்கள். "முருகன் கோவில்" என்று நீங்கள் வினா கொடுத்தால், பழனி முருகன...
கணினி ஆய்வில் தமிழ் – 04

கணினி ஆய்வில் தமிழ் – 04

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 03சென்ற வாரம் மெஷின் ட்ரான்ஸ்லேஷன் பற்றி பார்த்தோம். இந்த வாரம் அனஃபோரா அனாலிசிஸ் (anaphora analysis) மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (named entity recognition) பற்றி பார்ப்போம். முதலில் அனஃபோரா பற்றி பார்போம். அனஃபோரா அனாலிசிசை ப்ரோநெளன் ரெசல்யூஷன்  (pronoun resolution) என்றும் சொல்வார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம்."சூரபத்மன் முருகனால் கொல்லப்பட்டான். அவன் மிகவும் கொடியவன்."இரண்டாம் வாக்கியத்தில் உள்ள "அவன்" என்கிற சொல் சூரபத்மனைத்தான் குறிக்கிறது என நாம் அறிவோம். கணினிக்கு அதை தெரிவிப்பது கடினம். அதாவது வாக்கியங்களில் வரும் ப்ரோனவுன் முந்தைய வாக்கியங்களில் உள்ள தகுந்த பெயர்ச் சொல்லை சரியாக கணினியால் எடுத்துக் கொள்ள வைப்பதை அனஃபோரா அனாலிசிஸ் (அ) ப்ரோநெளன் ரெசல்யூஷன் என்கிறோம். இதே போல் ப்ரோநெளன் பின்வரும் வாக்கியங்களில் உள்ள பெயர்...
கணினி ஆய்வில் தமிழ் – 03

கணினி ஆய்வில் தமிழ் – 03

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 02சென்ற கட்டுரையில் "மார்பாலஜிகல் அனாலிசிஸ்" பற்றி பார்த்தோம். 'நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்'கில் பெரும்பாலான ஆய்வுகளின் முதல் படி மார்பாலஜிகல் அனாலிசிஸ் ஆகவே இருக்கும். ஏனெனில் எழுத்துக்களின்/வார்த்தைகளின்  உருவ அமைப்பை பற்றி முழுமையாக அறிந்து விட்டால் அதை உபயோகப்படுத்துவதற்கான வழிகளை எளிதில் ஆராய முடியும். இக்கட்டுரையில் வாக்கிய அமைப்பை பற்றி பார்ப்போம். இது மார்பாலஜிகல் அனாலிசிஸிற்கு அடுத்த படி ஆகும். கூகுளில் உள்ள மொழிபெயர்ப்பு வசதியை நீங்கள் பார்த்திருப்பீர்கள். இதனை மெஷின் ட்ரான்ஸ்லேஷன் என்று கூறுவார்கள். அதாவது கணினிக்கு கொடுக்கப்பட்ட விதிகளின் அடிப்படையில் கணினியே மொழிபெயர்ப்பதால் மெஷின் ட்ரான்ஸ்லேஷன் என சொல்கிறோம். நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் ஆய்வில் மிக கடினமான ஆய்வு மெஷின் ட்ரான்ஸ்லேஷன் தான். இத்துறையில் மிகப்பெரிய அளவில் ஆய்வுகள் நடந்துக் ...
கணினி ஆய்வில் தமிழ் – 02

கணினி ஆய்வில் தமிழ் – 02

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 01முந்தைய கட்டுரையில் தமிழ் மொழியை கணினியில் பயன்படுத்துவதில் உள்ள 'எழுத்துரு' பிரச்சனைகளை பார்த்தோம். ஒரு மொழியை எழுத்து வடிவத்திலோ ஒலி/ஒளி வடிவத்திலோ ஆராய்வதை "நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்" என்பார்கள். இதில் பல்வேறு வகையான ஆய்வுகள் அல்லது பயன்பாடுகள் இருக்கின்றன. அவை பின்வருமாறு..    * இன்ஃபர்மேஷன் ரெட்ரீவல் (கூகுள் தேடு பொறி)     * இன்ஃபர்மேஷன் எக்ச்டிராக்ஷன் (கூகுள் தேடு பொறியில் உள்ள இமேஜ் சர்ச் வசதி)     * மெஷின் ட்ரான்ஸ்லேஷன் (கூகுளில் உள்ள மொழிபெயர்ப்பு வசதி)     * ட்ரான்சிலரேஷன் (கூகுளில் உள்ள ஆங்கிலம் மூலம் தமிழ் தட்டச்சு செய்யும் முறை)தகவல்கள் சேகரித்தல், எடுத்தல், மொழிபெயர்த்தல், ஆங்கிலத்தில் தமிழை எழுதி தமிழ் சொற்கள் பெறுதல் என இவ்வாறு சொல்லிக்கொண்டே போகலாம். இம்முறைகளை பற்றி...
இஸ்ரோவின் “புவன்”

இஸ்ரோவின் “புவன்”

தொழில்நுட்பம்
கூகிள் எர்த்தை தொடர்ந்து இந்தியாவின் கிராமங்கள், நகரங்கள், புவியியல் இடங்களை இணையத்தில் காண இஸ்ரோ "புவன்" என்று ஒரு வலைத்தளம் உருவாக்கி உள்ளது. கடந்த மூன்று வருடங்களாக செயற்கைக் கோள்களின் மூலம் எடுக்கப்பட்ட பல்வேறு புகைப்படங்களின் உதவியோடு இச்சேவையை அளிக்கிறது. 55 மீட்டர் உயரத்தில் இருந்து விரும்பிய இடங்களை பார்க்க முடிந்தாலும், பாதுகாப்பு கருதி சில முக்கிய இடங்களை காண முடியாதவாறு தடை செய்துள்ளனர்.- தினேஷ்  ராம்...