Shadow

தொடர்

சுயம்வரம் – 2

சுயம்வரம் – 2

கதை, தொடர், படைப்புகள்
"அவன் எங்க சாப்பிட்டானா??" என்று தன் மனைவியிடம் கேட்டார் பத்மநாபன்."வீட்டுக்கு வந்ததுல இருந்து அந்த பொட்டிய வச்சிக்கிட்டு என்னமோ பண்ணிட்டு இருக்கான்" என்றார் அவன் தாய்.மடி கணினிக்கு ராஜேஷின் தாய் வைத்த பெயர் "பொட்டி".ராஜேஷின் அறைக்கு சென்றவர், "என்ன ஆபீஸ் வேலையா??"  என்று கேட்டார்.அசடு வழிந்துகொண்டே, "அந்த பொண்ணுக்கு அனுப்ப என்னுடைய தகவல்கள் அனைத்தையும் தயார் படுத்திகிட்டு இருக்கேன்" என்றான். "அட.. உனக்கு கூட பொறுப்பு வந்துடுச்சு போல!! சரி.. சரி.. காட்டு பார்ப்போம்" என்று அதனை பார்க்க தொடங்கியவர்,"டேய்.. ராஜேஷ்  என்னடா இதெல்லாம். நீ எந்தெந்த கம்பெனில எத்தன வருஷம் வேலை பார்த்த என்ன கிழிச்சன்னு யாரு கேட்டா ??" என்றார் கடுப்பாக."அவ தான் ஈ மெயில் அனுப்ப சொல்லி இருக்காளே!!" என்றான் ராஜேஷ்... "அதுக்காக ஏதோ வேலைக்கு அப்ளை பண்ற மாதி...
சுயம்வரம் – 1

சுயம்வரம் – 1

கதை, தொடர், படைப்புகள்
வழக்கம் போல் அன்று காலை "The Hindu" நியூஸ் பேப்பர் படித்துகொண்டிருந்தார் பத்மநாபன்.திடிரென்று பலமாக சிரிக்க தொடங்கியவர், தன் மகனிடம்,"டேய் ராஜேஷ் நீ இன்டெர்வியுக்கு ரெடியாக வேண்டிய நேரம் வந்துடுச்சி  டா " என்றார்."இன்டெர்வியூவா?? என்னப்பா சொல்லுறீங்க??  இப்போ நான் இருக்கும் கம்பெனிநல்லா தானே இருக்கு, நான் ஏன் வேற கம்பெனி மாறனும்" என்றான் குழப்பத்துடன்.ஹா ஹா சரி இதை பாரு என்று செய்தித்தாளை அவனிடம் நீட்டினார்.அதில் கீழ்கண்டவாறு ஒரு விளம்பரம் கொடுக்கபட்டிருந்தது.26 yrs old gal working as a HR in a MNC looking for a bridegroomInterested candidates can forward their details to crazy....gal@gmail.com   Shortlisted profiles will be called up for selection procedure which comprises of following rounds 1. Written test 2. Group Discussion   Can...
கணினி ஆய்வில் தமிழ் – 10

கணினி ஆய்வில் தமிழ் – 10

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 9இந்த வாரம் ஒரு நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் சம்பந்தப்பட்ட ஒரு பயன்பாட்டினை உருவாக்க தேவையான டேட்டா என்ட்ரி வேலைகள் என்ன என்பதைப் பற்றிப் பார்ப்போம். உதாரணத்திற்கு ஒரு தேடு பொறியை உருவாக்க வேண்டுமெனில் அதற்கு தேவையான ஆவணங்கள்/ வலைத்தளங்களில் உள்ள வார்த்தைகளையும் அதன் பல்வேறு அர்த்தங்கள் மற்றும் அவ்வார்த்தையினோடு என்ன வார்த்தைகள் வரக்கூடும் என்பன போன்ற தகவல்களை நாம் டேட்டா பேசில் முன்னமே பதிவு செய்து வைத்தல் வேண்டும். இப்படி செய்யும் பொருட்டு அத்தேடு பொறி மிகுந்த அர்த்தமுள்ளதாகவும் பயனரின் தேவையை பூர்த்தி செய்யக் கூடியதாகவும் அமையும். நாம் முன்னரே பார்த்தது போல், "திருநெல்வேலி" என்று வினா கொடுத்தால் திருநெல்வேலி என்கிற வார்த்தை பெரும்பாலும் சேர்ந்து வரக்கூடிய வார்த்தைகளான "அல்வா", தாமிரபரணி" மற்றும் அங்குள்ள கல்லூரிகள், வழிப்பாட்டுத் தலங்கள் ஆகியவை இ...
கணினி ஆய்வில் தமிழ் – 09

கணினி ஆய்வில் தமிழ் – 09

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 08கடந்த சில வாரங்களாக ஒரு தேடு பொறியின் செயல்பாட்டினைப் பற்றிப் பார்த்தோம். இந்த வாரம் நம் பண்டைய இலக்கண நூலான, நன்னூல் மற்றும் சமஸ்கிருத நூல்களான நியாயா, மீமாம்சா போன்ற நூல்கள் எப்படி நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் ஆய்வுகளிற்கு பயன் படுத்தப்பட்டுள்ளன என்பதை பற்றிப் பார்ப்போம்.கடந்த எட்டு வாரங்களாக நாம் பார்த்த நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் செயல்முறைகள் யாவும் மேற்கத்திய செயல்முறைகள் ஆகும். நமது இந்திய பாரம்பரியத்தில் வந்த இலக்கண நூலான நன்னூல் பல அறிய கருத்துகளை உள்ளடக்கியுள்ளது. உதாரணத்திற்கு அர்கியூமேன்டேட்டிவ் அனாலிசிஸ் (Argumentative Analysis) என்று ஒரு துறை நேட்சுரல் லாங்குவேஜ் ப்ராசசிங்கில் உண்டு. அதாவது இரண்டு கணினிகள் தானாகவே மனிதர்களைப் போல் உரையாட வைத்தலுக்கு அர்கியூமேன்டேட்டிவ்  அனாலிசிஸ் சமமாகும். இவ்வாய்வில் ஆராய்ச்சியாளர்கள், ...
கணினி ஆய்வில் தமிழ் – 08

கணினி ஆய்வில் தமிழ் – 08

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 07 சென்ற வாரம் ஒரு தேடு பொறியில் ஆஃப்லைன் செயல்பாடுகளைப் பற்றிப் பார்த்தோம். இந்த வாரம் ஒரு தேடு பொறியில் பயனர் வினா (க்வெரி: query) கொடுத்தவுடன் அளிக்கப்படும் வலைப்பக்கங்கள் எவ்வாறு வரிசைப்படுத்தப் படுகின்றன என்பதை பற்றிப் பார்ப்போம்.உதாரணத்திற்கு "அண்ணா பல்கலைக்கழகம்" என்று வினாவைக் கொடுக்கிறோம் என்று வைத்துக் கொள்வோம். அண்ணா பல்கலைக்கழக வலைத்தளமான "www.annauniv.edu" முதலில் வரிசைப்படுத்தப்பட்டு இருக்க வேண்டும். அண்ணா பல்கலைக்கழகம் பற்றிய தகவல்களைக் கொண்ட பிற வலைத்தளங்கள் வரிசையில் பின்னர் வர வேண்டும்.வியாபார நோக்கம் இல்லாமல் செயல்படும் தேடு பொறிகள், பயனர் அளிக்கும் வினாவையும் டேட்டா பேசில் (data base) உள்ள வலைப் பக்கங்களையும் நன்கு ஆராய்ந்து, மேத்தமாட்டிக்கல் மாடல் (Mathematical model) மூலமாக ராங்கிங் அல்காரிதத்தை (Ranking alogorithm) வகுத்து செயல்படுகின்ற...
கணினி ஆய்வில் தமிழ் – 07

கணினி ஆய்வில் தமிழ் – 07

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 06சென்ற வாரம் தேடு பொறியில் உள்ள ஆஃப்லைன் செயல்பாடுகளான கிராலிங், இன்டெக்சிங், வினா விரிவாக்கம் குறித்துப் பார்த்தோம். இவ்வாரம் இன்னொரு ஆஃப்லைன் செயல்பாடான சர்ச்சிங் (தேடுதல்) குறித்துப் பார்ப்போம். சென்ற வாரம் உபயோகித்த அதே உதாரணத்தை எடுத்துக் கொள்வோம். அதாவது கீழே ஒரு தேடு பொறியில் இன்டெக்ஸ் செய்யப்பட்ட வார்த்தைகள், பயனர் கொடுக்கும் வினா மற்றும் வினா விரிவாக்க வார்த்தைகள் உதாரணத்திற்கு கொடுக்கப்பட்டுள்ளன.இன்டெக்ஸ் வார்த்தைகள்திருநெல்வேலி அல்வா தாமிரபரணி: -d1 ,d100,d890 திருநெல்வேலி அல்வா: -d5,d450,500,600 திருநெல்வேலி தாமிரபரணி: -d100,d800,4500 திருநெல்வேலி: -d1,...d4000 அல்வா: -d6,...d6000 தாமிரபரணி: -d3,...d5000வினா/க்வெரிதிருநெல்வேலிவினா விரிவாக்கம்திருநெல்வேலி அல்வா தாமிரபரணிஇப்பொழுது சர்ச்சிங் செயல்பாட்டில், ...
கணினி ஆய்வில் தமிழ் – 06

கணினி ஆய்வில் தமிழ் – 06

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 05சென்ற வாரம் தேடு பொறியின் ஆன்லைன் செயல்பாடுகளைப் பற்றி பார்த்தோம்.இவ்வாரம் ஆஃப்லைன் செயல்பாடுகள் பற்றி பார்ப்போம்.பின் வருவன ஆஃப்லைன் செயல்பாடுகள் ஆகும்.வலைத்தளங்களை கிரால் (Crawl) செய்தல் வேண்டும் .இதை செய்யும் நிரலிக்கு "கிராலர் (Crawler)" என்று பெயர்.கிரால் செய்யப்பட்ட வலைத்தளங்களின் உள்ள இமேஜ், எழுத்துமூலம் உள்ள செய்திகள் போன்றவற்றை பிரித்து ஒவ்வொன்றிற்கும் ஆவணங்கள் அடிப்படையில் ஐ.டிக்கள் (IDs) கொடுக்கப்படும். பின் வரும் செயல்பாடுகள் இந்த ஐ.டியை வைத்தே செயல்படும் . வலைத்தளங்களிலிருந்து பிரித்தெடுக்கப்பட்ட  இமேஜ்  மற்றும் செய்திகளில் உள்ள முக்கியமானவற்றை  இன்டெக்ஸ் செய்வார்கள். உதராணத்திற்கு "இந்தியா" என்கிற வார்த்தை அல்லது இமேஜ் d1,d4 d50,d1000 முதலிய வலைத்தளங்களில் / ஆவணங்களில் உள்ளது என குறித்து வைப்பார்கள் .  d1,d4... என...
கணினி ஆய்வில் தமிழ் – 05

கணினி ஆய்வில் தமிழ் – 05

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 04 சென்ற வாரம் அனஃபோரா அனாலிசிஸ் மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (Anaphora Analysis and Named Entity Recognition) பற்றி பார்த்தோம். இந்த வாரம் கூகுள் போன்ற தேடு பொறிகள் எப்படி செயல்படுகின்றன என்பதைப் பற்றிப் பார்ப்போம்.ஒரு தேடு பொறியின் செயல்பாட்டினை இருவகையாக பிரிக்கலாம். அவை ஆன்லைன் மற்றும் ஆஃப்லைன் செயல்பாடுகள் ஆகும். முதலில் ஆன்லைன் பற்றி பார்ப்போம். ஏனெனில் பயனருக்கு ஓரளவிற்கு பரிச்சயமானது ஆன்லைன் செயல்பாடுகளே ஆகும். அவை பின்வருமாறு:* பயனர் கொடுக்கும் வினா (query) தேடு பொறியினுள் செலுத்தபடுகிறது.* அவ்வினா பல வினாக்களாக விரிவாக்கப்படுகிறது. இதனை க்வெரி எக்ஸ்பான்ஷன் (query expansion) என்பார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம். தமிழில் கூகுளை நீங்கள் உபயோகித்திருபீர்கள். "முருகன் கோவில்" என்று நீங்கள் வினா கொடுத்தால், பழனி முருகன...
கணினி ஆய்வில் தமிழ் – 04

கணினி ஆய்வில் தமிழ் – 04

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 03சென்ற வாரம் மெஷின் ட்ரான்ஸ்லேஷன் பற்றி பார்த்தோம். இந்த வாரம் அனஃபோரா அனாலிசிஸ் (anaphora analysis) மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (named entity recognition) பற்றி பார்ப்போம். முதலில் அனஃபோரா பற்றி பார்போம். அனஃபோரா அனாலிசிசை ப்ரோநெளன் ரெசல்யூஷன்  (pronoun resolution) என்றும் சொல்வார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம்."சூரபத்மன் முருகனால் கொல்லப்பட்டான். அவன் மிகவும் கொடியவன்."இரண்டாம் வாக்கியத்தில் உள்ள "அவன்" என்கிற சொல் சூரபத்மனைத்தான் குறிக்கிறது என நாம் அறிவோம். கணினிக்கு அதை தெரிவிப்பது கடினம். அதாவது வாக்கியங்களில் வரும் ப்ரோனவுன் முந்தைய வாக்கியங்களில் உள்ள தகுந்த பெயர்ச் சொல்லை சரியாக கணினியால் எடுத்துக் கொள்ள வைப்பதை அனஃபோரா அனாலிசிஸ் (அ) ப்ரோநெளன் ரெசல்யூஷன் என்கிறோம். இதே போல் ப்ரோநெளன் பின்வரும் வாக்கியங்களில் உள்ள பெயர்...
கணினி ஆய்வில் தமிழ் – 03

கணினி ஆய்வில் தமிழ் – 03

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 02சென்ற கட்டுரையில் "மார்பாலஜிகல் அனாலிசிஸ்" பற்றி பார்த்தோம். 'நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்'கில் பெரும்பாலான ஆய்வுகளின் முதல் படி மார்பாலஜிகல் அனாலிசிஸ் ஆகவே இருக்கும். ஏனெனில் எழுத்துக்களின்/வார்த்தைகளின்  உருவ அமைப்பை பற்றி முழுமையாக அறிந்து விட்டால் அதை உபயோகப்படுத்துவதற்கான வழிகளை எளிதில் ஆராய முடியும். இக்கட்டுரையில் வாக்கிய அமைப்பை பற்றி பார்ப்போம். இது மார்பாலஜிகல் அனாலிசிஸிற்கு அடுத்த படி ஆகும். கூகுளில் உள்ள மொழிபெயர்ப்பு வசதியை நீங்கள் பார்த்திருப்பீர்கள். இதனை மெஷின் ட்ரான்ஸ்லேஷன் என்று கூறுவார்கள். அதாவது கணினிக்கு கொடுக்கப்பட்ட விதிகளின் அடிப்படையில் கணினியே மொழிபெயர்ப்பதால் மெஷின் ட்ரான்ஸ்லேஷன் என சொல்கிறோம். நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் ஆய்வில் மிக கடினமான ஆய்வு மெஷின் ட்ரான்ஸ்லேஷன் தான். இத்துறையில் மிகப்பெரிய அளவில் ஆய்வுகள் நடந்துக் ...
கணினி ஆய்வில் தமிழ் – 02

கணினி ஆய்வில் தமிழ் – 02

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 01முந்தைய கட்டுரையில் தமிழ் மொழியை கணினியில் பயன்படுத்துவதில் உள்ள 'எழுத்துரு' பிரச்சனைகளை பார்த்தோம். ஒரு மொழியை எழுத்து வடிவத்திலோ ஒலி/ஒளி வடிவத்திலோ ஆராய்வதை "நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்" என்பார்கள். இதில் பல்வேறு வகையான ஆய்வுகள் அல்லது பயன்பாடுகள் இருக்கின்றன. அவை பின்வருமாறு..    * இன்ஃபர்மேஷன் ரெட்ரீவல் (கூகுள் தேடு பொறி)     * இன்ஃபர்மேஷன் எக்ச்டிராக்ஷன் (கூகுள் தேடு பொறியில் உள்ள இமேஜ் சர்ச் வசதி)     * மெஷின் ட்ரான்ஸ்லேஷன் (கூகுளில் உள்ள மொழிபெயர்ப்பு வசதி)     * ட்ரான்சிலரேஷன் (கூகுளில் உள்ள ஆங்கிலம் மூலம் தமிழ் தட்டச்சு செய்யும் முறை)தகவல்கள் சேகரித்தல், எடுத்தல், மொழிபெயர்த்தல், ஆங்கிலத்தில் தமிழை எழுதி தமிழ் சொற்கள் பெறுதல் என இவ்வாறு சொல்லிக்கொண்டே போகலாம். இம்முறைகளை பற்றி...