Shadow

Tag: கணினி ஆய்வில் தமிழ்

கணினி ஆய்வில் தமிழ் – 10

கணினி ஆய்வில் தமிழ் – 10

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 9இந்த வாரம் ஒரு நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் சம்பந்தப்பட்ட ஒரு பயன்பாட்டினை உருவாக்க தேவையான டேட்டா என்ட்ரி வேலைகள் என்ன என்பதைப் பற்றிப் பார்ப்போம். உதாரணத்திற்கு ஒரு தேடு பொறியை உருவாக்க வேண்டுமெனில் அதற்கு தேவையான ஆவணங்கள்/ வலைத்தளங்களில் உள்ள வார்த்தைகளையும் அதன் பல்வேறு அர்த்தங்கள் மற்றும் அவ்வார்த்தையினோடு என்ன வார்த்தைகள் வரக்கூடும் என்பன போன்ற தகவல்களை நாம் டேட்டா பேசில் முன்னமே பதிவு செய்து வைத்தல் வேண்டும். இப்படி செய்யும் பொருட்டு அத்தேடு பொறி மிகுந்த அர்த்தமுள்ளதாகவும் பயனரின் தேவையை பூர்த்தி செய்யக் கூடியதாகவும் அமையும். நாம் முன்னரே பார்த்தது போல், "திருநெல்வேலி" என்று வினா கொடுத்தால் திருநெல்வேலி என்கிற வார்த்தை பெரும்பாலும் சேர்ந்து வரக்கூடிய வார்த்தைகளான "அல்வா", தாமிரபரணி" மற்றும் அங்குள்ள கல்லூரிகள், வழிப்பாட்டுத் தலங்கள் ...
கணினி ஆய்வில் தமிழ் – 09

கணினி ஆய்வில் தமிழ் – 09

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 08கடந்த சில வாரங்களாக ஒரு தேடு பொறியின் செயல்பாட்டினைப் பற்றிப் பார்த்தோம். இந்த வாரம் நம் பண்டைய இலக்கண நூலான, நன்னூல் மற்றும் சமஸ்கிருத நூல்களான நியாயா, மீமாம்சா போன்ற நூல்கள் எப்படி நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் ஆய்வுகளிற்கு பயன் படுத்தப்பட்டுள்ளன என்பதை பற்றிப் பார்ப்போம்.கடந்த எட்டு வாரங்களாக நாம் பார்த்த நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் செயல்முறைகள் யாவும் மேற்கத்திய செயல்முறைகள் ஆகும். நமது இந்திய பாரம்பரியத்தில் வந்த இலக்கண நூலான நன்னூல் பல அறிய கருத்துகளை உள்ளடக்கியுள்ளது. உதாரணத்திற்கு அர்கியூமேன்டேட்டிவ் அனாலிசிஸ் (Argumentative Analysis) என்று ஒரு துறை நேட்சுரல் லாங்குவேஜ் ப்ராசசிங்கில் உண்டு. அதாவது இரண்டு கணினிகள் தானாகவே மனிதர்களைப் போல் உரையாட வைத்தலுக்கு அர்கியூமேன்டேட்டிவ்  அனாலிசிஸ் சமமாகும். இவ்வாய்வில் ஆராய்ச்சியா...
கணினி ஆய்வில் தமிழ் – 08

கணினி ஆய்வில் தமிழ் – 08

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 07 சென்ற வாரம் ஒரு தேடு பொறியில் ஆஃப்லைன் செயல்பாடுகளைப் பற்றிப் பார்த்தோம். இந்த வாரம் ஒரு தேடு பொறியில் பயனர் வினா (க்வெரி: query) கொடுத்தவுடன் அளிக்கப்படும் வலைப்பக்கங்கள் எவ்வாறு வரிசைப்படுத்தப் படுகின்றன என்பதை பற்றிப் பார்ப்போம்.உதாரணத்திற்கு "அண்ணா பல்கலைக்கழகம்" என்று வினாவைக் கொடுக்கிறோம் என்று வைத்துக் கொள்வோம். அண்ணா பல்கலைக்கழக வலைத்தளமான "www.annauniv.edu" முதலில் வரிசைப்படுத்தப்பட்டு இருக்க வேண்டும். அண்ணா பல்கலைக்கழகம் பற்றிய தகவல்களைக் கொண்ட பிற வலைத்தளங்கள் வரிசையில் பின்னர் வர வேண்டும்.வியாபார நோக்கம் இல்லாமல் செயல்படும் தேடு பொறிகள், பயனர் அளிக்கும் வினாவையும் டேட்டா பேசில் (data base) உள்ள வலைப் பக்கங்களையும் நன்கு ஆராய்ந்து, மேத்தமாட்டிக்கல் மாடல் (Mathematical model) மூலமாக ராங்கிங் அல்காரிதத்தை (Ranking alogorithm) வகுத்து செயல்பட...
கணினி ஆய்வில் தமிழ் – 07

கணினி ஆய்வில் தமிழ் – 07

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 06சென்ற வாரம் தேடு பொறியில் உள்ள ஆஃப்லைன் செயல்பாடுகளான கிராலிங், இன்டெக்சிங், வினா விரிவாக்கம் குறித்துப் பார்த்தோம். இவ்வாரம் இன்னொரு ஆஃப்லைன் செயல்பாடான சர்ச்சிங் (தேடுதல்) குறித்துப் பார்ப்போம். சென்ற வாரம் உபயோகித்த அதே உதாரணத்தை எடுத்துக் கொள்வோம். அதாவது கீழே ஒரு தேடு பொறியில் இன்டெக்ஸ் செய்யப்பட்ட வார்த்தைகள், பயனர் கொடுக்கும் வினா மற்றும் வினா விரிவாக்க வார்த்தைகள் உதாரணத்திற்கு கொடுக்கப்பட்டுள்ளன.இன்டெக்ஸ் வார்த்தைகள்திருநெல்வேலி அல்வா தாமிரபரணி: -d1 ,d100,d890 திருநெல்வேலி அல்வா: -d5,d450,500,600 திருநெல்வேலி தாமிரபரணி: -d100,d800,4500 திருநெல்வேலி: -d1,...d4000 அல்வா: -d6,...d6000 தாமிரபரணி: -d3,...d5000வினா/க்வெரிதிருநெல்வேலிவினா விரிவாக்கம்திருநெல்வேலி அல்வா தாமிரபரணிஇப்பொழுது சர்ச்சிங் செயல்பாட்...
கணினி ஆய்வில் தமிழ் – 06

கணினி ஆய்வில் தமிழ் – 06

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 05சென்ற வாரம் தேடு பொறியின் ஆன்லைன் செயல்பாடுகளைப் பற்றி பார்த்தோம்.இவ்வாரம் ஆஃப்லைன் செயல்பாடுகள் பற்றி பார்ப்போம்.பின் வருவன ஆஃப்லைன் செயல்பாடுகள் ஆகும்.வலைத்தளங்களை கிரால் (Crawl) செய்தல் வேண்டும் .இதை செய்யும் நிரலிக்கு "கிராலர் (Crawler)" என்று பெயர்.கிரால் செய்யப்பட்ட வலைத்தளங்களின் உள்ள இமேஜ், எழுத்துமூலம் உள்ள செய்திகள் போன்றவற்றை பிரித்து ஒவ்வொன்றிற்கும் ஆவணங்கள் அடிப்படையில் ஐ.டிக்கள் (IDs) கொடுக்கப்படும். பின் வரும் செயல்பாடுகள் இந்த ஐ.டியை வைத்தே செயல்படும் . வலைத்தளங்களிலிருந்து பிரித்தெடுக்கப்பட்ட  இமேஜ்  மற்றும் செய்திகளில் உள்ள முக்கியமானவற்றை  இன்டெக்ஸ் செய்வார்கள். உதராணத்திற்கு "இந்தியா" என்கிற வார்த்தை அல்லது இமேஜ் d1,d4 d50,d1000 முதலிய வலைத்தளங்களில் / ஆவணங்களில் உள்ளது என குறித்து வைப்பார்கள் .  d1,...
கணினி ஆய்வில் தமிழ் – 05

கணினி ஆய்வில் தமிழ் – 05

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 04 சென்ற வாரம் அனஃபோரா அனாலிசிஸ் மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (Anaphora Analysis and Named Entity Recognition) பற்றி பார்த்தோம். இந்த வாரம் கூகுள் போன்ற தேடு பொறிகள் எப்படி செயல்படுகின்றன என்பதைப் பற்றிப் பார்ப்போம்.ஒரு தேடு பொறியின் செயல்பாட்டினை இருவகையாக பிரிக்கலாம். அவை ஆன்லைன் மற்றும் ஆஃப்லைன் செயல்பாடுகள் ஆகும். முதலில் ஆன்லைன் பற்றி பார்ப்போம். ஏனெனில் பயனருக்கு ஓரளவிற்கு பரிச்சயமானது ஆன்லைன் செயல்பாடுகளே ஆகும். அவை பின்வருமாறு:* பயனர் கொடுக்கும் வினா (query) தேடு பொறியினுள் செலுத்தபடுகிறது.* அவ்வினா பல வினாக்களாக விரிவாக்கப்படுகிறது. இதனை க்வெரி எக்ஸ்பான்ஷன் (query expansion) என்பார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம். தமிழில் கூகுளை நீங்கள் உபயோகித்திருபீர்கள். "முருகன் கோவில்" என்று நீங்கள் வினா கொடுத்தால், பழன...
கணினி ஆய்வில் தமிழ் – 04

கணினி ஆய்வில் தமிழ் – 04

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 03சென்ற வாரம் மெஷின் ட்ரான்ஸ்லேஷன் பற்றி பார்த்தோம். இந்த வாரம் அனஃபோரா அனாலிசிஸ் (anaphora analysis) மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (named entity recognition) பற்றி பார்ப்போம். முதலில் அனஃபோரா பற்றி பார்போம். அனஃபோரா அனாலிசிசை ப்ரோநெளன் ரெசல்யூஷன்  (pronoun resolution) என்றும் சொல்வார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம்."சூரபத்மன் முருகனால் கொல்லப்பட்டான். அவன் மிகவும் கொடியவன்."இரண்டாம் வாக்கியத்தில் உள்ள "அவன்" என்கிற சொல் சூரபத்மனைத்தான் குறிக்கிறது என நாம் அறிவோம். கணினிக்கு அதை தெரிவிப்பது கடினம். அதாவது வாக்கியங்களில் வரும் ப்ரோனவுன் முந்தைய வாக்கியங்களில் உள்ள தகுந்த பெயர்ச் சொல்லை சரியாக கணினியால் எடுத்துக் கொள்ள வைப்பதை அனஃபோரா அனாலிசிஸ் (அ) ப்ரோநெளன் ரெசல்யூஷன் என்கிறோம். இதே போல் ப்ரோநெளன் பின்வரும் வாக்கியங்களில் உள...
கணினி ஆய்வில் தமிழ் – 03

கணினி ஆய்வில் தமிழ் – 03

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 02சென்ற கட்டுரையில் "மார்பாலஜிகல் அனாலிசிஸ்" பற்றி பார்த்தோம். 'நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்'கில் பெரும்பாலான ஆய்வுகளின் முதல் படி மார்பாலஜிகல் அனாலிசிஸ் ஆகவே இருக்கும். ஏனெனில் எழுத்துக்களின்/வார்த்தைகளின்  உருவ அமைப்பை பற்றி முழுமையாக அறிந்து விட்டால் அதை உபயோகப்படுத்துவதற்கான வழிகளை எளிதில் ஆராய முடியும். இக்கட்டுரையில் வாக்கிய அமைப்பை பற்றி பார்ப்போம். இது மார்பாலஜிகல் அனாலிசிஸிற்கு அடுத்த படி ஆகும். கூகுளில் உள்ள மொழிபெயர்ப்பு வசதியை நீங்கள் பார்த்திருப்பீர்கள். இதனை மெஷின் ட்ரான்ஸ்லேஷன் என்று கூறுவார்கள். அதாவது கணினிக்கு கொடுக்கப்பட்ட விதிகளின் அடிப்படையில் கணினியே மொழிபெயர்ப்பதால் மெஷின் ட்ரான்ஸ்லேஷன் என சொல்கிறோம். நேட்சுரல் லாங்குவேஜ் ப்ராசசிங் ஆய்வில் மிக கடினமான ஆய்வு மெஷின் ட்ரான்ஸ்லேஷன் தான். இத்துறையில் மிகப்பெரிய அளவில் ஆய்வுகள் ந...
கணினி ஆய்வில் தமிழ் – 02

கணினி ஆய்வில் தமிழ் – 02

தொடர், தொழில்நுட்பம்
கணினி ஆய்வில் தமிழ் - 01முந்தைய கட்டுரையில் தமிழ் மொழியை கணினியில் பயன்படுத்துவதில் உள்ள 'எழுத்துரு' பிரச்சனைகளை பார்த்தோம். ஒரு மொழியை எழுத்து வடிவத்திலோ ஒலி/ஒளி வடிவத்திலோ ஆராய்வதை "நேட்சுரல் லாங்குவேஜ் ப்ராசெசிங்" என்பார்கள். இதில் பல்வேறு வகையான ஆய்வுகள் அல்லது பயன்பாடுகள் இருக்கின்றன. அவை பின்வருமாறு..    * இன்ஃபர்மேஷன் ரெட்ரீவல் (கூகுள் தேடு பொறி)     * இன்ஃபர்மேஷன் எக்ச்டிராக்ஷன் (கூகுள் தேடு பொறியில் உள்ள இமேஜ் சர்ச் வசதி)     * மெஷின் ட்ரான்ஸ்லேஷன் (கூகுளில் உள்ள மொழிபெயர்ப்பு வசதி)     * ட்ரான்சிலரேஷன் (கூகுளில் உள்ள ஆங்கிலம் மூலம் தமிழ் தட்டச்சு செய்யும் முறை)தகவல்கள் சேகரித்தல், எடுத்தல், மொழிபெயர்த்தல், ஆங்கிலத்தில் தமிழை எழுதி தமிழ் சொற்கள் பெறுதல் என இவ்வாறு சொல்லிக்கொண்டே போகலாம். இம்முறைக...