काठमाडौँ– “डेटा इन्ट्री कहिले सकिन्छ? किन यति धेरै समय लागेको?” अमेरिकामा रहेका उज्ज्वल राजभण्डारी विश्वभर छरिएर बसेका नेवार समुदायलाई यसरी ताकेता गरिरहेका हुन्थे। उनी पेसाले सफ्टवेयर तथा हाइटेक इन्जिनियर हुन्।
एक वर्षअघि ती डेटा प्रयोग गर्दै ‘गुगल ट्रान्सलेट’मा नेपाल भाषालाई समावेश गराउने प्राविधिक पाटोमा उनी संलग्न थिए। त्यो समय उनी गुगलमा इन्जिनियरको रूपमा काम गर्थे। दैनिक कामकाजसँगै आफू आवद्ध संस्थाको माध्यमबाट समुदायको जनजीवनमा सहयोग र सहजता थप्ने उपाय खोजिरहेका उनले चार वर्ष गुगलमा काम गर्दा त्यहाँका भाषा विभागका साथीभाइसँग चिनजान बढाए।
संयोगवश सोही चिनजान उनको समुदायले बोल्ने नेपाल भाषा प्रयोगकर्ताहरूका लागि ठूलो उपलब्धिको पुल बन्न पुग्यो। नेपाल भाषाका करिब ८०–९० हजार शब्द र वाक्य डेटाको रूपमा कम्प्युटरमा ‘इन्ट्री’ गर्नुपर्ने थियो। यसमा सोचेभन्दा बढी समय लाग्दा उनी कहिलेकाहीँ हतासिने पनि गर्थे।
त्यसअघि पूर्वी अफ्रिकाको ‘टेग्रिनिया’ भाषालाई गुगल ट्रान्सलेटमा समावेश गराउने काम दुई वर्षमा फत्ते भएको थियो। नेपाल भाषाको काम पनि त्यति नै समयमा सकिने उनको अनुमान थियो। यद्यपि तीन वर्ष पुग्न लाग्दा पनि डेटा अझै पुगिरहेको थिएन। नेपाल, जापान, नेदरल्यान्ड, डेनमार्क, बेलायत लगायतका विश्वका विभिन्न भागमा बसेका नेवार समुदायका प्रतिनिधिहरू हरेक दिन घण्टौँ लगाएर डेटा संकलन गर्थे। सबैको उद्देश्य एउटै थियो, जसरी हुन्छ गुगल ट्रान्सलेटमा नेपाल भाषा पनि समेटियोस्।
साढे तीन वर्षमा बल्लतल्ल काम सकिएपछि गत जुन महिनादेखि औपचारिक रूपमा गुगलमा नेपाल भाषा अनुवादको सुविधा प्रयोगमा आउन थाल्यो। त्योसँगै अंग्रेजीबाट नेपाल भाषा र नेपाल भाषाबाट अंग्रेजीमा मात्र नभई विश्वका अन्य २५० भाषामा समेत नेपाल मण्डलमा विकसित यो भाषा अनुवाद हुने भएको छ। यो सफलतामा उज्ज्वलजस्ता नेवारी डायस्पोराका हजारौँ योगदानकर्ताको सपना जोडिएको छ। यसलाई उनी एक महत्वपूर्ण ‘सोसल इभेन्ट’को संज्ञा दिन्छन्।
कसरी आयो गुगल ट्रान्सलेटमा नेपाल भाषा?
सन् २०१९ को एक दिन फेसबुक ‘स्क्रोल’ गरिरहेका उज्ज्वलको ध्यान वर्ल्ड नेवाः अर्गनाइजेसन (डब्ल्यूएनओ) को एउटा पोस्टले तान्यो। नेवारी डायस्पोराको विश्वव्यापी प्रभावमा स्थापित त्यो संस्थामा उनी जोडिएका थिएनन्।
डब्ल्यूएनओको वार्षिक भेटघाट बैठक र नेपाल भाषासहित नेपाली र अंग्रेजीको वृहत् अनलाइन शब्दकोश बनाउनेबारे पोस्टमा उल्लेख थियो। “शब्दकोशभन्दा पनि भाषालाई प्रविधिमैत्री बनाउने कुनै अन्य उपाय गरौँ न,” राजभण्डारीले पोस्टमा कमेन्ट गरे। उक्त कमेन्टमा अर्गनाइजेसनको ध्यानाकर्षण भयो। बेलायतबाट त्यसका अध्यक्ष संयुक्त श्रेष्ठ र उज्ज्वलको कुराकानी मेसेजमार्फत हुन थाल्यो। त्यसक्रममा शब्दकोशको सट्टा नेपाल भाषालाई पनि गुगल ट्रान्सलेटमा समावेश गराउने प्रस्ताव उनले राखे।
“शब्दकोश मलाई पुरानै शैली लागेको थियो। शब्दकोश बनाउँदा लाग्ने समय बरु ल्याङग्वेज ट्रान्सलेसन मोडलमा लगाउँदा अझ प्रभावकारी हुने लाग्यो,” उज्ज्वल भन्छन्, “मेरो काम भनेकै प्रविधिको उपयोगबाट दैनिकीमा सहजता ल्याउनु हो।”
जति धेरै ‘डेटा’, त्यति धेरै ‘अकुरेसी’
गुगलमा कसरी अनुवाद हुन्छ नेपाल भाषा? जवाफमा उज्ज्वल भन्छन्, “भाषा अनुवादमा मानिसले बोल्ने नेचुरल बोलीलाई कम्प्युटरका कोड (भेरियबल्स) मा परिणत गर्नुपर्छ। यसलाई डेटा दिनुपर्छ। जति धेरै डेटा भयो त्यति धेरै ‘प्याटर्न’ हुन्छ। यसले कुनै पनि प्रयोगकर्ताले कुनै पनि भाषा कम्प्युटरलाई ‘इनपुट’को रूपमा दिँदा सोही डेटा र प्याटर्न अनुसार भाषा अनुवाद गर्छ।”
एउटै शब्दका अनेकौँ अर्थ हुन्छन्, अनि अकुरेसी कसरी सम्भव होला? उकालोको जिज्ञासामा उज्ज्वल भन्छन्, “कम्युनिकेसन मोडलमा नुआन्स (अर्थका सूक्ष्म भिन्नता) हुन्छन्। डाइलेक्ट (क्षेत्रीयता), अनेकार्थी शब्द, उखान टुक्का सबै हुन्छन्। हाम्रो उद्देश्य पनि कम्युनिकेसन मोडलमा काम गर्नु थियो। त्यही कारण नेपाल भाषाका शब्द, वाक्य, उखान टुक्का लगायतका सामग्रीको डेटा भरपूर संकलन गर्नुपरेको थियो।”
भाषा अनुवादमा जति धेरै डेटा भयो त्यति नै धेरै अकुरेसी हुने उनी बताउँछन्। सबैभन्दा धेरै काम गरिएको र समय लागेको पनि सोही डेटा संकलनमा हो। यसका लागि आम बोलीचालीमा प्रयोग हुने संवादशैली, साहित्यिक रचना, कथापुस्तक, नेपाल भाषाको ‘सबटाइटल’ भेटिएजति सबैको डेटा इन्ट्री भयो। त्यसक्रममा करिब ९० हजार डेटा सिस्टममा इन्ट्री भएको उनी बताउँछन्।
यद्यपि डेटा संकलनको समयमा समस्या नभएका होइनन्। भाषा र प्रविधिलाई जोड्नुपर्ने यस कार्यका भाषाविज्ञहरू खासै प्रविधिमैत्री थिएनन् भने प्रविधिमा जानकार युवापुस्ता भाषाको व्याकरण र गहनतामा परिपक्व भइसकेका थिएन। यस्तो अवस्थाका बीच गुगल ट्रान्सलेसनमा अनुवाद हुने नेपाल भाषालाई शतप्रतिशत शुद्ध बनाउनुपर्ने चुनौती उज्ज्वलसामु थियो।
“कसैलाई टाइप गर्न आउँदैनथ्यो, कसैले भाषा बुझ्थे, तर दोहोरो उत्तर दिन जान्दैनथे। यसरी साढे तीन वर्ष गरेको मिहिनेत हाम्रै लागि पनि सिकाइको समय बन्यो,” उनी भन्छन्।
त्यसबाट उत्पन्न समस्याको हल गर्न भाषाविद्को एउटा समूह बन्यो भने टाइप गर्ने काम युवाको समूहलाई दिइयो। अनुभवी मानिसहरूको आवद्धताले भाषिक शुद्धतामा निखार आयो। कोही नेपाल भाषासँगै नेपाली र अंग्रेजी राम्ररी बोल्न सक्थे। उनीहरूको आवाज सुनेर टिप्ने, टाइप गर्ने र अनुवाद गर्ने अनि अनुवाद कति सही भयो त्यसको परीक्षण गर्ने कामसमेत सँगसँगै हुन थाल्यो। यसो गर्दा कामले गति लियो।
ती कामसँगै डेटा इन्ट्री र भाषाको मोडल टेस्ट गरेर प्रतिक्रिया लिने पक्रिया पनि चलिरह्यो। यसबाट अनुवाद सही नदेखिएका इनपुटका लागि पुनः पर्याप्त डेटा राख्ने काम भए। “सरल भाषामा भन्नुपर्दा काम गर्ने तौरतरिका आर्टिकल लेखेको जस्तै हुन्छ। ड्राफ्ट गर्दै, मिलाउँदै जानुपर्छ। त्यसरी झन्डै ४२ महिना लगातार काम भयो।”
त्यसरी नेपाल भाषा पनि कम्प्युटराइज्ड वर्ल्ड एउटा ग्लोबल भेरियबल्स बन्न पुगेको उज्ज्वल बताउँछन्। भाषा हराएरै गयो भने पनि कम्प्युटर प्रणालीमा अभिलेखसरह संग्रहित हुने उनले बताए।
‘भोल्युम’ मा काम गर्न सक्ने नेवार समुदाय
गुगलमा नेपाल भाषा अनुवाद सामेल भएको करिब एक महिनापछि जर्मनको हाइडलबर्ग विश्वविद्यालय अन्तर्गत नेपालमा रहेको साउथ एशिएन इन्स्टिच्युटले डब्ल्यूएनओका अध्यक्ष संयुक्त श्रेष्ठ र उज्ज्वल राजभण्डारीसँग अन्तक्र्रिया गर्यो। त्यसमा डब्ल्यूएनओका अध्यक्ष श्रेष्ठले भने, “दशकौँअघि नेवारको पहिचान नेपाल भाषा बोल्न आउने व्यक्ति र समुदायको रूपमा सीमित थियो। अब कुनै राजनीतिक तथा भौगोलिक परिधिभन्दा माथि उठेर भाषामार्फत नेवार मानिन पाउनुले नेपाल भाषाको महत्व उजागर भएको छ।”
उनले प्रस्तुत गरेको कार्यपत्रमा युनेस्कोको अध्ययनअनुसार विश्वभर आठ लाख ४६ हजार ६०० जना मात्र नेपाल भाषा बोल्ने मानिसको सख्ंया रहेको उल्लेख छ। यति मानिसले बोल्ने भाषा ‘इनडेन्जर्ड’ अर्थात् खतराको सूचीमा पर्छ। गुगलकर्मी उज्ज्वलको सहयोग र विश्वभरका नेवारहरूको सहकार्यमा यसलाई गुगलको ‘अटोमेटेड ट्रान्सलेसन’ मा समावेश गर्न पाएकोमा उनले खुशी व्यक्त गरे।
त्यसो त गुगल ट्रान्सलेट नेपाल भाषा सिकाउनको लागि व्यवस्था गरिएको भाषाको मोडल होइन। यसले अंग्रेजी वा अन्य भाषालाई नेपाल भाषा अथवा नेपाल भाषाबाट अन्यमा अनुवाद मात्र गर्ने हो। यद्यपि भाषा सिक्न इच्छुकका लागि आधारभूत जानकारी लिन अथवा नेपाल भाषा आउनेले फरक स्थानमा गएर कुरा गर्नुपर्ने अवस्थामा यो सहयोगी हुन सक्छ।
कोही विदेशी नेपाल आएका छन् अथवा कोही नेवार विदेशमा छन् भने स्थानीय साइनबोर्ड तथा अन्य जानकारीले संवादमा सहजता थप्ने काम गुगल ट्रान्सलेटबाट हुने उज्ज्वल बताउँछन्। “यो नेपाल भाषा सिकाउने शिक्षक त होइन, तर यसमा भाषाको ९० प्रतिशत अकुरेसी छ,” उनी भन्छन्। गुगलमा ७० लाखभन्दा कम मानिसले बोल्ने भाषालाई कम्प्युटराइज गर्न समय लाग्ने तथ्य पनि उनले अघि सारे।
आगामी ७०–८० वर्षमा हराउने भाषाको सूचीमा युनेस्कोले नेपाल भाषालाई पनि राखेको छ। यद्यपि प्रविधिमैत्री बनाएर यसलाई जोगाउने खम्बा तय गरेको उज्ज्वलको भनाइ छ। भाषा हराउने डर स्वाभाविक भएको बताउँदै उनी भन्छन्, “मलाई नेपाल भाषा बोल्न आउँदैन। मेरो हजुरबाआमाले बोलेको सुनेको छु। मेरो बुबाआमाले बुझ्नुहुन्थ्यो। हामी भने यो भाषासँग एक्सपोज नै हुन पाएनौँ। सायद काठमाडौँको नयाँ पुस्तामा पनि त्यही अवस्था छ।”
भाषा बोल्न नआएकै कारण र लामो समय देशबाहिर रहँदा नेपाल भाषाको महत्वबारे आफूलाई ज्ञान नभए पनि गुगल ट्रान्सलेटमार्फत सयौँ वर्षका लागि कम्प्युटरमा यो भाषा सुरक्षित रहन लागेकोमा प्रशन्न देखिएका उज्ज्वलले उकालोसँग भने, “भविष्यमा यस भाषालाई कतिले प्रयोग गर्लान् थाहा छैन, भाषाको रेफरेन्स भने अब कम्प्युटर सिस्टममा सुरक्षित भएको छ।”