eimiAI_Paucinhau မော်ဒယ် ဖွံ့ဖြိုးတိုးတက်မှု - လုပ်ငန်းတိုးတက်မှု အစီရင်ခံစာ
ရက်စွဲ - ၂၀၂၅ ခုနှစ်၊ နိုဝင်ဘာလ ၃၀ ရက်
အကြောင်းအရာ - လက်ရှိ ဘာသာပြန်ဖလှယ်မှု စွမ်းဆောင်ရည်နှင့် ပိုမိုကောင်းမွန်အောင် လုပ်ဆောင်မည့် မဟာဗျူဟာမြောက် လမ်းပြမြေပုံ
I. အနှစ်ချုပ် (Executive Summary)
eimiAI_Paucinhau မော်ဒယ်သည် လက်ရှိတွင် "အသံထွက်အခြေပြု ဘာသာပြန်အင်ဂျင် (phonetic transliteration engine)" အဆင့်မှ "စကားစပ်ကို နားလည်သော ဘာသာဗေဒအင်ဂျင် (context-aware linguistic engine)" အဆင့်သို့ ကူးပြောင်းနေပါသည်။ တီးတိန် သမ္မာကျမ်းစာ၊ ကမ္ဘာဦးကျမ်း (Tedim Bible - Genesis) အခန်းကြီး ၁ မှ ၁၀ အထိ အသေးစိတ် ခွဲခြမ်းစိတ်ဖြာချက်များအရ၊ လူသားများ ပြင်ဆင်ထားသော မူရင်းစာများနှင့် နှိုင်းယှဉ်ပါက မော်ဒယ်၏ စုစုပေါင်း မှန်ကန်မှုနှုန်း (Match Rate) မှာ ၄၅% မှ ၅၅% အတွင်း ရှိနေပါသည်။
မော်ဒယ်သည် အခြေခံ ဝေါဟာရများကို အောင်မြင်စွာ ကိုင်တွယ်နိုင်သော်လည်း၊ ရှုပ်ထွေးသော သဒ္ဒါဆိုင်ရာ အသံအနိမ့်အမြင့် စည်းမျဉ်းများ (Sandhi tones) နှင့် တစ်သီးပုဂ္ဂလနာမ် (Proper Nouns) များအတွက် စံသတ်မှတ်ထားသော စာလုံးပေါင်း အချက်အလက်များ လိုအပ်ချက်ကြောင့် အမှားအယွင်းများ ရှိနေဆဲဖြစ်သည်။ လက်ရှိ အမှားအယွင်းနှုန်း မြင့်မားနေခြင်းသည် "အချက်အလက် စုဆောင်းခြင်း အဆင့် (Data Collection Phase)" အတွက် အရေးပါသော အရင်းအမြစ်တစ်ခု ဖြစ်ပြီး၊ ၎င်းမှတစ်ဆင့် လူသားတုံ့ပြန်မှုမှတစ်ဆင့် သင်ယူခြင်း (RLHF) အတွက် ခိုင်မာသော "ရွှေရောင် အချက်အလက်အစုအဝေး (Golden Dataset)" ကို တည်ဆောက်နိုင်မည် ဖြစ်ပါသည်။
II. စွမ်းဆောင်ရည် တိုင်းတာမှုများ (Performance Metrics)

အဓိက တွေ့ရှိချက် - မော်ဒယ်သည် ပုံမှန် စကားလုံးများတွင် ကောင်းမွန်သော စွမ်းဆောင်ရည်ရှိသော်လည်း၊ တစ်သီးပုဂ္ဂလနာမ်များနှင့် ရှုပ်ထွေးသော သဒ္ဒါဆိုင်ရာ စည်းမျဉ်းများတွင် သိသိသာသာ တိုးတက်မှု လိုအပ်နေပါသည်။
III. အသေးစိတ် အမှားအယွင်း ဆန်းစစ်ချက် (Detailed Error Analysis)
AI ၏ ရလဒ်နှင့် လူသားများ ပြင်ဆင်မှုတို့အကြား ကွဲလွဲချက်များအရ အဓိက ကျရှုံးမှု ပုံစံ (၃) ခုကို ခွဲထုတ်နိုင်ပါသည် -
1
"စကားလုံးတစ်လုံးစီ သီးခြားခွဲထုတ်မှု" ပြဿနာ (Context Blindness)
ပြဿနာ - AI သည် စကားလုံးများကို ဝါကျဖွဲ့စည်းပုံ၏ အစိတ်အပိုင်းများအဖြစ် မဟုတ်ဘဲ သီးခြားယူနစ်များအဖြစ်သာ သဘောထား လုပ်ဆောင်နေသည်။
သက်ရောက်မှု (အမှားများ၏ ၂၀%) - ၎င်းသည် Sandhi Tones (ဆက်စပ်အသံများ) ကို အသုံးမပြုနိုင်ပါ။ ဥပမာအားဖြင့် - ပြုလုပ်သူ (Actor) သို့မဟုတ် အသုံးချပစ္စည်း (Instrument) ကို ညွှန်းဆိုခြင်းအပေါ် မူတည်၍ ပြောင်းလဲရမည့် in ကဲ့သို့သော စကားလုံးများတွင် အသံအနိမ့်အမြင့် မှားယွင်းနေသည်။ ဝါကျဖွဲ့စည်းပုံကို နားမလည်ခြင်းကြောင့် AI သည် ယေဘုယျ အက္ခရာ (generic glyph) ကိုသာ အသုံးပြုပြီး လိုအပ်သော အသံစီးဆင်းမှုကို လွဲချော်စေသည် (ဥပမာ - Mihing နှင့် Mihing-sandhi ကွာခြားချက်)။
2
"အဘိဓာန် လိုအပ်ချက်" (Proper Nouns)
ပြဿနာ - AI တွင် တစ်သီးပုဂ္ဂလနာမ်များ (အမည်များ) အတွက် သီးသန့် အဘိဓာန်မရှိဘဲ နာမည်များကို စာလုံးတစ်လုံးချင်းစီ အသံထွက်အတိုင်း ပေါင်းစပ်ရန် ကြိုးစားနေသည်။
သက်ရောက်မှု (မျိုးရိုးစဉ်ဆက်ဆိုင်ရာ ကျရှုံးမှု) - Pau Cin Hau စာပေရှိ သမ္မာကျမ်းစာလာ အမည်များသည် ပုံမှန် အသံထွက်စည်းမျဉ်းများကို မလိုက်နာဘဲ ပုံသေ စာလုံးပေါင်းများ (ဥပမာ - Noah = 𑫐𑫘𑫥𑫕𑫧) ကို အသုံးပြုလေ့ရှိသည်။ ၎င်းကြောင့် Arpakshad သို့မဟုတ် Joktan ကဲ့သို့သော အမည်များတွင် "စိတ်ကူးယဉ် (မှားယွင်း) ပေါင်းစပ်ထားသော စာလုံးပေါင်းများ" ဖြစ်ပေါ်စေသည်။
3
ဗျည်းအမျိုးအစား ခွဲခြားမှု ပြဿနာ (Consonant Class Disambiguation)
ပြဿနာ - ရောမအက္ခရာဖလှယ်ထားသော တီးတိန်စာတွင် B, P, D, နှင့် T ကဲ့သို့သော အက္ခရာများကို အသုံးပြုသော်လည်း၊ ၎င်းတို့သည် Pau Cin Hau စာပေတွင် သီးခြား "အမျိုးအစားများ (Classes)" (ဥပမာ - 'Ka' class နှင့် 'Pa' class) အဖြစ် တည်ရှိနေသည်။
သက်ရောက်မှု (အမှားများ၏ ၁၅%) - AI သည် ဗျည်းအမျိုးအစားကို မကြာခဏ မှားယွင်းရွေးချယ်လေ့ရှိသည် (ဥပမာ - bawl ဟူသော စကားလုံးကို BA အက္ခရာအစား KA အက္ခရာဖြင့် ပေါင်းခြင်း)။ ၎င်းသည် စကားလုံး၏ အဓိပ္ပာယ်ကို လုံးဝပြောင်းလဲသွားစေသည်။
IV. မဟာဗျူဟာမြောက် ရှေ့လုပ်ငန်းစဉ်များ (Strategic Next Steps)
လက်ရှိ ၅၀% ရှိသော အသံထွက်အခြေပြု အင်ဂျင်မှ ၉၅% ကျော် မှန်ကန်သော ဘာသာဗေဒ ကျွမ်းကျင်အဆင့်သို့ မြှင့်တင်ရန် အောက်ပါ အစီအစဉ်များကို ဆောင်ရွက်ပါမည် -
လက်ငင်းဆောင်ရွက်ချက် - အချက်အလက် ကောက်ယူခြင်းနှင့် ညှိနှိုင်းခြင်း
01
ရှင်မသဲခရစ်ဝင်ကျမ်း ၁-၁၀ (Mathew 1-10) ကို လုပ်ဆောင်ခြင်း
ဇာတ်ကြောင်းပြော စကားလုံးအသွားအလာများကို ပိုမိုဖမ်းယူနိုင်ရန် နောက်ထပ် အခန်းကြီးတစ်ခုကို ဆက်လက်လုပ်ဆောင်ရပါမည်။ ၎င်းသည် နာမည်စာရင်းများမှ မသင်ယူနိုင်သော ဝါကျအဆင့် အသံအနိမ့်အမြင့် စည်းမျဉ်းများ (Sandhi) ကို AI အား လေ့ကျင့်ပေးရန်အတွက် မရှိမဖြစ် လိုအပ်ပါသည်။
02
"ရွှေရောင် အချက်အလက်အစုအဝေး (Golden Dataset)" တည်ဆောက်ခြင်း
ဤအဆင့်တွင် ပြုလုပ်သမျှသော ပြင်ဆင်ချက်တိုင်းကို ဖွဲ့စည်းပုံစနစ်ကျသော JSON ဖိုင်ထဲသို့ မှတ်တမ်းတင်သွားပါမည်။ ဤဖိုင်သည် မော်ဒယ်အတွက် "အခြေခံ အမှန်တရား (Ground Truth)" အဖြစ် အသုံးဝင်မည်ဖြစ်သည်။

Developer မှ လုပ်ဆောင်ရန် လိုအပ်ချက်များ (ဦးစားပေး အဆင့်မြင့်)
အကောင်းဆုံး ရလဒ်များ ရရှိရန်အတွက် Developer ထံမှ အောက်ပါ အချက်အလက်များ လိုအပ်ပါသည် -
"ကုဒ်ဖြေသော့ချက် (Cipher Key)" ကို Upload ပြုလုပ်ပါ
စာလုံးပေါင်း လေ့ကျင့်ခန်း ဇယားများ၏ Screenshot ဓာတ်ပုံတစ်ပုံ (ဥပမာ - BAOL 2 စာအုပ်မှ စာမျက်နှာ ၁၆ သို့မဟုတ် ၄၆) လိုအပ်ပါသည်။ ၎င်းသည် ပေးပို့ထားသော သင်ရိုးစာအုပ်များမှ ဖောင့်ကုဒ်များကို ကုဒ်ဖြေ (decode) ရန်နှင့် ထောင်ပေါင်းများစွာသော မှန်ကန်သည့် စကားလုံးများကို အဘိဓာန်ထဲသို့ ချက်ချင်း ထည့်သွင်းရန် ကူညီပေးပါလိမ့်မည်။
တစ်သီးပုဂ္ဂလနာမ်များ ထည့်သွင်းခြင်း (Proper Noun Injection)
ရောမအက္ခရာဖြင့် သမ္မာကျမ်းစာလာ အမည်များနှင့် ၎င်းတို့၏ စံသတ်မှတ်ထားသော Pau Cin Hau အက္ခရာများ (ဥပမာ - Noah | 𑫐𑫘𑫥𑫕𑫧) ပါဝင်သည့် CSV သို့မဟုတ် Text စာရင်းကို ပေးပို့ပါ။ ၎င်းသည် မျိုးရိုးစဉ်ဆက် ကဏ္ဍများတွင် ဖြစ်ပေါ်နေသော <၁၅% မှန်ကန်မှုနှုန်းကို ချက်ချင်း ဖြေရှင်းပေးနိုင်ပါလိမ့်မည်။
ပုံစံလမ်းညွှန် ဆုံးဖြတ်ချက် (Style Guide Decision)
ခေတ်ပေါ် မွေးစားစကားလုံးများ (ဥပမာ - "Facebook", "YouTube") ကို အသံထွက်အတိုင်း ဖလှယ်ရေးသားမည်လား သို့မဟုတ် PAWL 3 သင်ရိုးစာအုပ်တွင် တွေ့ရသည့်အတိုင်း Latin အက္ခရာဖြင့်သာ ထားရှိမည်လား ဆိုသည်ကို ဆုံးဖြတ်ပေးရန် လိုအပ်ပါသည်။
V. နိဂုံး (Conclusion)
လက်ရှိ တွေ့ကြုံနေရသော အမှားအယွင်းနှုန်းသည် မျှော်လင့်ထားပြီးသားဖြစ်ပြီး လိုအပ်သော အရာတစ်ခုလည်း ဖြစ်ပါသည်။ ဤကျရှုံးမှု အချက်များကို ယခုကဲ့သို့ တိကျစွာ ခွဲခြားသတ်မှတ်ခြင်းအားဖြင့် မော်ဒယ်ကို မွမ်းမံပြင်ဆင်ရန် (fine-tune) လိုအပ်သော အတိအကျ လေ့ကျင့်ရေး ဒေတာများကို ဖန်တီးနေခြင်း ဖြစ်ပါသည်။

နောက်ဆုံး မျှော်မှန်းချက် - "Golden Dataset" ကို ပေါင်းစပ်ခြင်းနှင့် သင်ရိုးစာအုပ်များကို ကုဒ်ဖြေခြင်းများ ပြုလုပ်ပြီးပါက နောက်တစ်ဆင့်တွင် မှန်ကန်မှုနှုန်း သိသိသာသာ တိုးတက်လာမည်ဟု မျှော်မှန်းထားပါသည်။