ဖြစ်ရပ်မှန်လေ့လာမှု - စကားစမြည်ပြောဆိုဆက်သွယ်မှု AI
ASR ကို အိန္ဒိယဘာသာစကား 3 မျိုးဖြင့် တည်ဆောက်ရန် ဒေတာစုဆောင်း၊ အပိုင်းပိုင်းနှင့် ကူးယူထားသော နာရီပေါင်း 8k ကျော်
BHASHINI၊ အိန္ဒိယ၏ AI မောင်းနှင်သော ဘာသာစကားဘာသာပြန်ပလပ်ဖောင်းသည် ဒစ်ဂျစ်တယ်အိန္ဒိယအစပျိုးမှု၏ အရေးကြီးသော အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။
MSMEs များ၊ startup များနှင့် အမှီအခိုကင်းသော ဆန်းသစ်တီထွင်သူများ အတွက် Artificial Intelligence (AI) နှင့် Natural Language Processing (NLP) ကိရိယာများကို ပံ့ပိုးပေးရန် ဒီဇိုင်းထုတ်ထားပြီး Bhashini ပလပ်ဖောင်းသည် အများသူငှာ အရင်းအမြစ်တစ်ခုအဖြစ် ဆောင်ရွက်ပေးပါသည်။ ၎င်း၏ ရည်မှန်းချက်မှာ အိန္ဒိယ နိုင်ငံသားများအား ၎င်းတို့၏ မိခင်ဘာသာစကားဖြင့် နိုင်ငံ၏ ဒစ်ဂျစ်တယ် ပဏာမခြေလှမ်းများနှင့် အပြန်အလှန် အကျိုးပြုနိုင်စေခြင်းဖြင့် ဒစ်ဂျစ်တယ် ပါဝင်မှုကို မြှင့်တင်ရန် ဖြစ်သည်။
ထို့အပြင် ၎င်းသည် အိန္ဒိယဘာသာစကားဖြင့် အင်တာနက်ပါ၀င်သည့် အကြောင်းအရာများကို သိသိသာသာ ချဲ့ထွင်ရန် ရည်မှန်းထားသည်။ အထူးသဖြင့် အုပ်ချုပ်ရေးနှင့် မူဝါဒ၊ သိပ္ပံနှင့် နည်းပညာ စသည်တို့ကဲ့သို့သော အများသူငှာ အကျိုးစီးပွားဆိုင်ရာ နယ်ပယ်များဆီသို့ ဦးတည်ပစ်မှတ်ထားသည်။ ထို့ကြောင့်၊ ၎င်းသည် နိုင်ငံသားများအား ၎င်းတို့၏ကိုယ်ပိုင်ဘာသာစကားဖြင့် အင်တာနက်အသုံးပြုရန် လှုံ့ဆော်ပေးမည်ဖြစ်ပြီး ၎င်းတို့၏တက်ကြွစွာပါဝင်မှုကို မြှင့်တင်မည်ဖြစ်သည်။
ဘာသာစကား အတားအဆီးများကို ကျော်လွှားနိုင်ရန် ရည်ရွယ်၍ ဒစ်ဂျစ်တယ်ပါဝင်မှုနှင့် စွမ်းဆောင်နိုင်မှုတို့ကို သေချာစေရန်အတွက် ကွဲပြားသော ပံ့ပိုးကူညီသူများ၊ မိတ်ဖက်အဖွဲ့အစည်းများနှင့် နိုင်ငံသားများ၏ ကွဲပြားသော ဂေဟစနစ်ကို အသုံးပြုနိုင်ရန် NLP ကို ကြိုးကိုင်ထား
ရီးရဲလ်ကမ္ဘာ့ဖြေရှင်းချက်
Data ဖြင့် Localization ၏စွမ်းအားကို ထုတ်လွှတ်ခြင်း။
အိန္ဒိယဘာသာစကားများတွင် ဒစ်ဂျစ်တယ်ဝန်ဆောင်မှုများပေးဆောင်ရန်အတွက် ဘာသာစကားပေါင်းစုံဒေတာအစုံများနှင့် AI အခြေခံဘာသာစကားနည်းပညာဖြေရှင်းချက်များကိုဖန်တီးရန် အာရုံစိုက်မည့် ပလပ်ဖောင်းတစ်ခုလိုအပ်ပါသည်။ ဤပဏာမခြေလှမ်းကို စတင်ရန်အတွက် Indian Institute of Technology, Madras (IIT Madras) သည် ဘာသာစကားပေါင်းစုံ စကားပြောပုံစံများကို တည်ဆောက်ရန်အတွက် အိန္ဒိယဘာသာစကားဒေတာအတွဲများကို စုဆောင်း၊ အပိုင်းပိုင်းခွဲကာ ကူးယူဖော်ပြရန် Shaip နှင့် ပူးပေါင်းခဲ့သည်။
စိန်ခေါ်မှုများ
ဖောက်သည်အား အိန္ဒိယဘာသာစကားများအတွက် ၎င်းတို့၏ Speech Technology စကားပြောလမ်းပြမြေပုံကို ကူညီပေးရန်အတွက် အဖွဲ့သည် AI မော်ဒယ်လ်တည်ဆောက်ရန်အတွက် လေ့ကျင့်ရေးဒေတာအများအပြားကို ရယူရန်၊ အပိုင်းခွဲကာ မှတ်တမ်းတင်ထားရန် လိုအပ်ပါသည်။ သုံးစွဲသူ၏ အရေးကြီးသော လိုအပ်ချက်များမှာ-
ဒေတာများစုစည်းမှု
- ဘာသာစကားတစ်ခုလျှင် ဒေသိယစကား 3000 မျိုးဖြင့် အိန္ဒိယဘာသာစကား 8 ခုဖြင့် လေ့ကျင့်ရေးဒေတာနာရီ 4 ကို ရယူပါ။
- ဘာသာစကားတစ်ခုစီအတွက်၊ ပေးသွင်းသူက Extempore Speech နှင့် စုဆောင်းပေးလိမ့်မည်။
အသက် 18 နှစ်မှ 60 နှစ်ကြား အုပ်စုများမှ စကားဝိုင်း - အသက်၊ ကျား၊ မ၊ ပညာရေးနှင့် ဒေသိယစကားများဖြင့် ကွဲပြားသောဟောပြောသူများကို ရောနှောထားကြောင်း သေချာပါစေ။
- Specifications အရ ကွဲပြားသော အသံသွင်းပတ်ဝန်းကျင်ကို ရောနှောသေချာပါစေ။
- အသံဖမ်းယူမှုတစ်ခုစီသည် အနည်းဆုံး 16kHz ဖြစ်သင့်သော်လည်း 44kHz ဖြစ်နိုင်သည်။
ဒေတာအပိုင်းအစ
- ပေးထားသောစပီကာတစ်ခုစီအတွက် အသံအမျိုးအစား (မိန့်ခွန်း၊ စကားသံ၊ တေးဂီတ၊ ဆူညံသံ)၊ အလှည့်အပြောင်း၊ စကားစုတစ်ခုစီအတွက် စကားစုတစ်ခုစီအတွက် အသံအပိုင်းများကို 15 စက္ကန့်ကြာ ဖန်တီးပြီး အသံကို မီလီစက္ကန့်အထိ အချိန်ခေါက်ပေးပါ။
- အစနှင့်အဆုံးတွင် 200-400 millisecond padding ဖြင့် ၎င်း၏ပစ်မှတ်ထားသော အသံအချက်ပြမှုအတွက် အပိုင်းတစ်ခုစီကို ဖန်တီးပါ။
- အပိုင်းအားလုံးအတွက်၊ စတင်ချိန်၊ ပြီးဆုံးချိန်၊ အပိုင်း ID၊ ကျယ်လောင်မှုအဆင့်၊ အသံအမျိုးအစား၊ ဘာသာစကားကုဒ်၊ စပီကာ ID စသည်ဖြင့် အောက်ပါအရာဝတ္ထုများကို ဖြည့်ရပါမည်။
ဒေတာကူးယူခြင်း
- အက္ခရာများနှင့် အထူးသင်္ကေတများ၊ စာလုံးပေါင်းနှင့် သဒ္ဒါ၊ စာလုံးအကြီး၊ အတိုကောက်များ၊ စာချုပ်များ၊ တစ်ဦးချင်းပြောသောစာများ၊ နံပါတ်များ၊ ပုဒ်ဖြတ်ပုဒ်မများ၊ အတိုကောက်များ၊ ညစ်ညမ်းသော၊ စကား၊ နားမလည်နိုင်သော စကားများ၊ ရည်မှန်းထားသော ဘာသာစကားများ၊ စကားမဟုတ်သည့် စသည်တို့အကြောင်း အသေးစိတ် စာသားမှတ်တမ်းလမ်းညွှန်ချက်များကို လိုက်နာပါ။
အရည်အသွေးစစ်ဆေးခြင်းနှင့် တုံ့ပြန်ချက်
- အရည်အသွေး အကဲဖြတ်ခြင်း နှင့် မှန်ကန်ကြောင်း မှတ်တမ်းတင်ခြင်း အားလုံးကို ပေးပို့ရန် ၊ တရားဝင်သော စကားများသာ ဖြစ်ပါသည်။
ဖြေရှင်းချက်
စကားဝိုင်း AI ကို ကျွန်ုပ်တို့၏ နက်ရှိုင်းစွာ နားလည်မှုဖြင့်၊ ကျွန်ုပ်တို့သည် အိန္ဒိယဘာသာစကား 8 မျိုးဖြင့် အသံဒေတာအစုအဝေးကြီးကို တည်ဆောက်ရန်အတွက် ကျွမ်းကျင်သူစုဆောင်းသူများ၊ ဘာသာဗေဒပညာရှင်များနှင့် မှတ်ချက်ပေးသူများအဖွဲ့ဖြင့် ဒေတာစုဆောင်း၊ အပိုင်းခွဲကာ ကူးယူဖော်ပြရန် ကူညီပေးခဲ့ပါသည်။
Shaip အတွက် လုပ်ဆောင်သည့် နယ်ပယ်တွင် ပါဝင်သော်လည်း အသံလေ့ကျင့်ရေးဒေတာ အများအပြားကို ရယူခြင်း၊ အသံဖမ်းယူမှုများကို အမျိုးအစားခွဲခြင်း၊ ဒေတာကို ကူးယူခြင်းနှင့် မက်တာဒေတာများပါရှိသော သက်ဆိုင်ရာ JSON ဖိုင်များကို ပေးပို့ခြင်းတွင် အကန့်အသတ်မရှိ ကန့်သတ်မထားပေ။
မိခင်ဘာသာစကား၊ အရည်အချင်း၊ အလုပ်အကိုင်၊ ဒိုမိန်း၊ ဖိုင်ဖော်မတ်၊ ကြိမ်နှုန်း၊ ချန်နယ်၊ အသံအမျိုးအစား၊ စပီကာနံပါတ်၊ နိုင်ငံခြားဘာသာစကား နံပါတ်၊ အသုံးပြုထားသည့် စနစ်ထည့်သွင်းမှု၊ ကျဉ်းမြောင်း သို့မဟုတ် ကျယ်ဝန်းသော အသံ စသည်တို့။
Shaip သည် ရှုပ်ထွေးသော ပရောဂျက်များအတွက် စကားပြောနည်းပညာကို လေ့ကျင့်ရန် လိုအပ်သော အရည်အသွေးအဆင့်ကို ထိန်းသိမ်းထားစဉ်တွင် အသံဒေတာကို နာရီပေါင်း 3000 စုဆောင်းခဲ့သည်။ သင်တန်းသားတစ်ဦးစီထံမှ တိကျပြတ်သားသော သဘောတူညီချက်ပုံစံကို ထုတ်ယူခဲ့သည်။
1 ။ ဒေတာများစုစည်းမှု
2. Data Segmentation
- စုဆောင်းထားသော အသံဒေတာကို တစ်ကြိမ်လျှင် 15 စက္ကန့်စီ၏ စကားစုများအဖြစ် ထပ်ဆင့်ခွဲကာ ပေးထားသည့် စပီကာတစ်ခုစီအတွက်၊ အသံအမျိုးအစား၊ အလှည့်အပြောင်း၊ စကားစုများနှင့် စကားစုတစ်ခုစီအတွက် မီလီစက္ကန့်အထိ အချိန်တံဆိပ်ရိုက်နှိပ်ထားသည်။
- အသံအချက်ပြမှု၏အစနှင့်အဆုံးတွင် 200-400 မီလီစက္ကန့် padding ဖြင့် ၎င်း၏ပစ်မှတ်ထားသော အသံအချက်ပြမှုအတွက် အပိုင်းတစ်ခုစီကို ဖန်တီးထားသည်။
- အပိုင်းအားလုံးအတွက်၊ အောက်ပါအရာဝတ္ထုများသည် စတင်ချိန်၊ ပြီးဆုံးချိန်၊ အပိုင်း ID၊ ကျယ်လောင်မှုအဆင့် (ကျယ်လောင်သော၊ ပုံမှန်၊ တိတ်ဆိတ်မှု)၊ မူလအသံအမျိုးအစား (မိန့်ခွန်း၊ Babble၊ ဂီတ၊ ဆူညံသံ၊ အထပ်ထပ်)၊ ဘာသာစကားကုဒ်စပီကာ ID၊ စာသားမှတ်တမ်း စသည်တို့ဖြစ်သည်။
3. အရည်အသွေးစစ်ဆေးခြင်းနှင့် တုံ့ပြန်ချက်
- အသံသွင်းမှုအားလုံးကို အရည်အသွေးအတွက် အကဲဖြတ်ပြီး WER ၏ 90% နှင့် 90% ၏ TER ဖြင့် တရားဝင်အတည်ပြုထားသော စကားသံများကိုသာ ပေးပို့ခဲ့ပါသည်။
- အရည်အသွေးစစ်ဆေးစာရင်းကို လိုက်နာခဲ့သည်-
» အပိုင်းအရှည်၏ အများဆုံး 15 စက္ကန့်
» သတ်မှတ်ထားသော domain များမှ ကူးယူဖော်ပြသည်- ရာသီဥတု၊ သတင်းအမျိုးအစားများ၊ ကျန်းမာရေး၊ စိုက်ပျိုးရေး၊ ပညာရေး၊ အလုပ်အကိုင်များ သို့မဟုတ် ငွေကြေး
» နောက်ခံဆူညံသံ
» အသံဖိုင်ကို ပိတ်ထားခြင်း မရှိပါ - ပုံပျက်ခြင်း မရှိပါ။
» စာသားမှတ်တမ်းအတွက် မှန်ကန်သော အသံအပိုင်းခွဲခြင်း။
4. ဒေတာကူးယူခြင်း
ဆိုင်းငံ့ခြင်း၊ ဖြည့်စွက်စကားလုံးများ၊ မှားယွင်းသောအစပြုခြင်းများနှင့် အခြားနှုတ်ပြောစကားများအပါအဝင် ပြောသောစကားလုံးများအားလုံးအား စာသားမှတ်တမ်းတွင် တိကျစွာဖမ်းယူထားပါသည်။ စာလုံးအသေး၊ စာလုံးပေါင်း၊ စာလုံးအကြီး၊ အတိုကောက်များ၊ ကျုံ့များ၊ ဂဏန်းများ၊
ပုဒ်ဖြတ်ပုဒ်မများ၊ အတိုကောက်များ၊ ညစ်ညမ်းသော မိန့်ခွန်းများ၊ စကားသံမဟုတ်သည့် အသံများ စသည်တို့။ ထို့အပြင် စုစည်းမှုနှင့် စာသားမှတ်တမ်းအတွက် လုပ်ဆောင်သည့် အလုပ်အသွားအလာမှာ အောက်ပါအတိုင်းဖြစ်သည်-
အကျိုး
ကျွမ်းကျင်သော ဘာသာဗေဒပညာရှင်များထံမှ အရည်အသွေးမြင့် အသံဒေတာများသည် သတ်မှတ်ထားသောအချိန်အတွင်း မတူညီသော ဒေသိယစကားများဖြင့် အိန္ဒိယဘာသာစကား 8 မျိုးဖြင့် ဘာသာစကားမျိုးစုံပြောဆိုမှုကို အသိအမှတ်ပြုခြင်းပုံစံများကို တိကျစွာလေ့ကျင့်တည်ဆောက်နိုင်စေရန် Indian Institute of Technology – Madras ကို အသုံးပြုနိုင်မည်ဖြစ်သည်။ Speech recognition မော်ဒယ်များကို အောက်ပါတို့အတွက် အသုံးပြုနိုင်ပါသည်။
- နိုင်ငံသားများအား ၎င်းတို့၏မိခင်ဘာသာစကားဖြင့် စတင်လုပ်ဆောင်မှုများနှင့် ချိတ်ဆက်ခြင်းဖြင့် ဒစ်ဂျစ်တယ်ပါဝင်မှုအတွက် ဘာသာစကားအတားအဆီးကို ကျော်လွှားလိုက်ပါ။
- ဒစ်ဂျစ်တယ် အုပ်ချုပ်ရေးကို မြှင့်တင်ပါ။
- အိန္ဒိယဘာသာစကားဖြင့် ဝန်ဆောင်မှုများနှင့် ထုတ်ကုန်များအတွက် ဂေဟစနစ်တစ်ခုဖွဲ့စည်းရန် ဓာတ်ကူပစ္စည်း
- အထူးသဖြင့်၊ အုပ်ချုပ်ရေးနှင့် မူဝါဒများတွင် အများသူငှာ အကျိုးစီးပွားရှိသော နယ်ပယ်များတွင် ဒေသအလိုက် ဒစ်ဂျစ်တယ် အကြောင်းအရာများ
စကားပြောဆိုနိုင်သော AI အာကာသတွင် Shaip ၏ကျွမ်းကျင်မှုကို ကျွန်ုပ်တို့ သဘောကျခဲ့ကြသည်။ ၎င်းတို့၏ အလုံးစုံ ပရောဂျက် အကောင်အထည်ဖော်မှု စွမ်းရည်သည် တင်းကြပ်သော အချိန်ဇယားနှင့် လမ်းညွှန်ချက်များအတွင်း ဘာသာစကား 8 မျိုးဖြင့် ကျွမ်းကျင်သူ ဘာသာဗေဒပညာရှင်များထံမှ လိုအပ်သော လေ့ကျင့်ရေးဒေတာများကို အရင်းအမြစ်ရှာဖွေခြင်း၊ ခွဲခြမ်းခြင်း၊ မှတ်တမ်းတင်ခြင်းနှင့် ပေးပို့ခြင်းမှ၊ လက်ခံနိုင်လောက်တဲ့ အရည်အသွေး အဆင့်အတန်းကို ဆက်လက်ထိန်းသိမ်းထားဆဲပါ။”
Featured Clients များ
အဖွဲ့များကိုကမ္ဘာ့ ဦး ဆောင်သော AI ထုတ်ကုန်များတည်ဆောက်ရန်အားပေးခြင်း။