ဖြစ်ရပ်မှန်လေ့လာမှု - စကားစမြည်ပြောဆိုဆက်သွယ်မှု AI
ASR ကို အိန္ဒိယဘာသာစကား 3 မျိုးဖြင့် တည်ဆောက်ရန် ဒေတာစုဆောင်း၊ အပိုင်းပိုင်းနှင့် ကူးယူထားသော နာရီပေါင်း 8k ကျော်
BHASHINI၊ အိန္ဒိယ၏ AI မောင်းနှင်သော ဘာသာစကားဘာသာပြန်ပလပ်ဖောင်းသည် ဒစ်ဂျစ်တယ်အိန္ဒိယအစပျိုးမှု၏ အရေးကြီးသော အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။
MSMEs များ၊ startup များနှင့် အမှီအခိုကင်းသော ဆန်းသစ်တီထွင်သူများ အတွက် Artificial Intelligence (AI) နှင့် Natural Language Processing (NLP) ကိရိယာများကို ပံ့ပိုးပေးရန် ဒီဇိုင်းထုတ်ထားပြီး Bhashini ပလပ်ဖောင်းသည် အများသူငှာ အရင်းအမြစ်တစ်ခုအဖြစ် ဆောင်ရွက်ပေးပါသည်။ ၎င်း၏ ရည်မှန်းချက်မှာ အိန္ဒိယ နိုင်ငံသားများအား ၎င်းတို့၏ မိခင်ဘာသာစကားဖြင့် နိုင်ငံ၏ ဒစ်ဂျစ်တယ် ပဏာမခြေလှမ်းများနှင့် အပြန်အလှန် အကျိုးပြုနိုင်စေခြင်းဖြင့် ဒစ်ဂျစ်တယ် ပါဝင်မှုကို မြှင့်တင်ရန် ဖြစ်သည်။
ထို့အပြင် ၎င်းသည် အိန္ဒိယဘာသာစကားဖြင့် အင်တာနက်ပါ၀င်သည့် အကြောင်းအရာများကို သိသိသာသာ ချဲ့ထွင်ရန် ရည်မှန်းထားသည်။ အထူးသဖြင့် အုပ်ချုပ်ရေးနှင့် မူဝါဒ၊ သိပ္ပံနှင့် နည်းပညာ စသည်တို့ကဲ့သို့သော အများသူငှာ အကျိုးစီးပွားဆိုင်ရာ နယ်ပယ်များဆီသို့ ဦးတည်ပစ်မှတ်ထားသည်။ ထို့ကြောင့်၊ ၎င်းသည် နိုင်ငံသားများအား ၎င်းတို့၏ကိုယ်ပိုင်ဘာသာစကားဖြင့် အင်တာနက်အသုံးပြုရန် လှုံ့ဆော်ပေးမည်ဖြစ်ပြီး ၎င်းတို့၏တက်ကြွစွာပါဝင်မှုကို မြှင့်တင်မည်ဖြစ်သည်။
ဘာသာစကား အတားအဆီးများကို ကျော်လွှားနိုင်ရန် ရည်ရွယ်၍ ဒစ်ဂျစ်တယ်ပါဝင်မှုနှင့် စွမ်းဆောင်နိုင်မှုတို့ကို သေချာစေရန်အတွက် ကွဲပြားသော ပံ့ပိုးကူညီသူများ၊ မိတ်ဖက်အဖွဲ့အစည်းများနှင့် နိုင်ငံသားများ၏ ကွဲပြားသော ဂေဟစနစ်ကို အသုံးပြုနိုင်ရန် NLP ကို ကြိုးကိုင်ထား
ရီးရဲလ်ကမ္ဘာ့ဖြေရှင်းချက်
Data ဖြင့် Localization ၏စွမ်းအားကို ထုတ်လွှတ်ခြင်း။
အိန္ဒိယဘာသာစကားများတွင် ဒစ်ဂျစ်တယ်ဝန်ဆောင်မှုများပေးဆောင်ရန်အတွက် ဘာသာစကားပေါင်းစုံဒေတာအစုံများနှင့် AI အခြေခံဘာသာစကားနည်းပညာဖြေရှင်းချက်များကိုဖန်တီးရန် အာရုံစိုက်မည့် ပလပ်ဖောင်းတစ်ခုလိုအပ်ပါသည်။ ဤပဏာမခြေလှမ်းကို စတင်ရန်အတွက် Indian Institute of Technology, Madras (IIT Madras) သည် ဘာသာစကားပေါင်းစုံ စကားပြောပုံစံများကို တည်ဆောက်ရန်အတွက် အိန္ဒိယဘာသာစကားဒေတာအတွဲများကို စုဆောင်း၊ အပိုင်းပိုင်းခွဲကာ ကူးယူဖော်ပြရန် Shaip နှင့် ပူးပေါင်းခဲ့သည်။
စိန်ခေါ်မှုများ
ဖောက်သည်အား အိန္ဒိယဘာသာစကားများအတွက် ၎င်းတို့၏ Speech Technology စကားပြောလမ်းပြမြေပုံကို ကူညီပေးရန်အတွက် အဖွဲ့သည် AI မော်ဒယ်လ်တည်ဆောက်ရန်အတွက် လေ့ကျင့်ရေးဒေတာအများအပြားကို ရယူရန်၊ အပိုင်းခွဲကာ မှတ်တမ်းတင်ထားရန် လိုအပ်ပါသည်။ သုံးစွဲသူ၏ အရေးကြီးသော လိုအပ်ချက်များမှာ-
ဒေတာများစုစည်းမှု
- ဘာသာစကားတစ်ခုလျှင် ဒေသိယစကား 3000 မျိုးဖြင့် အိန္ဒိယဘာသာစကား 8 ခုဖြင့် လေ့ကျင့်ရေးဒေတာနာရီ 4 ကို ရယူပါ။
- ဘာသာစကားတစ်ခုစီအတွက်၊ ပေးသွင်းသူက Extempore Speech နှင့် စုဆောင်းပေးလိမ့်မည်။
အသက် 18 နှစ်မှ 60 နှစ်ကြား အုပ်စုများမှ စကားဝိုင်း - အသက်၊ ကျား၊ မ၊ ပညာရေးနှင့် ဒေသိယစကားများဖြင့် ကွဲပြားသောဟောပြောသူများကို ရောနှောထားကြောင်း သေချာပါစေ။
- Specifications အရ ကွဲပြားသော အသံသွင်းပတ်ဝန်းကျင်ကို ရောနှောသေချာပါစေ။
- အသံဖမ်းယူမှုတစ်ခုစီသည် အနည်းဆုံး 16kHz ဖြစ်သင့်သော်လည်း 44kHz ဖြစ်နိုင်သည်။
ဒေတာအပိုင်းအစ
- ပေးထားသောစပီကာတစ်ခုစီအတွက် အသံအမျိုးအစား (မိန့်ခွန်း၊ စကားသံ၊ တေးဂီတ၊ ဆူညံသံ)၊ အလှည့်အပြောင်း၊ စကားစုတစ်ခုစီအတွက် စကားစုတစ်ခုစီအတွက် အသံအပိုင်းများကို 15 စက္ကန့်ကြာ ဖန်တီးပြီး အသံကို မီလီစက္ကန့်အထိ အချိန်ခေါက်ပေးပါ။
- အစနှင့်အဆုံးတွင် 200-400 millisecond padding ဖြင့် ၎င်း၏ပစ်မှတ်ထားသော အသံအချက်ပြမှုအတွက် အပိုင်းတစ်ခုစီကို ဖန်တီးပါ။
- အပိုင်းအားလုံးအတွက်၊ စတင်ချိန်၊ ပြီးဆုံးချိန်၊ အပိုင်း ID၊ ကျယ်လောင်မှုအဆင့်၊ အသံအမျိုးအစား၊ ဘာသာစကားကုဒ်၊ စပီကာ ID စသည်ဖြင့် အောက်ပါအရာဝတ္ထုများကို ဖြည့်ရပါမည်။
ဒေတာကူးယူခြင်း
- အက္ခရာများနှင့် အထူးသင်္ကေတများ၊ စာလုံးပေါင်းနှင့် သဒ္ဒါ၊ စာလုံးအကြီး၊ အတိုကောက်များ၊ စာချုပ်များ၊ တစ်ဦးချင်းပြောသောစာများ၊ နံပါတ်များ၊ ပုဒ်ဖြတ်ပုဒ်မများ၊ အတိုကောက်များ၊ ညစ်ညမ်းသော၊ စကား၊ နားမလည်နိုင်သော စကားများ၊ ရည်မှန်းထားသော ဘာသာစကားများ၊ စကားမဟုတ်သည့် စသည်တို့အကြောင်း အသေးစိတ် စာသားမှတ်တမ်းလမ်းညွှန်ချက်များကို လိုက်နာပါ။
အရည်အသွေးစစ်ဆေးခြင်းနှင့် တုံ့ပြန်ချက်
- အရည်အသွေး အကဲဖြတ်ခြင်း နှင့် မှန်ကန်ကြောင်း မှတ်တမ်းတင်ခြင်း အားလုံးကို ပေးပို့ရန် ၊ တရားဝင်သော စကားများသာ ဖြစ်ပါသည်။
ဖြေရှင်းချက်
စကားဝိုင်း AI ကို ကျွန်ုပ်တို့၏ နက်ရှိုင်းစွာ နားလည်မှုဖြင့်၊ ကျွန်ုပ်တို့သည် အိန္ဒိယဘာသာစကား 8 မျိုးဖြင့် အသံဒေတာအစုအဝေးကြီးကို တည်ဆောက်ရန်အတွက် ကျွမ်းကျင်သူစုဆောင်းသူများ၊ ဘာသာဗေဒပညာရှင်များနှင့် မှတ်ချက်ပေးသူများအဖွဲ့ဖြင့် ဒေတာစုဆောင်း၊ အပိုင်းခွဲကာ ကူးယူဖော်ပြရန် ကူညီပေးခဲ့ပါသည်။
Shaip အတွက် လုပ်ဆောင်သည့် နယ်ပယ်တွင် ပါဝင်သော်လည်း အသံလေ့ကျင့်ရေးဒေတာ အများအပြားကို ရယူခြင်း၊ အသံဖမ်းယူမှုများကို အမျိုးအစားခွဲခြင်း၊ ဒေတာကို ကူးယူခြင်းနှင့် မက်တာဒေတာများပါရှိသော သက်ဆိုင်ရာ JSON ဖိုင်များကို ပေးပို့ခြင်းတွင် အကန့်အသတ်မရှိ ကန့်သတ်မထားပေ။
မိခင်ဘာသာစကား၊ အရည်အချင်း၊ အလုပ်အကိုင်၊ ဒိုမိန်း၊ ဖိုင်ဖော်မတ်၊ ကြိမ်နှုန်း၊ ချန်နယ်၊ အသံအမျိုးအစား၊ စပီကာနံပါတ်၊ နိုင်ငံခြားဘာသာစကား နံပါတ်၊ အသုံးပြုထားသည့် စနစ်ထည့်သွင်းမှု၊ ကျဉ်းမြောင်း သို့မဟုတ် ကျယ်ဝန်းသော အသံ စသည်တို့။
Shaip သည် ရှုပ်ထွေးသော ပရောဂျက်များအတွက် စကားပြောနည်းပညာကို လေ့ကျင့်ရန် လိုအပ်သော အရည်အသွေးအဆင့်ကို ထိန်းသိမ်းထားစဉ်တွင် အသံဒေတာကို နာရီပေါင်း 3000 စုဆောင်းခဲ့သည်။ သင်တန်းသားတစ်ဦးစီထံမှ တိကျပြတ်သားသော သဘောတူညီချက်ပုံစံကို ထုတ်ယူခဲ့သည်။
1 ။ ဒေတာများစုစည်းမှု