ဖြစ်ရပ်မှန်လေ့လာမှု - စကားစမြည်ပြောဆိုဆက်သွယ်မှု AI

ASR ကို အိန္ဒိယဘာသာစကား 3 မျိုးဖြင့် တည်ဆောက်ရန် ဒေတာစုဆောင်း၊ အပိုင်းပိုင်းနှင့် ကူးယူထားသော နာရီပေါင်း 8k ကျော်

စကားစုများ
အစိုးရသည် ၎င်း၏နိုင်ငံသားများအား Bhashini Project မှတစ်ဆင့် ၎င်းတို့၏ကိုယ်ပိုင်ဘာသာစကားဖြင့် အင်တာနက်နှင့် ဒစ်ဂျစ်တယ်ဝန်ဆောင်မှုများကို လွယ်ကူစွာဝင်ရောက်နိုင်စေရန် ရည်ရွယ်ပါသည်။

BHASHINI၊ အိန္ဒိယ၏ AI မောင်းနှင်သော ဘာသာစကားဘာသာပြန်ပလပ်ဖောင်းသည် ဒစ်ဂျစ်တယ်အိန္ဒိယအစပျိုးမှု၏ အရေးကြီးသော အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။

MSMEs များ၊ startup များနှင့် အမှီအခိုကင်းသော ဆန်းသစ်တီထွင်သူများ အတွက် Artificial Intelligence (AI) နှင့် Natural Language Processing (NLP) ကိရိယာများကို ပံ့ပိုးပေးရန် ဒီဇိုင်းထုတ်ထားပြီး Bhashini ပလပ်ဖောင်းသည် အများသူငှာ အရင်းအမြစ်တစ်ခုအဖြစ် ဆောင်ရွက်ပေးပါသည်။ ၎င်း၏ ရည်မှန်းချက်မှာ အိန္ဒိယ နိုင်ငံသားများအား ၎င်းတို့၏ မိခင်ဘာသာစကားဖြင့် နိုင်ငံ၏ ဒစ်ဂျစ်တယ် ပဏာမခြေလှမ်းများနှင့် အပြန်အလှန် အကျိုးပြုနိုင်စေခြင်းဖြင့် ဒစ်ဂျစ်တယ် ပါဝင်မှုကို မြှင့်တင်ရန် ဖြစ်သည်။

ထို့အပြင် ၎င်းသည် အိန္ဒိယဘာသာစကားဖြင့် အင်တာနက်ပါ၀င်သည့် အကြောင်းအရာများကို သိသိသာသာ ချဲ့ထွင်ရန် ရည်မှန်းထားသည်။ အထူးသဖြင့် အုပ်ချုပ်ရေးနှင့် မူဝါဒ၊ သိပ္ပံနှင့် နည်းပညာ စသည်တို့ကဲ့သို့သော အများသူငှာ အကျိုးစီးပွားဆိုင်ရာ နယ်ပယ်များဆီသို့ ဦးတည်ပစ်မှတ်ထားသည်။ ထို့ကြောင့်၊ ၎င်းသည် နိုင်ငံသားများအား ၎င်းတို့၏ကိုယ်ပိုင်ဘာသာစကားဖြင့် အင်တာနက်အသုံးပြုရန် လှုံ့ဆော်ပေးမည်ဖြစ်ပြီး ၎င်းတို့၏တက်ကြွစွာပါဝင်မှုကို မြှင့်တင်မည်ဖြစ်သည်။

ဘာသာစကား အတားအဆီးများကို ကျော်လွှားနိုင်ရန် ရည်ရွယ်၍ ဒစ်ဂျစ်တယ်ပါဝင်မှုနှင့် စွမ်းဆောင်နိုင်မှုတို့ကို သေချာစေရန်အတွက် ကွဲပြားသော ပံ့ပိုးကူညီသူများ၊ မိတ်ဖက်အဖွဲ့အစည်းများနှင့် နိုင်ငံသားများ၏ ကွဲပြားသော ဂေဟစနစ်ကို အသုံးပြုနိုင်ရန် NLP ကို ​​ကြိုးကိုင်ထား

ရီးရဲလ်ကမ္ဘာ့ဖြေရှင်းချက်

Data ဖြင့် Localization ၏စွမ်းအားကို ထုတ်လွှတ်ခြင်း။

အိန္ဒိယဘာသာစကားများတွင် ဒစ်ဂျစ်တယ်ဝန်ဆောင်မှုများပေးဆောင်ရန်အတွက် ဘာသာစကားပေါင်းစုံဒေတာအစုံများနှင့် AI အခြေခံဘာသာစကားနည်းပညာဖြေရှင်းချက်များကိုဖန်တီးရန် အာရုံစိုက်မည့် ပလပ်ဖောင်းတစ်ခုလိုအပ်ပါသည်။ ဤပဏာမခြေလှမ်းကို စတင်ရန်အတွက် Indian Institute of Technology, Madras (IIT Madras) သည် ဘာသာစကားပေါင်းစုံ စကားပြောပုံစံများကို တည်ဆောက်ရန်အတွက် အိန္ဒိယဘာသာစကားဒေတာအတွဲများကို စုဆောင်း၊ အပိုင်းပိုင်းခွဲကာ ကူးယူဖော်ပြရန် Shaip နှင့် ပူးပေါင်းခဲ့သည်။

စိန်ခေါ်မှုများ

ဖောက်သည်အား အိန္ဒိယဘာသာစကားများအတွက် ၎င်းတို့၏ Speech Technology စကားပြောလမ်းပြမြေပုံကို ကူညီပေးရန်အတွက် အဖွဲ့သည် AI မော်ဒယ်လ်တည်ဆောက်ရန်အတွက် လေ့ကျင့်ရေးဒေတာအများအပြားကို ရယူရန်၊ အပိုင်းခွဲကာ မှတ်တမ်းတင်ထားရန် လိုအပ်ပါသည်။ သုံးစွဲသူ၏ အရေးကြီးသော လိုအပ်ချက်များမှာ-

ဒေတာများစုစည်းမှု

  • ဘာသာစကားတစ်ခုလျှင် ဒေသိယစကား 3000 မျိုးဖြင့် အိန္ဒိယဘာသာစကား 8 ခုဖြင့် လေ့ကျင့်ရေးဒေတာနာရီ 4 ကို ရယူပါ။
  • ဘာသာစကားတစ်ခုစီအတွက်၊ ပေးသွင်းသူက Extempore Speech နှင့် စုဆောင်းပေးလိမ့်မည်။
    အသက် 18 နှစ်မှ 60 နှစ်ကြား အုပ်စုများမှ စကားဝိုင်း
  • အသက်၊ ကျား၊ မ၊ ပညာရေးနှင့် ဒေသိယစကားများဖြင့် ကွဲပြားသောဟောပြောသူများကို ရောနှောထားကြောင်း သေချာပါစေ။
  • Specifications အရ ကွဲပြားသော အသံသွင်းပတ်ဝန်းကျင်ကို ရောနှောသေချာပါစေ။
  • အသံဖမ်းယူမှုတစ်ခုစီသည် အနည်းဆုံး 16kHz ဖြစ်သင့်သော်လည်း 44kHz ဖြစ်နိုင်သည်။

ဒေတာအပိုင်းအစ

  • ပေးထားသောစပီကာတစ်ခုစီအတွက် အသံအမျိုးအစား (မိန့်ခွန်း၊ စကားသံ၊ တေးဂီတ၊ ဆူညံသံ)၊ အလှည့်အပြောင်း၊ စကားစုတစ်ခုစီအတွက် စကားစုတစ်ခုစီအတွက် အသံအပိုင်းများကို 15 စက္ကန့်ကြာ ဖန်တီးပြီး အသံကို မီလီစက္ကန့်အထိ အချိန်ခေါက်ပေးပါ။
  • အစနှင့်အဆုံးတွင် 200-400 millisecond padding ဖြင့် ၎င်း၏ပစ်မှတ်ထားသော အသံအချက်ပြမှုအတွက် အပိုင်းတစ်ခုစီကို ဖန်တီးပါ။
  • အပိုင်းအားလုံးအတွက်၊ စတင်ချိန်၊ ပြီးဆုံးချိန်၊ အပိုင်း ID၊ ကျယ်လောင်မှုအဆင့်၊ အသံအမျိုးအစား၊ ဘာသာစကားကုဒ်၊ စပီကာ ID စသည်ဖြင့် အောက်ပါအရာဝတ္ထုများကို ဖြည့်ရပါမည်။

ဒေတာကူးယူခြင်း

  • အက္ခရာများနှင့် အထူးသင်္ကေတများ၊ စာလုံးပေါင်းနှင့် သဒ္ဒါ၊ စာလုံးအကြီး၊ အတိုကောက်များ၊ စာချုပ်များ၊ တစ်ဦးချင်းပြောသောစာများ၊ နံပါတ်များ၊ ပုဒ်ဖြတ်ပုဒ်မများ၊ အတိုကောက်များ၊ ညစ်ညမ်းသော၊ စကား၊ နားမလည်နိုင်သော စကားများ၊ ရည်မှန်းထားသော ဘာသာစကားများ၊ စကားမဟုတ်သည့် စသည်တို့အကြောင်း အသေးစိတ် စာသားမှတ်တမ်းလမ်းညွှန်ချက်များကို လိုက်နာပါ။

အရည်အသွေးစစ်ဆေးခြင်းနှင့် တုံ့ပြန်ချက်

  • အရည်အသွေး အကဲဖြတ်ခြင်း နှင့် မှန်ကန်ကြောင်း မှတ်တမ်းတင်ခြင်း အားလုံးကို ပေးပို့ရန် ၊ တရားဝင်သော စကားများသာ ဖြစ်ပါသည်။

ဖြေရှင်းချက်

စကားဝိုင်း AI ကို ကျွန်ုပ်တို့၏ နက်ရှိုင်းစွာ နားလည်မှုဖြင့်၊ ကျွန်ုပ်တို့သည် အိန္ဒိယဘာသာစကား 8 မျိုးဖြင့် အသံဒေတာအစုအဝေးကြီးကို တည်ဆောက်ရန်အတွက် ကျွမ်းကျင်သူစုဆောင်းသူများ၊ ဘာသာဗေဒပညာရှင်များနှင့် မှတ်ချက်ပေးသူများအဖွဲ့ဖြင့် ဒေတာစုဆောင်း၊ အပိုင်းခွဲကာ ကူးယူဖော်ပြရန် ကူညီပေးခဲ့ပါသည်။

Shaip အတွက် လုပ်ဆောင်သည့် နယ်ပယ်တွင် ပါဝင်သော်လည်း အသံလေ့ကျင့်ရေးဒေတာ အများအပြားကို ရယူခြင်း၊ အသံဖမ်းယူမှုများကို အမျိုးအစားခွဲခြင်း၊ ဒေတာကို ကူးယူခြင်းနှင့် မက်တာဒေတာများပါရှိသော သက်ဆိုင်ရာ JSON ဖိုင်များကို ပေးပို့ခြင်းတွင် အကန့်အသတ်မရှိ ကန့်သတ်မထားပေ။
မိခင်ဘာသာစကား၊ အရည်အချင်း၊ အလုပ်အကိုင်၊ ဒိုမိန်း၊ ဖိုင်ဖော်မတ်၊ ကြိမ်နှုန်း၊ ချန်နယ်၊ အသံအမျိုးအစား၊ စပီကာနံပါတ်၊ နိုင်ငံခြားဘာသာစကား နံပါတ်၊ အသုံးပြုထားသည့် စနစ်ထည့်သွင်းမှု၊ ကျဉ်းမြောင်း သို့မဟုတ် ကျယ်ဝန်းသော အသံ စသည်တို့။ 

Shaip သည် ရှုပ်ထွေးသော ပရောဂျက်များအတွက် စကားပြောနည်းပညာကို လေ့ကျင့်ရန် လိုအပ်သော အရည်အသွေးအဆင့်ကို ထိန်းသိမ်းထားစဉ်တွင် အသံဒေတာကို နာရီပေါင်း 3000 စုဆောင်းခဲ့သည်။ သင်တန်းသားတစ်ဦးစီထံမှ တိကျပြတ်သားသော သဘောတူညီချက်ပုံစံကို ထုတ်ယူခဲ့သည်။

1 ။ ဒေတာများစုစည်းမှု

2. Data Segmentation

  • စုဆောင်းထားသော အသံဒေတာကို တစ်ကြိမ်လျှင် 15 စက္ကန့်စီ၏ စကားစုများအဖြစ် ထပ်ဆင့်ခွဲကာ ပေးထားသည့် စပီကာတစ်ခုစီအတွက်၊ အသံအမျိုးအစား၊ အလှည့်အပြောင်း၊ စကားစုများနှင့် စကားစုတစ်ခုစီအတွက် မီလီစက္ကန့်အထိ အချိန်တံဆိပ်ရိုက်နှိပ်ထားသည်။
  • အသံအချက်ပြမှု၏အစနှင့်အဆုံးတွင် 200-400 မီလီစက္ကန့် padding ဖြင့် ၎င်း၏ပစ်မှတ်ထားသော အသံအချက်ပြမှုအတွက် အပိုင်းတစ်ခုစီကို ဖန်တီးထားသည်။
  • အပိုင်းအားလုံးအတွက်၊ အောက်ပါအရာဝတ္ထုများသည် စတင်ချိန်၊ ပြီးဆုံးချိန်၊ အပိုင်း ID၊ ကျယ်လောင်မှုအဆင့် (ကျယ်လောင်သော၊ ပုံမှန်၊ တိတ်ဆိတ်မှု)၊ မူလအသံအမျိုးအစား (မိန့်ခွန်း၊ Babble၊ ဂီတ၊ ဆူညံသံ၊ အထပ်ထပ်)၊ ဘာသာစကားကုဒ်စပီကာ ID၊ စာသားမှတ်တမ်း စသည်တို့ဖြစ်သည်။

3. အရည်အသွေးစစ်ဆေးခြင်းနှင့် တုံ့ပြန်ချက်

  • အသံသွင်းမှုအားလုံးကို အရည်အသွေးအတွက် အကဲဖြတ်ပြီး WER ၏ 90% နှင့် 90% ၏ TER ဖြင့် တရားဝင်အတည်ပြုထားသော စကားသံများကိုသာ ပေးပို့ခဲ့ပါသည်။
  • အရည်အသွေးစစ်ဆေးစာရင်းကို လိုက်နာခဲ့သည်-
       » အပိုင်းအရှည်၏ အများဆုံး 15 စက္ကန့်
       » သတ်မှတ်ထားသော domain များမှ ကူးယူဖော်ပြသည်- ရာသီဥတု၊ သတင်းအမျိုးအစားများ၊ ကျန်းမာရေး၊ စိုက်ပျိုးရေး၊ ပညာရေး၊ အလုပ်အကိုင်များ သို့မဟုတ် ငွေကြေး
       » နောက်ခံဆူညံသံ
       » အသံဖိုင်ကို ပိတ်ထားခြင်း မရှိပါ - ပုံပျက်ခြင်း မရှိပါ။
       » စာသားမှတ်တမ်းအတွက် မှန်ကန်သော အသံအပိုင်းခွဲခြင်း။

4. ဒေတာကူးယူခြင်း
ဆိုင်းငံ့ခြင်း၊ ဖြည့်စွက်စကားလုံးများ၊ မှားယွင်းသောအစပြုခြင်းများနှင့် အခြားနှုတ်ပြောစကားများအပါအဝင် ပြောသောစကားလုံးများအားလုံးအား စာသားမှတ်တမ်းတွင် တိကျစွာဖမ်းယူထားပါသည်။ စာလုံးအသေး၊ စာလုံးပေါင်း၊ စာလုံးအကြီး၊ အတိုကောက်များ၊ ကျုံ့များ၊ ဂဏန်းများ၊
ပုဒ်ဖြတ်ပုဒ်မများ၊ အတိုကောက်များ၊ ညစ်ညမ်းသော မိန့်ခွန်းများ၊ စကားသံမဟုတ်သည့် အသံများ စသည်တို့။ ထို့အပြင် စုစည်းမှုနှင့် စာသားမှတ်တမ်းအတွက် လုပ်ဆောင်သည့် အလုပ်အသွားအလာမှာ အောက်ပါအတိုင်းဖြစ်သည်-

အကျိုး

ကျွမ်းကျင်သော ဘာသာဗေဒပညာရှင်များထံမှ အရည်အသွေးမြင့် အသံဒေတာများသည် သတ်မှတ်ထားသောအချိန်အတွင်း မတူညီသော ဒေသိယစကားများဖြင့် အိန္ဒိယဘာသာစကား 8 မျိုးဖြင့် ဘာသာစကားမျိုးစုံပြောဆိုမှုကို အသိအမှတ်ပြုခြင်းပုံစံများကို တိကျစွာလေ့ကျင့်တည်ဆောက်နိုင်စေရန် Indian Institute of Technology – Madras ကို အသုံးပြုနိုင်မည်ဖြစ်သည်။ Speech recognition မော်ဒယ်များကို အောက်ပါတို့အတွက် အသုံးပြုနိုင်ပါသည်။

  • နိုင်ငံသားများအား ၎င်းတို့၏မိခင်ဘာသာစကားဖြင့် စတင်လုပ်ဆောင်မှုများနှင့် ချိတ်ဆက်ခြင်းဖြင့် ဒစ်ဂျစ်တယ်ပါဝင်မှုအတွက် ဘာသာစကားအတားအဆီးကို ကျော်လွှားလိုက်ပါ။
  • ဒစ်ဂျစ်တယ် အုပ်ချုပ်ရေးကို မြှင့်တင်ပါ။
  • အိန္ဒိယဘာသာစကားဖြင့် ဝန်ဆောင်မှုများနှင့် ထုတ်ကုန်များအတွက် ဂေဟစနစ်တစ်ခုဖွဲ့စည်းရန် ဓာတ်ကူပစ္စည်း
  • အထူးသဖြင့်၊ အုပ်ချုပ်ရေးနှင့် မူဝါဒများတွင် အများသူငှာ အကျိုးစီးပွားရှိသော နယ်ပယ်များတွင် ဒေသအလိုက် ဒစ်ဂျစ်တယ် အကြောင်းအရာများ
ရွှေ-ကြယ် ၅

စကားပြောဆိုနိုင်သော AI အာကာသတွင် Shaip ၏ကျွမ်းကျင်မှုကို ကျွန်ုပ်တို့ သဘောကျခဲ့ကြသည်။ ၎င်းတို့၏ အလုံးစုံ ပရောဂျက် အကောင်အထည်ဖော်မှု စွမ်းရည်သည် တင်းကြပ်သော အချိန်ဇယားနှင့် လမ်းညွှန်ချက်များအတွင်း ဘာသာစကား 8 မျိုးဖြင့် ကျွမ်းကျင်သူ ဘာသာဗေဒပညာရှင်များထံမှ လိုအပ်သော လေ့ကျင့်ရေးဒေတာများကို အရင်းအမြစ်ရှာဖွေခြင်း၊ ခွဲခြမ်းခြင်း၊ မှတ်တမ်းတင်ခြင်းနှင့် ပေးပို့ခြင်းမှ၊ လက်ခံနိုင်လောက်တဲ့ အရည်အသွေး အဆင့်အတန်းကို ဆက်လက်ထိန်းသိမ်းထားဆဲပါ။”

သင်၏စကားလက်ဆုံပြောဆိုမှု AI အရှိန်
လျှောက်လွှာတင်ခြင်းကို ၁၀၀% တိုး

Featured Clients များ

အဖွဲ့များကိုကမ္ဘာ့ ဦး ဆောင်သော AI ထုတ်ကုန်များတည်ဆောက်ရန်အားပေးခြင်း။