အလိုအလျောက်မိန့်ခွန်းအသိအမှတ်ပြုမှု

အလိုအလျောက်စကားပြောအသိအမှတ်ပြုမှု (ASR)- စတင်သူတိုင်းသိထားရမည့်အရာအားလုံး (2024)

အလိုအလျောက်စကားပြောအသိမှတ်ပြုခြင်းနည်းပညာသည် ကြာရှည်စွာတည်ရှိနေသော်လည်း Siri နှင့် Alexa ကဲ့သို့သော စမတ်ဖုန်းအပလီကေးရှင်းအမျိုးမျိုးတွင် ပျံ့နှံ့လာပြီးနောက် မကြာသေးမီက ထင်ရှားကျော်ကြားလာခဲ့သည်။ ဤ AI အခြေခံ စမတ်ဖုန်း အပလီကေးရှင်းများသည် ကျွန်ုပ်တို့အားလုံးအတွက် နေ့စဉ်လုပ်ငန်းဆောင်တာများကို ရိုးရှင်းလွယ်ကူစေရန် ASR ၏ စွမ်းအားကို သရုပ်ဖော်ထားသည်။

ထို့အပြင်၊ မတူညီသောစက်မှုလုပ်ငန်းဒေါင်လိုက်များသည် အလိုအလျောက်စနစ်ဆီသို့ ဆက်လက်ရွေ့လျားလာသည်နှင့်အမျှ ASR အတွက် အရင်းခံလိုအပ်ချက်သည် တဟုန်ထိုးတက်လာသည်။ ထို့ကြောင့် ဤအမိုက်စားကို နားလည်ကြပါစို့ စကားပြောအသိအမှတ်ပြုနည်းပညာ အတွင်းကျကျနှင့် အနာဂတ်အတွက် အရေးကြီးဆုံးနည်းပညာများထဲမှ တစ်ခုဟု အဘယ်ကြောင့်ယူဆသနည်း။

ASR နည်းပညာ၏သမိုင်းအကျဉ်း

ရှေ့ဆက်ပြီး အလိုအလျောက် စကားပြောအသိအမှတ်ပြုခြင်း၏ အလားအလာကို မစူးစမ်းမီ၊ ၎င်း၏ ဆင့်ကဲဖြစ်စဉ်ကို ဦးစွာကြည့်ရှုကြပါစို့။

ဆယ်နှစ်ASR ၏ဆင့်ကဲဖြစ်စဉ်
1950Speech Recognition နည်းပညာကို Bell Laboratories မှ 1950 ခုနှစ်များတွင် ပထမဆုံး မိတ်ဆက်ခဲ့သည်။ Bell Labs သည် အသံတစ်ခုတည်းဖြင့်ပြောသောအခါ 1-9 ကြားရှိ နံပါတ်များကို ခွဲခြားသိမြင်နိုင်သော 'Audrey' ဟုလူသိများသည့် virtual စကားပြောအသိအမှတ်ပြုသူကို ဖန်တီးခဲ့သည်။
19601952 ခုနှစ်တွင် IBM သည် ၎င်း၏ ပထမဆုံးသော အသံဖြင့် မှတ်သားမှုစနစ် 'Shoebox' ကို စတင်ခဲ့သည်။ Shoebox သည် အင်္ဂလိပ်စကား ၁၆ လုံးကြား နားလည်ပြီး ခွဲခြားနိုင်သည်။
19701976 ခုနှစ်တွင် Carnegie Mellon တက္ကသိုလ်သည် စကားလုံး 1000 ကျော်ကို မှတ်မိနိုင်သော 'Harpy' စနစ်တစ်ခုကို တီထွင်ခဲ့သည်။
1990နှစ် 40 နီးပါးကြာအောင်စောင့်ဆိုင်းပြီးနောက်၊ Bell Technologies သည် လူသားစကားပြောဆိုမှုကို ညွှန်ကြားနိုင်သည့် dial-in အပြန်အလှန်တုံ့ပြန်သောအသံအသိအမှတ်ပြုမှုစနစ်ဖြင့်စက်မှုလုပ်ငန်းကိုပြန်လည်တီထွင်ခဲ့သည်။
2000နည်းပညာကုမ္ပဏီကြီး Google သည် စကားပြောမှတ်သားမှုနည်းပညာကို စတင်လုပ်ဆောင်နေသောကြောင့် ASR နည်းပညာအတွက် အပြောင်းအလဲကာလတစ်ခုဖြစ်သည်။ ၎င်းတို့သည် တိကျမှုနှုန်း ခန့်မှန်းခြေ 80% ဖြင့် အဆင့်မြင့် စကားပြောဆော့ဖ်ဝဲလ်ကို ဖန်တီးကာ ကမ္ဘာတစ်ဝှမ်းတွင် ရေပန်းစားခဲ့သည်။
2010Amazon နှင့် Apple တို့သည် ၎င်းတို့၏ ပထမဆုံးသော AI အခြေခံ စကားပြောဆော့ဖ်ဝဲလ် Alexa နှင့် Siri တို့နှင့်အတူ ပြီးခဲ့သည့် ဆယ်စုနှစ်သည် ASR အတွက် ရွှေရောင်ကာလ ဖြစ်လာခဲ့သည်။

2010 မတိုင်မီ ရွေ့လျားလာသော ASR သည် သိသိသာသာ ပြောင်းလဲနေပြီး ပိုမိုပျံ့နှံ့ကာ တိကျလာသည်။ ယနေ့ခေတ်တွင် Amazon၊ Google နှင့် Apple တို့သည် ASR နည်းပညာတွင် အထင်ရှားဆုံး ခေါင်းဆောင်များဖြစ်သည်။

[ ဖတ်ရှုရန်- စကားဝိုင်း AI အတွက် ပြီးပြည့်စုံသော လမ်းညွှန် ]

Voice Recognition ဘယ်လိုအလုပ်လုပ်သလဲ

အလိုအလျောက် စကားပြော အသိအမှတ်ပြုခြင်း သည် ဒီဇိုင်းဆွဲရန်နှင့် ဖွံ့ဖြိုးတိုးတက်ရန် အလွန်ခက်ခဲသော အလွန်အဆင့်မြင့်သော နည်းပညာတစ်ခုဖြစ်သည်။ ကမ္ဘာတစ်ဝှမ်းတွင် ဘာသာစကားမျိုးစုံနှင့် လေယူလေသိမ်းများပါရှိသော ဘာသာစကားပေါင်း ထောင်နှင့်ချီရှိသောကြောင့် ၎င်းအားလုံးကို နားလည်နိုင်သော ဆော့ဖ်ဝဲလ်ကို တီထွင်ရန် ခက်ခဲသည်။

ASR သည် ၎င်း၏ဖွံ့ဖြိုးတိုးတက်မှုအတွက် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်းနှင့် စက်သင်ယူခြင်းဆိုင်ရာ သဘောတရားများကို အသုံးပြုသည်။ ဆော့ဖ်ဝဲတွင် ဘာသာစကားသင်ယူမှု ယန္တရားအများအပြားကို ထည့်သွင်းခြင်းဖြင့်၊ ဆော့ဖ်ဝဲရေးသားသူများသည် စကားပြောမှတ်သားမှုဆော့ဖ်ဝဲ၏ တိကျမှုနှင့် ထိရောက်မှုကို သေချာစေသည်။

အလိုအလျောက် စကားပြောအသိအမှတ်ပြုမှု (ASR) သည် စကားပြောဘာသာစကားကို စာသားအဖြစ်သို့ ပြောင်းလဲရန် အဓိကလုပ်ငန်းစဉ်များစွာအပေါ် မှီခိုနေရသည့် ရှုပ်ထွေးသောနည်းပညာတစ်ခုဖြစ်သည်။ မြင့်မားသောအဆင့်တွင် ပါဝင်သော အဓိကအဆင့်များမှာ-

  1. အသံဖမ်းယူမှု- မိုက်ခရိုဖုန်းသည် အသုံးပြုသူ၏ ပြောဆိုမှုကို ဖမ်းယူပြီး အသံလှိုင်းများကို လျှပ်စစ်အချက်ပြမှုအဖြစ် ပြောင်းလဲပေးသည်။
  2. အသံအကြိုလုပ်ဆောင်ခြင်း- ထို့နောက် လျှပ်စစ်အချက်ပြမှုကို ဒစ်ဂျစ်တယ်စနစ်ဖြင့် ပြောင်းလဲပြီး အသံထည့်သွင်းမှုအရည်အသွေးကို မြှင့်တင်ရန် ဆူညံသံလျှော့ချခြင်းကဲ့သို့သော ကြိုတင်လုပ်ဆောင်ခြင်းအဆင့်များ အမျိုးမျိုးကို လုပ်ဆောင်သည်။
  3. လုပ်ဆောင်ချက် ထုတ်ယူခြင်း- ဒစ်ဂျစ်တယ်အသံကို အသံထွက်၊ စွမ်းအင်၊ နှင့် ရောင်စဉ်တန်းကိန်းများကဲ့သို့သော အသံပိုင်းဆိုင်ရာအင်္ဂါရပ်များကို ခွဲခြမ်းစိတ်ဖြာရန် ခွဲခြမ်းစိတ်ဖြာထားသည်။
  4. အသံပိုင်းဆိုင်ရာ မော်ဒယ်လ်- အသံအင်္ဂါရပ်များကို တစ်ဦးချင်း စကားပြောသံများ သို့မဟုတ် ဖုန်းသံများနှင့် မြေပုံညွှန်းပေးသည့် ကြိုတင်လေ့ကျင့်ထားသည့် အသံပိုင်းဆိုင်ရာ မော်ဒယ်များနှင့် ထုတ်ယူထားသော အင်္ဂါရပ်များကို နှိုင်းယှဉ်ပါသည်။
  5. ဘာသာစကားပုံစံပြခြင်း- ထို့နောက် အကြောင်းအရာအလိုက် ဖြစ်နိုင်ခြေအရှိဆုံး စကားလုံးအစီအစဥ်များကို ခန့်မှန်းပေးသည့် ကိန်းဂဏန်းဘာသာစကားပုံစံများကို အသုံးပြုကာ အသိအမှတ်ပြုထားသော ဖုန်းများကို စကားလုံးများနှင့် စကားစုများအဖြစ် စုစည်းထားသည်။
  6. ဒီကုဒ်ဒါ နောက်ဆုံးအဆင့်တွင် အသံပိုင်းဆိုင်ရာနှင့် ဘာသာစကားမော်ဒယ်နှစ်မျိုးလုံးကို ထည့်သွင်းစဉ်းစားကာ ထည့်သွင်းသည့်အသံနှင့် ကိုက်ညီသည့် ဖြစ်နိုင်ခြေအရှိဆုံး စကားလုံးအစီအစဥ်ကို ကုဒ်လုပ်ခြင်း ပါဝင်သည်။

နောက်ခံဆူညံသံများ၊ လေယူလေသိမ်းများနှင့် ကွဲပြားသော ဝေါဟာရများ ရှိနေသည့်တိုင် မြင့်မားတိကျသော စကားမှ စာသားပြောင်းလဲခြင်းကို လုပ်ဆောင်နိုင်ရန် ဤအဓိကအစိတ်အပိုင်းများသည် ချောမွေ့စွာ အတူတကွ လုပ်ဆောင်ပါသည်။

[ ဖတ်ရှုရန်- Speech-to-Text Technology ဆိုတာ ဘာလဲ၊ ဘယ်လို အလုပ်လုပ်သလဲ။]

ASR ၏ တကယ့်ကမ္ဘာ့ဥပမာများ

asr ၏ လက်တွေ့ကမ္ဘာ ဥပမာများ

အလိုအလျောက် စကားပြော အသိအမှတ်ပြုခြင်း သည် ယနေ့ခေတ်တွင် တွင်ကျယ်စွာ ရေပန်းစားပြီး အဖိုးတန်သည့် နည်းပညာတစ်ခုဖြစ်သည်။ ၎င်း၏ထူးခြားချက်မှာ ၎င်းသည် သုံးစွဲသူများအား လက်ဖရီးထိန်းချုပ်မှုဖြင့် အလုပ်များစွာကို လျင်မြန်စွာ အပြီးသတ်နိုင်စေသောကြောင့်ဖြစ်သည်။

Virtual Assistant နှင့် Smart Devices များ- ASR သည် Siri၊ Alexa နှင့် Google Assistant ကဲ့သို့သော virtual assistant များ၏ အဓိကအစိတ်အပိုင်းတစ်ခုဖြစ်ပြီး smart home စက်များနှင့် အွန်လိုင်းဝန်ဆောင်မှုအမျိုးမျိုးဖြင့် လက်လွတ်ထိန်းချုပ်နိုင်ပြီး အပြန်အလှန်ဆက်သွယ်နိုင်စေပါသည်။ စကားပြောမှတ်သားမှုနည်းပညာကိုအသုံးပြုသည့် လူကြိုက်အများဆုံးထုတ်ကုန်များမှာ-

  • Google Assistant - 2016 ခုနှစ်တွင် တီထွင်ခဲ့သော Google Assistant သည် ယနေ့ခေတ်တွင် အကောင်းဆုံး ချက်တင်အခြေခံဆော့ဖ်ဝဲဖြစ်ပြီး US English တွင် အမြင့်ဆုံးတိကျမှုနှုန်း 95% ကျော်ရှိသည်။ အကြမ်းဖျင်းအားဖြင့် ကမ္ဘာတစ်ဝှမ်းရှိ လူသန်းနှင့်ချီ၍ အသုံးပြုကြသည်။
  • Apple Siri- Siri သည် နိုင်ငံပေါင်း 30 ကျော်နှင့် ကမ္ဘာတစ်ဝှမ်းရှိ ဘာသာစကား 21 မျိုးတွင် ASR ရရှိနိုင်မှု၏ ဂန္တဝင်ဥပမာတစ်ခုဖြစ်သည်။ Siri သည် စကားပြောမှ စာသားနည်းပညာကို အသုံးပြုမှုကို တော်လှန်ရန် ပထမဆုံး chat-based စနစ်ဖြစ်သည်။
  • အမေဇုံ Alexa: Alexa သည် ယနေ့ခေတ်တွင် အိမ်ထောင်စုအမည်နှင့် စက်တစ်ခုဖြစ်လာပြီး ကမ္ဘာတစ်ဝှမ်းတွင် ခန့်မှန်းခြေအသုံးပြုသူဦးရေ သန်း 100 ကျော်ရှိသည်။

မိန့်ခွန်းအသိအမှတ်ပြုနည်းပညာအတွက် Cases ကိုသုံးပါ။

ချက်တင်အခြေခံဆော့ဖ်ဝဲလ်တွင် ASR နည်းပညာကို အသုံးပြုခြင်းအပြင်၊ ဤထူးခြားသောနည်းပညာ၏ အခြားအသုံးပြုမှုများလည်း ရှိသေးသည်။ ဤတွင် ၎င်းတို့ထဲမှ အချို့မှာ-

ယာဉ်ပြောစကား မှတ်သားခြင်း။

မော်တော်ယာဉ်နှင့်သယ်ယူပို့ဆောင်ရေး

ASR သည် ယာဉ်မောင်းများအား ဂီတဖွင့်ခြင်း၊ လမ်းကြောင်းပြခြင်းနှင့် ရာသီဥတုထိန်းချုပ်ခြင်း၊ အသံအမိန့်ပေးခြင်း၊ ဘေးကင်းမှုနှင့် အဆင်ပြေမှုတို့ကို ပိုမိုကောင်းမွန်စေခြင်းစသည့် အမျိုးမျိုးသောလုပ်ဆောင်ချက်များကို ထိန်းချုပ်နိုင်စေမည့် ASR ကို ကားအတွင်းပိုင်း သတင်းအချက်အလက်ပေးစနစ်များတွင် ပေါင်းစပ်ထားသည်။

ကူးယူခြင်းဝန်ဆောင်မှုများ

ကျန်းမာရေးစောင့်ရှောက်မှုနှင့် ဆေးဘက်ဆိုင်ရာမှတ်တမ်း

ASR သည် သမားတော်များအား မှတ်စုများနှင့် မှတ်တမ်းများကို ပိုမိုထိရောက်စွာ ရေးသွင်းနိုင်စေရန်၊ စာရွက်စာတမ်းပြုစုခြင်းလုပ်ငန်းစဉ်ကို ချောမွေ့စေပြီး စီမံခန့်ခွဲရေးဆိုင်ရာ ကုန်ကျစရိတ်များကို လျှော့ချခြင်းဖြင့် ကျန်းမာရေးစောင့်ရှောက်မှုလုပ်ငန်းကို အသွင်ပြောင်းနေသည်။

ခေါ်ဆိုမှုစင်တာများနှင့် ဖောက်သည်ပံ့ပိုးမှု

ခေါ်ဆိုရေးစင်တာများနှင့် ဖောက်သည်ပံ့ပိုးမှု

ASR သည် ဖောက်သည်အပြန်အလှန်အပြန်အလှန်ကူးယူမှုကို အလိုအလျောက်ပြုလုပ်ရန်၊ အေးဂျင့်ကုန်ထုတ်စွမ်းအားကိုမြှင့်တင်ရန်နှင့် အလုံးစုံဖောက်သည်အတွေ့အကြုံကိုမြှင့်တင်ရန်အတွက် ခေါ်ဆိုရေးစင်တာများတွင် ကျယ်ကျယ်ပြန့်ပြန့်အသုံးပြုသည်။

ဘာသာစကားသင်ယူခြင်း

ဘာသာစကားသင်ယူခြင်း

ASR နည်းပညာသည် အသံထွက်နှင့် စကားပြောဘာသာစကားကျွမ်းကျင်မှုအပေါ် အချိန်နှင့်တစ်ပြေးညီ တုံ့ပြန်ချက်ပေးခြင်းဖြင့် ဘာသာစကားသင်ယူမှုကို တော်လှန်ခဲ့သည်။ ၎င်းသည် သင်ယူသူများအား ၎င်းတို့၏ စကားပြောပုံစံများကို ပြန်လည်ပြင်ဆင်ရန်၊ ချက်ခြင်းပြင်ဆင်မှုများကို လက်ခံရရှိစေပြီး ပိုမိုထိရောက်သောနည်းလမ်းဖြင့် ၎င်းတို့၏ သွက်လက်မှုကို တိုးတက်စေပါသည်။

အကြားအာရုံချို့ယွင်းသူများအတွက် သုံးစွဲနိုင်မှု

အကြားအာရုံချို့ယွင်းသူများအတွက် သုံးစွဲနိုင်မှု

ASR နည်းပညာသည် မသန်စွမ်းသူတစ်ဦးချင်းစီအတွက် ဒစ်ဂျစ်တယ်အကြောင်းအရာနှင့် အတွေ့အကြုံများကို ပိုမိုရရှိနိုင်စေရန်အတွက် အရေးကြီးသောအခန်းကဏ္ဍမှ ပါဝင်ပါသည်။ အကြားအာရုံအတွက် အချိန်နှင့်တပြေးညီ စာတန်းများ ပေးဆောင်ခြင်း သို့မဟုတ် အကန့်အသတ်ရှိသော ရွေ့လျားသွားလာနိုင်သူများအတွက် အသံကို ထိန်းချုပ်ပေးခြင်းတို့ကဲ့သို့သော အရေးကြီးသော အခန်းကဏ္ဍမှ ပါဝင်ပါသည်။

အသံဇီဝတိုင်းတာမှုနှင့် လုံခြုံရေး

Voice Biometrics နှင့် လုံခြုံရေး

လူတစ်ဦးချင်းစီ၏ အသံ၏ထူးခြားသောသွင်ပြင်လက္ခဏာများကို biometric စစ်မှန်ကြောင်းအထောက်အထားပြမှုပုံစံတစ်ခုအဖြစ် အသုံးချနိုင်သည်။ ASR နည်းပညာသည် အသံဇီဝတိုင်းတာမှုစနစ်များတွင် အရေးပါသောအခန်းကဏ္ဍမှပါဝင်ပြီး ပုဂ္ဂိုလ်ရေးခွဲခြားခြင်းနှင့် ဝင်ရောက်ထိန်းချုပ်မှုအတွက် လုံခြုံရေးထပ်ဆောင်းအလွှာကို ပေးဆောင်သည်။

မီဒီယာနှင့် အသံလွှင့်ခြင်း။

မီဒီယာနှင့် အသံလွှင့်ခြင်း။

ASR ကို တိုက်ရိုက်နှင့် ကြိုတင်ရိုက်ကူးထားသည့် အကြောင်းအရာများအတွက် အပိတ်စာတန်းများနှင့် စာတန်းထိုးများကို ထုတ်လုပ်ရန် အသုံးပြုပြီး ကြည့်ရှုသူများ ပိုမိုဝင်ရောက်နိုင်စေရန်နှင့် အပြန်အလှန်အကျိုးပြုသော မီဒီယာအတွေ့အကြုံပုံစံသစ်များကို ဖွင့်ပေးသည်။

ASR နည်းပညာအတွက် အနာဂတ်က ဘာတွေလဲ။

AI နှင့် machine learning ၏ တိုးတက်မှုနှင့်အတူ၊ အလိုအလျောက် စကားပြောအသိအမှတ်ပြုမှုနည်းပညာသည် ပိုမိုတိကျ၊ မြန်ဆန်ပြီး ပိုမိုသဘာဝကျသော အသံဖြစ်လာရန် မျှော်လင့်ပါသည်။ ထို့အပြင် ASR နည်းပညာသည် ဖောက်သည်ဝန်ဆောင်မှု၊ ပညာရေး၊ ကျန်းမာရေးစောင့်ရှောက်မှုနှင့် အခြားအရာများတွင် ပျံ့နှံ့လာဖွယ်ရှိသည်။ အဖွဲ့အစည်းများအတွက်၊ စိတ်ကြိုက် ASR အခြေပြု စီးပွားရေးဖြေရှင်းချက်များကို ဖော်ဆောင်ခြင်းသည် နောက်ပစ်မှတ်ဖြစ်ရပါမည်။

Shaip ကျွမ်းကျင်သူများထံမှ သင်၏ ASR-အခြေခံပရောဂျက်များအတွက် အကူအညီရယူပါ။

လူမှုဝေမျှမယ်