ဧပြီလ 18, 2023

အလိုအလျောက်စကားပြောအသိအမှတ်ပြုမှု (ASR)- စတင်သူတိုင်းသိထားရမည့်အရာအားလုံး (2024)

အလိုအလျောက်စကားပြောအသိမှတ်ပြုခြင်းနည်းပညာသည် ကြာရှည်စွာတည်ရှိနေသော်လည်း Siri နှင့် Alexa ကဲ့သို့သော စမတ်ဖုန်းအပလီကေးရှင်းအမျိုးမျိုးတွင် ပျံ့နှံ့လာပြီးနောက် မကြာသေးမီက ထင်ရှားကျော်ကြားလာခဲ့သည်။ ဤ AI အခြေခံ စမတ်ဖုန်း အပလီကေးရှင်းများသည် ကျွန်ုပ်တို့အားလုံးအတွက် နေ့စဉ်လုပ်ငန်းဆောင်တာများကို ရိုးရှင်းလွယ်ကူစေရန် ASR ၏ စွမ်းအားကို သရုပ်ဖော်ထားသည်။

ထို့အပြင်၊ မတူညီသောစက်မှုလုပ်ငန်းဒေါင်လိုက်များသည် အလိုအလျောက်စနစ်ဆီသို့ ဆက်လက်ရွေ့လျားလာသည်နှင့်အမျှ ASR အတွက် အရင်းခံလိုအပ်ချက်သည် တဟုန်ထိုးတက်လာသည်။ ထို့ကြောင့် ဤအမိုက်စားကို နားလည်ကြပါစို့ စကားပြောအသိအမှတ်ပြုနည်းပညာ အတွင်းကျကျနှင့် အနာဂတ်အတွက် အရေးကြီးဆုံးနည်းပညာများထဲမှ တစ်ခုဟု အဘယ်ကြောင့်ယူဆသနည်း။

ASR နည်းပညာ၏သမိုင်းအကျဉ်း

ရှေ့ဆက်ပြီး အလိုအလျောက် စကားပြောအသိအမှတ်ပြုခြင်း၏ အလားအလာကို မစူးစမ်းမီ၊ ၎င်း၏ ဆင့်ကဲဖြစ်စဉ်ကို ဦးစွာကြည့်ရှုကြပါစို့။

1950

1950 ခုနှစ်များတွင် Bell Labs သည် အသံတစ်ခုတည်းဖြင့်ပြောသောအခါ 1-9 ကြားရှိ နံပါတ်များကို ခွဲခြားသတ်မှတ်နိုင်သည့် 'Audrey' ဟုလူသိများသည့် virtual စကားပြောအသိအမှတ်ပြုသူကို ဖန်တီးခဲ့သည်။

1960

1952 ခုနှစ်တွင် IBM သည် ၎င်း၏ ပထမဆုံးသော အသံဖြင့် အသိအမှတ်ပြုခြင်းစနစ်ကို 'Shoebox' ကို စတင်ခဲ့ပြီး အင်္ဂလိပ် စကားလုံး ဆယ့်ခြောက်လုံးကို နားလည်ပြီး ခွဲခြားနိုင်ခဲ့သည်။

1970

1976 ခုနှစ်တွင် Carnegie Mellon တက္ကသိုလ်သည် စကားလုံး 1000 ကျော်ကို မှတ်မိနိုင်သော 'Harpy' စနစ်တစ်ခုကို တီထွင်ခဲ့သည်။

1990

အနှစ် 40 ကြာပြီးနောက်၊ Bell Technologies သည် လူသားစကားပြောဆိုမှုကို ညွှန်ကြားနိုင်သည့် dial-in IVR စနစ်များဖြင့် လုပ်ငန်းနယ်ပယ်ကို ထပ်မံဖောက်ပြန်ခဲ့သည်။

2000

Google သည် ကမ္ဘာတစ်ဝှမ်းတွင် ရေပန်းစားလာစေရန် တိကျမှုနှုန်း 80% ဖြင့် အဆင့်မြင့် စကားပြောဆော့ဖ်ဝဲကို ဖန်တီးခဲ့သည်။

2010

Amazon နှင့် Apple တို့သည် ၎င်းတို့၏ ပထမဆုံးသော AI အခြေခံ စကားပြောဆော့ဖ်ဝဲလ် Alexa နှင့် Siri တို့နှင့်အတူ ပြီးခဲ့သည့် ဆယ်စုနှစ်သည် ASR အတွက် ရွှေရောင်ကာလ ဖြစ်လာခဲ့သည်။

2010 မတိုင်မီ ရွေ့လျားလာသော ASR သည် သိသိသာသာ ပြောင်းလဲနေပြီး ပိုမိုပျံ့နှံ့ကာ တိကျလာသည်။ ယနေ့ခေတ်တွင် Amazon၊ Google နှင့် Apple တို့သည် ASR နည်းပညာတွင် အထင်ရှားဆုံး ခေါင်းဆောင်များဖြစ်သည်။

[ ဖတ်ရှုရန်- စကားဝိုင်း AI အတွက် ပြီးပြည့်စုံသော လမ်းညွှန် ]

Voice Recognition ဘယ်လိုအလုပ်လုပ်သလဲ

အလိုအလျောက် စကားပြော အသိအမှတ်ပြုခြင်း သည် ဒီဇိုင်းဆွဲရန်နှင့် ဖွံ့ဖြိုးတိုးတက်ရန် အလွန်ခက်ခဲသော အလွန်အဆင့်မြင့်သော နည်းပညာတစ်ခုဖြစ်သည်။ ကမ္ဘာတစ်ဝှမ်းတွင် ဘာသာစကားမျိုးစုံနှင့် လေယူလေသိမ်းများပါရှိသော ဘာသာစကားပေါင်း ထောင်နှင့်ချီရှိသောကြောင့် ၎င်းအားလုံးကို နားလည်နိုင်သော ဆော့ဖ်ဝဲလ်ကို တီထွင်ရန် ခက်ခဲသည်။

ASR သည် ၎င်း၏ဖွံ့ဖြိုးတိုးတက်မှုအတွက် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်းနှင့် စက်သင်ယူခြင်းဆိုင်ရာ သဘောတရားများကို အသုံးပြုသည်။ ဆော့ဖ်ဝဲတွင် ဘာသာစကားသင်ယူမှု ယန္တရားအများအပြားကို ထည့်သွင်းခြင်းဖြင့်၊ ဆော့ဖ်ဝဲရေးသားသူများသည် စကားပြောမှတ်သားမှုဆော့ဖ်ဝဲ၏ တိကျမှုနှင့် ထိရောက်မှုကို သေချာစေသည်။

Automatic Speech Recognition ဆော့ဖ်ဝဲကို တီထွင်ရာတွင် အသုံးပြုသည့် အခြေခံအဆင့်အချို့မှာ အောက်ပါအတိုင်းဖြစ်သည်-

အသံကို လျှပ်စစ်အချက်ပြစနစ်သို့ ပို့ခြင်း- လူတစ်ယောက်ရဲ့ အသံတုန်ခါမှုတွေကို မိုက်ခရိုဖုန်းသုံးပြီး ဖမ်းယူပြီး လှိုင်းနဲ့တူတဲ့ လျှပ်စစ်အချက်ပြမှုတစ်ခုအဖြစ် ပေးပို့ပါတယ်။
လျှပ်စစ်ဓာတ်အား ဒစ်ဂျစ်တယ် အချက်ပြအဖြစ်သို့ ပြောင်းလဲခြင်း- လျှပ်စစ်အချက်ပြမှုကို အသံကတ်ကဲ့သို့ ရုပ်ပိုင်းဆိုင်ရာပစ္စည်းများကို အသုံးပြု၍ ဒစ်ဂျစ်တယ်အချက်ပြမှုအဖြစ် ထပ်မံပြောင်းလဲသည်။
ဆော့ဖ်ဝဲသို့ Phonemes မှတ်ပုံတင်ခြင်း- ထို့နောက် စကားပြောမှတ်သားမှုဆော့ဖ်ဝဲသည် ဒစ်ဂျစ်တယ်အချက်ပြမှုကို စစ်ဆေးပြီး ဖမ်းယူထားသော စကားလုံးများအကြား ကွဲပြားစေရန် ဖုန်းများကို စာရင်းသွင်းသည်။
Phonemes ကို စကားလုံးအဖြစ် ပြန်လည်တည်ဆောက်ခြင်း- ဒစ်ဂျစ်တယ်အချက်ပြမှုကို အပြီးအပိုင်လုပ်ဆောင်ပြီး phonemes အားလုံးကို စာရင်းသွင်းပြီးနောက်၊ စကားလုံးများကို ပြန်လည်တည်ဆောက်ပြီး စာကြောင်းများဖွဲ့စည်းပါသည်။

ရည်ရွယ်ထားသည့်တိကျမှုကိုရရှိရန်၊ ဆော့ဖ်ဝဲသည် သီးခြားဒေတာဘေ့စ်တစ်ခုမှတစ်ဆင့် မကြာခဏအသုံးပြုလေ့ရှိသည့် စကားလုံးသုံးလုံးကို အားကိုးထားသည့် trigram ခွဲခြမ်းစိတ်ဖြာမှုနည်းလမ်းကို အသုံးချသည်။ ASR ဆော့ဖ်ဝဲလ်သည် မည်သည့်အသံပုံစံကိုမဆို ခွဲခြမ်းစိပ်ဖြာကာ အသံများကို ပိုင်းခြားစိတ်ဖြာကာ ၎င်းစုဆောင်းထားသော အသံများကို အဓိပ္ပါယ်ရှိသော စာသားနှင့် စကားလုံးများအဖြစ်သို့ ကူးယူပေးသည့် ထူးခြားသည့်နည်းပညာတစ်ခုဖြစ်သည်။

[ ဖတ်ရှုရန်- Speech-to-Text Technology ဆိုတာ ဘာလဲ၊ ဘယ်လို အလုပ်လုပ်သလဲ။]

ASR ၏ တကယ့်ကမ္ဘာ့ဥပမာများ

အလိုအလျောက် စကားပြောအသိမှတ်ပြုခြင်းသည် ယနေ့ခေတ်တွင် တွင်ကျယ်စွာ ရေပန်းစားပြီး အဖိုးတန်သည့် နည်းပညာတစ်ခုဖြစ်သည်။ ၎င်း၏ထူးခြားချက်မှာ ၎င်းသည် သုံးစွဲသူများအား လက်ဖရီးထိန်းချုပ်မှုဖြင့် အလုပ်များစွာကို လျင်မြန်စွာ အပြီးသတ်နိုင်စေသောကြောင့်ဖြစ်သည်။ စကားပြောမှတ်သားမှုနည်းပညာကို အသုံးပြုသည့် ရေပန်းအစားဆုံး ထုတ်ကုန်များမှာ-

Google ကလက်ထောက်
2016 ခုနှစ်တွင် တီထွင်ခဲ့သော Google Assistant သည် ယနေ့ခေတ်တွင် အကောင်းဆုံး ချက်တင်အခြေခံဆော့ဖ်ဝဲဖြစ်ပြီး US English တွင် အမြင့်ဆုံးတိကျမှုနှုန်း 95% ကျော်ရှိသည်။ အကြမ်းဖျင်းအားဖြင့် ကမ္ဘာတစ်ဝှမ်းရှိ လူသန်းနှင့်ချီ၍ အသုံးပြုကြသည်။
Apple Siri ပါ
Siri သည် နိုင်ငံပေါင်း 30 ကျော်နှင့် ကမ္ဘာတစ်ဝှမ်းရှိ ဘာသာစကား 21 မျိုးတွင် ASR ရရှိနိုင်မှု၏ ဂန္တဝင်ဥပမာတစ်ခုဖြစ်သည်။ Siri သည် စကားပြောမှ စာသားနည်းပညာကို အသုံးပြုမှုကို တော်လှန်ရန် ပထမဆုံး chat-based စနစ်ဖြစ်သည်။
အမေဇုံ Alexa
Alexa သည် ယနေ့ခေတ်တွင် အိမ်ထောင်စုအမည်နှင့် စက်တစ်ခုဖြစ်လာပြီး ကမ္ဘာတစ်ဝှမ်းတွင် ခန့်မှန်းခြေအသုံးပြုသူဦးရေ သန်း 100 ကျော်ရှိသည်။

Speech Recognition Technology အတွက် နောက်ထပ် အသုံးပြုမှုကိစ္စများကို စူးစမ်းခြင်း။

ချက်တင်အခြေခံဆော့ဖ်ဝဲလ်တွင် ASR နည်းပညာကို အသုံးပြုခြင်းအပြင်၊ ဤထူးခြားသောနည်းပညာ၏ အခြားအသုံးပြုမှုများလည်း ရှိသေးသည်။ ဤတွင် ၎င်းတို့ထဲမှ အချို့မှာ-

ယာဉ်မိန့်ခွန်း အသိအမှတ်ပြုခြင်း။
ယနေ့တွင်၊ ကျွန်ုပ်တို့၏ကားကို ဘယ်သူ့ကိုခေါ်ရမလဲ၊ ဘယ်သီချင်းဖွင့်ရမလဲ၊ ခရီးဆုံးနေရာကို သတ်မှတ်ရမယ်ဆိုတဲ့ ဇိမ်ခံကားတွေရှိနေပါပြီ။ စကားမှ စာသားနည်းပညာကြောင့် ဤအရာအားလုံး ဖြစ်နိုင်သည်။ ဤသည်မှာ သင်၏မောင်းနှင်မှုအတွေ့အကြုံ၏ ဘေးကင်းရေးကဏ္ဍတွင် ကြီးမားသောခြေလှမ်းတစ်ခုဖြစ်သည်။ မျက်နှာပြင်နှင့် ရုပ်ပိုင်းဆိုင်ရာ ထိတွေ့ဆက်ဆံရန် လိုအပ်မှုကို ဖယ်ရှားခြင်းဖြင့် ASR ကို အသုံးပြုခြင်းသည် မတော်တဆမှုတစ်ခု ဖြစ်လာနိုင်သည့် အာရုံဆုံးရှုံးခြင်းကို တားဆီးပေးသည်။
ကူးယူခြင်းဝန်ဆောင်မှု
ASR နည်းပညာသည် ကူးယူဖော်ပြခြင်းလုပ်ငန်းစဉ်ကို ချောမွေ့စေပြီး စကားပြောအကြောင်းအရာကို ရေးထားသောစာသားသို့ လျင်မြန်တိကျစွာ ပြောင်းလဲနိုင်စေပါသည်။ တိကျပြီး အချိန်နှင့်တစ်ပြေးညီ ကူးယူဖော်ပြမှုသည် အရေးကြီးသည့် ဂျာနယ်လစ်ဇင်၊ တရားဥပဒေနှင့် ဆေးဘက်ဆိုင်ရာ ကဏ္ဍများကဲ့သို့သော လုပ်ငန်းများအတွက် အဖိုးမဖြတ်နိုင်ကြောင်း သက်သေပြခဲ့သည်။

ခေါ်ဆိုရေးစင်တာများနှင့် ဖောက်သည်ပံ့ပိုးမှု
ခေါ်ဆိုမှုစင်တာများသည် ဖောက်သည်အပြန်အလှန်ဆက်သွယ်မှုများကို မှတ်တမ်းတင်ရန်အတွက် ASR စနစ်များကို လက်ခံကျင့်သုံးပြီး ပိုမိုကောင်းမွန်သော ခြေရာခံခြင်း၊ ခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် အရည်အသွေးထိန်းချုပ်မှုများကို ခွင့်ပြုပေးပါသည်။ စကားစမြည်ပြောဆိုမှုများကို စာသားအဖြစ်သို့ပြောင်းလဲခြင်းဖြင့် ASR သည် ခေါ်ဆိုမှုစင်တာ အေးဂျင့်များနှင့် မန်နေဂျာများအား ဖောက်သည်အပြန်အလှန်တုံ့ပြန်မှုများကို ပြန်လည်သုံးသပ်ရန်နှင့် ၎င်းတို့၏ဝန်ဆောင်မှုများကို ပိုမိုကောင်းမွန်လာစေရန် တန်ဖိုးရှိသော ထိုးထွင်းသိမြင်မှုကို ထုတ်ယူနိုင်စေပါသည်။
ဘာသာစကားသင်ယူခြင်း
ASR နည်းပညာသည် အသံထွက်နှင့် စကားပြောဘာသာစကားကျွမ်းကျင်မှုအပေါ် အချိန်နှင့်တစ်ပြေးညီ တုံ့ပြန်ချက်ပေးခြင်းဖြင့် ဘာသာစကားသင်ယူမှုကို တော်လှန်ခဲ့သည်။ ၎င်းသည် သင်ယူသူများအား ၎င်းတို့၏ စကားပြောပုံစံများကို ပြန်လည်ပြင်ဆင်ရန်၊ ချက်ခြင်းပြင်ဆင်မှုများကို လက်ခံရရှိစေပြီး ပိုမိုထိရောက်သောနည်းလမ်းဖြင့် ၎င်းတို့၏ သွက်လက်မှုကို တိုးတက်စေပါသည်။
အကြားအာရုံချို့ယွင်းသူများအတွက် သုံးစွဲနိုင်မှု
ASR စနစ်များသည် အကြားအာရုံချို့ယွင်းသူ တစ်ဦးချင်းစီအတွက် ဆက်သွယ်ရေး အတားအဆီးများကို ဖြိုဖျက်ရာတွင် အရေးပါသော အရာတစ်ခုဖြစ်သည်။ စကားပြောဘာသာစကားကို စာသားအဖြစ်သို့ ပြောင်းလဲခြင်းဖြင့် ASR နည်းပညာသည် အချိန်နှင့်တစ်ပြေးညီ စာတန်းထိုးခြင်းဝန်ဆောင်မှုများကို ပံ့ပိုးပေးကာ အသံအကြောင်းအရာကို ပိုမိုကျယ်ပြန့်သော ပရိသတ်များအတွက် ပိုမိုရရှိနိုင်စေပါသည်။
Voice Biometrics နှင့် လုံခြုံရေး
လူတစ်ဦးချင်းစီ၏ အသံ၏ထူးခြားသောသွင်ပြင်လက္ခဏာများကို biometric စစ်မှန်ကြောင်းအထောက်အထားပြမှုပုံစံတစ်ခုအဖြစ် အသုံးချနိုင်သည်။ ASR နည်းပညာသည် အသံဇီဝတိုင်းတာမှုစနစ်များတွင် အရေးပါသောအခန်းကဏ္ဍမှပါဝင်ပြီး ပုဂ္ဂိုလ်ရေးခွဲခြားခြင်းနှင့် ဝင်ရောက်ထိန်းချုပ်မှုအတွက် လုံခြုံရေးထပ်ဆောင်းအလွှာကို ပေးဆောင်သည်။

ASR နည်းပညာအတွက် အနာဂတ်က ဘာတွေလဲ။

AI နှင့် machine learning ၏ တိုးတက်မှုနှင့်အတူ၊ အလိုအလျောက် စကားပြောအသိအမှတ်ပြုမှုနည်းပညာသည် ပိုမိုတိကျ၊ မြန်ဆန်ပြီး ပိုမိုသဘာဝကျသော အသံဖြစ်လာရန် မျှော်လင့်ပါသည်။ ထို့အပြင် ASR နည်းပညာသည် ဖောက်သည်ဝန်ဆောင်မှု၊ ပညာရေး၊ ကျန်းမာရေးစောင့်ရှောက်မှုနှင့် အခြားအရာများတွင် ပျံ့နှံ့လာဖွယ်ရှိသည်။ အဖွဲ့အစည်းများအတွက်၊ စိတ်ကြိုက် ASR အခြေပြု စီးပွားရေးဖြေရှင်းချက်များကို ဖော်ဆောင်ခြင်းသည် နောက်ပစ်မှတ်ဖြစ်ရပါမည်။

Shaip ကျွမ်းကျင်သူများထံမှ သင်၏ ASR-အခြေခံပရောဂျက်များအတွက် အကူအညီရယူပါ။

လူမှုဝေမျှမယ်

ကျွမ်းကျင်သူတစ် ဦး နှင့်ပြောဆိုပါ

နာမည်*
မျိုးနွယ်အမည်*
အီးမေးလ်လိပ်စာ*
ဖုန်းနံပါတ်*
ကုမ္ပဏီ*
နိုင်ငံ*
နိုင်ငံ
မှတ်ချက်များ*
စာရင်းသွင်းခြင်းဖြင့်၊ Shaip နှင့် သဘောတူပါသည်။ ကိုယ်ရေးအချက်အလက်ပေါ်လစီ နှင့် ဝန်ဆောင်မှုစည်းမျဉ်းများ Shaip ထံမှ B2B စျေးကွက်ချဲ့ထွင်ဆက်သွယ်ရေးကို လက်ခံရယူရန် ကျွန်ုပ်၏သဘောတူညီချက်ကို ပေးဆောင်ပါ။
CAPTCHA

အခမဲ့စာအုပ်ကို download လုပ်ပါ

သငျသညျဒါ့အပြင်လိုနိုင်ပါစေ

အလိုအလျောက်စကားပြောအသိအမှတ်ပြုမှု (ASR)- စတင်သူတိုင်းသိထားရမည့်အရာအားလုံး (2024)

ASR နည်းပညာ၏သမိုင်းအကျဉ်း

Voice Recognition ဘယ်လိုအလုပ်လုပ်သလဲ

ASR ၏ တကယ့်ကမ္ဘာ့ဥပမာများ

Speech Recognition Technology အတွက် နောက်ထပ် အသုံးပြုမှုကိစ္စများကို စူးစမ်းခြင်း။

ယာဉ်မိန့်ခွန်း အသိအမှတ်ပြုခြင်း။

ကူးယူခြင်းဝန်ဆောင်မှု

ခေါ်ဆိုရေးစင်တာများနှင့် ဖောက်သည်ပံ့ပိုးမှု

ဘာသာစကားသင်ယူခြင်း

အကြားအာရုံချို့ယွင်းသူများအတွက် သုံးစွဲနိုင်မှု

Voice Biometrics နှင့် လုံခြုံရေး

ASR နည်းပညာအတွက် အနာဂတ်က ဘာတွေလဲ။

လူမှုဝေမျှမယ်

ကျွမ်းကျင်သူတစ် ဦး နှင့်ပြောဆိုပါ

ဘာသာစကားလုပ်ဆောင်ခြင်း၏အနာဂတ်- ကြီးမားသောဘာသာစကားပုံစံများနှင့် ၎င်းတို့၏ဥပမာများ

အလိုအလျောက်စကားပြောအသိအမှတ်ပြုမှုအတွက် အသံဒေတာစုဆောင်းခြင်းလုပ်ငန်းစဉ်ကို နားလည်ခြင်း။

သင်၏ AI မော်ဒယ်အတွက် မှန်ကန်သော စကားပြောအသိအမှတ်ပြုမှုဒေတာအတွဲကို ရွေးချယ်ခြင်း။

AI ဒေတာန်ဆောင်မှုများ

အလုပ်အကိုင်

စက်မှုလုပ်ငန်း

ထုတ်ကုန်များ

ကုမ္ပဏီ

အရင်းအမြစ်များ

ဆက်သွယ်ရန်