စကားဝိုင်း AI- အလိုအလျောက် စကားပြော အသိအမှတ်ပြုမှု
8k အော်ဒီယိုနာရီများ စုဆောင်းပြီး ဘာသာစကားမျိုးစုံ အသံနည်းပညာအတွက် နာရီ 800 ကူးယူထားသည်။
နိဒါန္း
အိန္ဒိယဘာသာစကားများတွင် ဒစ်ဂျစ်တယ်ဝန်ဆောင်မှုများပေးဆောင်ရန်အတွက် ဘာသာစကားပေါင်းစုံဒေတာအတွဲများနှင့် AI အခြေခံဘာသာစကားနည်းပညာဖြေရှင်းချက်များကိုဖန်တီးရန်အာရုံစိုက်သည့်ပလပ်ဖောင်းတစ်ခုလိုအပ်ပါသည်။ ဤပဏာမခြေလှမ်းကို စတင်ရန်အတွက် The Client သည် ဘာသာစကားပေါင်းစုံ စကားပြောပုံစံများကို ဖန်တီးရန်အတွက် အိန္ဒိယဘာသာစကားကို စုဆောင်းကာ စာသားမှတ်တမ်းရေးသားရန် Shaip နှင့် ပူးပေါင်းခဲ့သည်။
Volume ကို
စိန်ခေါ်မှုများ
ဖောက်သည်အား အိန္ဒိယဘာသာစကားများအတွက် ၎င်းတို့၏ Speech Technology စကားပြောလမ်းပြမြေပုံကို ကူညီပေးရန်အတွက် အဖွဲ့သည် AI မော်ဒယ်လ်တည်ဆောက်ရန်အတွက် လေ့ကျင့်ရေးဒေတာအများအပြားကို ရယူရန်၊ အပိုင်းခွဲကာ မှတ်တမ်းတင်ထားရန် လိုအပ်ပါသည်။ သုံးစွဲသူ၏ အရေးကြီးသော လိုအပ်ချက်များမှာ-
ဒေတာများစုစည်းမှု
- အိန္ဒိယ၏ဝေးလံခေါင်သီသောနေရာများမှနာရီပေါင်း 8000 လေ့ကျင့်ရေးဒေတာကိုရယူပါ။
- အသက် 20-70 နှစ်ရှိ Age Groups ထံမှ spontaneous speech စုဆောင်းရန် ပေးသွင်းသူ
- အသက်၊ ကျား၊ မ၊ ပညာရေးနှင့် ဒေသိယစကားများဖြင့် ကွဲပြားသောဟောပြောသူများကို ရောနှောထားကြောင်း သေချာပါစေ။
- အသံဖမ်းယူမှုတစ်ခုစီသည် အနည်းဆုံး 16 kHz ရှိရမည်ဖြစ်ပြီး 16 bits/sample ရှိသည်။
ဒေတာကူးယူခြင်း
အက္ခရာများနှင့် အထူးသင်္ကေတများ၊ စာလုံးပေါင်းနှင့် သဒ္ဒါ၊ စာလုံးကြီး၊ အတိုကောက်များ၊ စာချုပ်များ၊ တစ်ဦးချင်းပြောသောစာများ၊ နံပါတ်များ၊ ပုဒ်ဖြတ်ပုဒ်မများ၊ အတိုကောက်နှင့် အစဦးပိုင်း၊ ညစ်ညမ်းသောစကား၊ ဥာဏ်မမှီသောစကား၊ ရည်ရွယ်ရာမဟုတ်သော ဘာသာစကားများ၊ စကားမပီသော ဘာသာစကားများ၊
အရည်အသွေးစစ်ဆေးခြင်းနှင့် တုံ့ပြန်ချက်
အရည်အသွေး အကဲဖြတ်ခြင်းနှင့် မှန်ကန်ကြောင်း အတည်ပြုခြင်းအတွက် မှတ်တမ်းတင်ခြင်းများအားလုံး၊ တရားဝင်သော စကားသံများကိုသာ ပေးပို့ရမည်ဖြစ်သည်။
ဖြေရှင်းချက်
စကားဝိုင်း AI ကို ကျွန်ုပ်တို့၏ နက်ရှိုင်းစွာ နားလည်မှုဖြင့်၊ ကျွန်ုပ်တို့သည် အိန္ဒိယ၏ အဝေးဒေသများမှ အသံဒေတာ အများအပြားကို ဖန်တီးရန်အတွက် ကျွမ်းကျင်သူစုဆောင်းသူများ၊ ဘာသာဗေဒပညာရှင်များနှင့် မှတ်ချက်ပေးသူများအဖွဲ့ဖြင့် အသံဒေတာကို သုံးစွဲသူအား စုဆောင်း၊ ကူးယူဖော်ပြရန် ကူညီပေးခဲ့ပါသည်။
Shaip အတွက် အလုပ်၏ နယ်ပယ်တွင် ပါဝင်သော်လည်း အသံလေ့ကျင့်ရေးဒေတာ အမြောက်အမြားရယူခြင်း၊ ဒေတာကို မှတ်တမ်းတင်ခြင်းနှင့် မက်တာဒေတာများပါရှိသော JSON ဖိုင်များ ပေးပို့ခြင်းတွင် အကန့်အသတ်မရှိ ကန့်သတ်ထားခြင်းမရှိပါ။ စပီကာတစ်ခုစီအတွက်၊ မက်တာဒေတာတွင် အမည်မသိစပီကာ ID၊ စက်အသေးစိတ်၊ ကျား၊ မ၊ အသက်၊ နှင့် ပညာရေးကဲ့သို့သော လူဦးရေစာရင်းအချက်အလက်၊ ၎င်းတို့၏ ပင်ကုတ်၊ လူမှုစီးပွားအခြေအနေ၊ ပြောဆိုသော ဘာသာစကားများနှင့် ၎င်းတို့၏ ဘဝနေထိုင်မှု မှတ်တမ်းတစ်ခုတို့ ပါဝင်ပါသည်။ အသံသွင်းသူတိုင်းအတွက်၊ ဒေတာတွင် အမည်မသိ ကူးယူဖော်ပြသူ ID၊ စပီကာများ နှင့် အလားတူသော လူဦးရေဆိုင်ရာ အသေးစိတ်အချက်အလက်များ၊ ၎င်းတို့၏ စာသားမှတ်တမ်း အတွေ့အကြုံကြာချိန်နှင့် ၎င်းတို့ဖတ်နိုင်၊ ရေးနိုင်၊ ပြောနိုင်သော ဘာသာစကားများကို စေ့စေ့စပ်စပ် ပိုင်းခြားထားပါသည်။
Shaip စုဆောင်းခဲ့သည်။ 8000 အသံဒေတာ/ ရှုပ်ထွေးသော ပရောဂျက်များအတွက် စကားပြောနည်းပညာကို လေ့ကျင့်ရန် လိုအပ်သော အရည်အသွေးအဆင့်ကို ထိန်းသိမ်းထားချိန်တွင် နာရီပေါင်း 800 အသံဒေတာ/ အလိုအလျောက် အသံဖြင့် ကူးယူဖော်ပြပါသည်။ သင်တန်းသားတစ်ဦးစီထံမှ တိကျပြတ်သားသော သဘောတူညီချက်ပုံစံကို ထုတ်ယူခဲ့သည်။ စုဆောင်းထားသော / spontaneous မိန့်ခွန်းသည် တက္ကသိုလ်မှပေးသောပုံများကို အခြေခံထားသည်။ ဟိ 3500 ရုပ်ပုံများ 1000 ယေဘူယျနှင့် 2500 ခရိုင်အလိုက် ယဉ်ကျေးမှု၊ ပွဲတော်များ အစရှိသည်တို့နှင့် သက်ဆိုင်သည်။ ရထားဘူတာများ၊ စျေးများ၊ ရာသီဥတုနှင့် အခြားအရာများကဲ့သို့ နယ်ပယ်အမျိုးမျိုးကို ပုံများက သရုပ်ဖော်ထားသည်။
ဒေတာများစုစည်းမှု
ပြည်နယ် | ခရိုင် | Audio Hrs | ကူးယူမှတ်တမ်းတင် (နာရီ) |
Bihar | Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaarpur, Jamui | 2000 | 200 |
ဥတ္တပရာဒေ့ရှ် | Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun | 1000 | 100 |
Rajasthan | Nagaur၊ Churu | 200 | 20 |
Uttarakhand | Tehri Garhwal, Uttarkashi | 200 | 20 |
Chhattisgarh | Bilaspur၊ Raigarh၊ Kabirdham၊ Sarguja၊ Korba၊ Jashpur၊ Rajnandgaon၊ Balrampur၊ Bastar၊ Sukma | 1000 | 100 |
အနောက်ဘင်္ဂလား | Paschim Medinipur၊ Malda၊ Jalpaiguri၊ Purulia၊ Kolkatta၊ Jhargram၊ North 24 Parganas၊ Dakshin Dinajpur | 800 | 80 |
ဂျေဟာခန်းပြည်နယ်မှာ | Sahebganj၊ Jamtara | 200 | 20 |
AP | Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam | 600 | 60 |
Telangana | Karimnagar၊ Nalgonda | 200 | 20 |
Goa | မြောက်+တောင်ဘက် Goa | 100 | 10 |
Karnataka | Dakshin Kannada၊ Gulbarga၊ Dharwad၊ Bellary၊ Mysore၊ Shimoga၊ Bijapur၊ Belgaum၊ Raichur၊ Chamrajnagar | 1000 | 100 |
မဟာရပ်ရှ | Sindhudurg၊ Dhule၊ Nagpur၊ Pune၊ Aurangabad၊ Chandrpur၊ Solapur | 700 | 70 |
စုစုပေါင်း | 8000 | 800 |
အထွေထွေလမ်းညွှန်ချက်များ
ပုံစံ
- 16 kHz၊ 16 ဘစ်/နမူနာတွင် အသံ။
- ချန်နယ်တစ်ခုတည်း။
- ကုဒ်ပြောင်းခြင်းမရှိဘဲ အကြမ်းထည်အသံ။
စတိုင်
- သူ့အလိုလို စကားပြောသည်။
- တက္ကသိုလ်မှပေးသောပုံများကိုအခြေခံထားသောစာကြောင်းများ။ ပုံ 3500 တွင် ပုံ 1000 သည် သာမန်ဖြစ်ပြီး 2500 သည် ခရိုင်အလိုက် ယဉ်ကျေးမှု၊ ပွဲတော်များ စသည်တို့နှင့် သက်ဆိုင်ပါသည်။ ပုံများသည် ရထားဘူတာများ၊ စျေးကွက်များ၊ ရာသီဥတုနှင့် အခြားအရာများကဲ့သို့ နယ်ပယ်အမျိုးမျိုးကို ပုံဖော်ထားသည်။
မှတ်တမ်းတင်ခြင်း နောက်ခံ
- အသံမပါဘဲ တိတ်ဆိတ်ငြိမ်သက်သော ပတ်ဝန်းကျင်တွင် မှတ်တမ်းတင်ထားသည်။
- ရိုက်ကူးနေစဉ်တွင် စမတ်ဖုန်း အနှောင့်အယှက်များ (တုန်ခါမှု သို့မဟုတ် အကြောင်းကြားချက်များ) မရှိပါ။
- ဖြတ်တောက်ခြင်း သို့မဟုတ် နယ်ပယ်အဝေးမှ အကျိုးသက်ရောက်မှုများကဲ့သို့ ပုံပျက်ခြင်း မရှိပါ။
- ဖုန်းမှတုန်ခါမှုများကို လက်မခံနိုင်ပါ။ အသံကြည်လင်ပါက ပြင်ပတုန်ခါမှုများကို ခံနိုင်ရည်ရှိသည်။
Speaker အသေးစိတ်ဖော်ပြချက်
- ခရိုင်အလိုက် မျှတသော ကျားမ ခွဲခြားမှုဖြင့် အသက် 20 မှ 70 နှစ်အထိ။
- ခရိုင်တစ်ခုစီတွင် မိခင်ဘာသာစကား အနည်းဆုံး ၄၀၀ ရှိသည်။
- စကားပြောသူများသည် ၎င်းတို့၏ အိမ်သုံးဘာသာစကား/ဒေသိယစကားကို အသုံးပြုသင့်သည်။
- ပါဝင်သူအားလုံးအတွက် သဘောတူညီချက်ပုံစံများ မဖြစ်မနေလိုအပ်ပါသည်။
အရည်အသွေးစစ်ဆေးခြင်းနှင့် အရေးကြီးသော အရည်အသွေးအာမခံချက်
QA လုပ်ငန်းစဉ်သည် အသံသွင်းခြင်းနှင့် အသံသွင်းခြင်းများအတွက် အရည်အသွေးအာမခံချက်ကို ဦးစားပေးပါသည်။ အသံစံနှုန်းများသည် တိကျသောတိတ်ဆိတ်မှု၊ အပိုင်းကြာချိန်၊ စပီကာတစ်လုံးတည်းဖြင့် ရှင်းလင်းပြတ်သားမှုနှင့် အသက်အရွယ်နှင့် လူမှုစီးပွားအခြေအနေများအပါအဝင် အသေးစိတ်အချက်အလက်များအပေါ် အာရုံစိုက်သည်။ စာသားမှတ်တမ်းသတ်မှတ်ချက်များသည် တဂ်တိကျမှု၊ စကားလုံးမှန်ကန်မှုနှင့် မှန်ကန်သောအပိုင်းအသေးစိတ်များကို အလေးပေးဖော်ပြသည်။ လက်ခံမှုစံနှုန်းသည် အသံအသုတ်တစ်ခု၏ 20% ကျော်သည် ဤစံနှုန်းများနှင့် ပျက်ကွက်ပါက၊ ၎င်းကို ပယ်ချသည်ဟု သတ်မှတ်သည်။ ကွဲလွဲမှု 20% အောက်အတွက်၊ အလားတူ ပရိုဖိုင်များဖြင့် အစားထိုး အသံသွင်းမှုများ လိုအပ်ပါသည်။
ဒေတာကူးယူခြင်း
စကားလုံးများ ရှင်းလင်းပြတ်သားပြီး နားလည်နိုင်မှသာ စာသားကူးယူခြင်းဆိုင်ရာ လမ်းညွှန်ချက်များသည် တိကျမှုနှင့် စကားအသုံးအနှုန်းများကို အလေးပေးဖော်ပြပါသည်။ မရှင်းလင်းသောစကားလုံးများကို ပြဿနာအပေါ်အခြေခံ၍ [နားမလည်နိုင်သော] သို့မဟုတ် [မကြားနိုင်သော] အဖြစ် အမှတ်အသားပြုပါသည်။ ရှည်လျားသောအသံတွင် စာကြောင်းဘောင်များကို မှတ်သားထားသည်။ နှင့် သဒ္ဒါဆိုင်ရာ အမှားအယွင်းများကို အဓိပ္ပါယ်ဖော်ခြင်း သို့မဟုတ် ပြင်ဆင်ခြင်းတို့ကို ခွင့်မပြုပါ။ Verbatim စာသားမှတ်တမ်းသည် အမှားအယွင်းများ၊ ဘန်းစကားများနှင့် ထပ်ခါတလဲလဲ အကျုံးဝင်သော်လည်း မှားယွင်းသော အစပြုခြင်း၊ အဖြည့်ခံသံများနှင့် စကားထစ်ခြင်းများကို ချန်လှပ်ထားသည်။ သင့်လျော်သော အမည်များ၊ ခေါင်းစဉ်များနှင့် နံပါတ်များသည် သတ်သတ်မှတ်မှတ် စာသားမှတ်တမ်းစည်းမျဉ်းများကို လိုက်နာနေချိန်တွင် နောက်ခံနှင့် ရှေ့နောက်ရှိ ဆူညံသံများကို ဖော်ပြချက်တဂ်များဖြင့် ကူးယူထားပါသည်။ စာကြောင်းတိုင်းအတွက် စပီကာတံဆိပ်များကို အသုံးပြုထားပြီး မပြည့်စုံသောစာကြောင်းများဖြင့် ညွှန်ပြထားသည်။
စီမံကိန်းလုပ်ငန်းအသွားအလာ
အလုပ်အသွားအလာသည် အသံမှတ်တမ်းသွင်းခြင်းလုပ်ငန်းစဉ်ကို ဖော်ပြသည်။ ၎င်းသည် စတင်ခေါ်ယူခြင်းနှင့် လေ့ကျင့်ရေးတွင် ပါဝင်သူများဖြင့် စတင်သည်။ ၎င်းတို့သည် QA ပလပ်ဖောင်းသို့ အပ်လုဒ်တင်ထားသည့် အက်ပ်ကို အသုံးပြု၍ အသံဖမ်းပါသည်။ ဤအသံသည် အရည်အသွေးစစ်ဆေးမှုများနှင့် အလိုအလျောက် အပိုင်းခွဲခြင်းကို ခံယူသည်။ ထို့နောက် နည်းပညာအဖွဲ့သည် စာသားမှတ်တမ်းအတွက် အပိုင်းများကို ပြင်ဆင်သည်။ လက်ဖြင့်ကူးယူပြီးနောက်၊ အရည်အသွေးအာမခံချက်အဆင့်တစ်ခုရှိသည်။ စာသားမှတ်တမ်းများကို ဖောက်သည်ထံ ပေးပို့ပြီး လက်ခံပါက ပေးပို့မှု ပြီးမြောက်သည်ဟု မှတ်ယူပါသည်။ မဟုတ်ပါက၊ ဖောက်သည်တုံ့ပြန်ချက်အပေါ် အခြေခံ၍ ပြန်လည်ပြင်ဆင်မှုများကို ပြုလုပ်သည်။
အကျိုး
ကျွမ်းကျင်သော ဘာသာဗေဒပညာရှင်များထံမှ အရည်အသွေးမြင့် အသံဒေတာသည် ကျွန်ုပ်တို့၏ client ကို သတ်မှတ်အချိန်အတွင်း မတူညီသော ဒေသိယစကားများဖြင့် အိန္ဒိယဘာသာစကားအမျိုးမျိုးတွင် ဘာသာပေါင်းစုံ စကားပြောအသိအမှတ်ပြုမှုပုံစံများကို တိကျမှန်ကန်စွာ လေ့ကျင့်တည်ဆောက်နိုင်စေမည်ဖြစ်သည်။ Speech recognition မော်ဒယ်များကို အောက်ပါတို့အတွက် အသုံးပြုနိုင်ပါသည်။
- နိုင်ငံသားများအား ၎င်းတို့၏မိခင်ဘာသာစကားဖြင့် စတင်လုပ်ဆောင်မှုများနှင့် ချိတ်ဆက်ခြင်းဖြင့် ဒစ်ဂျစ်တယ်ပါဝင်မှုအတွက် ဘာသာစကားအတားအဆီးကို ကျော်လွှားလိုက်ပါ။
- ဒစ်ဂျစ်တယ် အုပ်ချုပ်ရေးကို မြှင့်တင်ပါ။
- အိန္ဒိယဘာသာစကားဖြင့် ဝန်ဆောင်မှုများနှင့် ထုတ်ကုန်များအတွက် ဂေဟစနစ်တစ်ခုဖွဲ့စည်းရန် ဓာတ်ကူပစ္စည်း
- အထူးသဖြင့်၊ အုပ်ချုပ်ရေးနှင့် မူဝါဒများတွင် အများသူငှာ အကျိုးစီးပွားရှိသော နယ်ပယ်များတွင် ဒေသအလိုက် ဒစ်ဂျစ်တယ် အကြောင်းအရာများ
စကားပြောဆိုနိုင်သော AI နယ်ပယ်တွင် Shaip ၏ကျွမ်းကျင်မှုကို ကျွန်ုပ်တို့အံ့သြမိပါသည်။ မတူကွဲပြားသော ခရိုင် 8000 တွင် နာရီပေါင်း 800 နာရီ အသံဒေတာကို မှတ်တမ်းတင်ခြင်းနှင့်အတူ နာရီပေါင်း 80 ကို ကိုင်တွယ်ခြင်း၏ တာဝန်သည် အနည်းဆုံးပြောရလျှင် အလွန်ကြီးမားပါသည်။ ဤကဲ့သို့သော စိန်ခေါ်မှုပရောဂျက်ကို အောင်မြင်စွာ အကောင်အထည်ဖော်နိုင်စေရန် ဤဒိုမိန်း၏ အနုစိတ်အသေးစိတ်နှင့် ကွဲလွဲချက်များကို Shaip ၏ နက်ရှိုင်းစွာ နားလည်သဘောပေါက်ခြင်းဖြစ်ပါသည်။ ထိပ်တန်းအရည်အသွေးကို အာမခံပြီး ဤများပြားလှသော ဒေတာပမာဏ၏ ရှုပ်ထွေးမှုများကို ချောမွေ့စွာ စီမံခန့်ခွဲခြင်းနှင့် သွားလာနိုင်မှုစွမ်းရည်သည် အမှန်တကယ် ချီးကျူးထိုက်ပါသည်။