အမည်ပေးထားသည့် entity recognition (NER) သည် စာသားအမြောက်အမြားအတွင်း တိကျသောအသေးစိတ်အချက်အလက်များကို ခွဲခြားသတ်မှတ်ပြီး အမျိုးအစားခွဲရာတွင် ကူညီပေးသည့် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်း (NLP) ၏ အဓိကကဏ္ဍတစ်ခုဖြစ်သည်။ NER အပလီကေးရှင်းများတွင် အချက်အလက်ထုတ်ယူမှု၊ စာသားအကျဉ်းချုပ်နှင့် ခံစားချက်ခွဲခြမ်းစိတ်ဖြာမှုတို့ ပါဝင်ပါသည်။ ထိရောက်သော NER အတွက်၊ စက်သင်ယူမှုပုံစံများကို လေ့ကျင့်ရန်အတွက် မတူကွဲပြားသောဒေတာအတွဲများ လိုအပ်ပါသည်။
NER အတွက် သိသာထင်ရှားသော open-source ဒေတာအတွဲငါးခုမှာ-
- CONLL 2003- သတင်းဒိုမိန်း
- CADEC- ဆေးဘက်ဆိုင်ရာ ဒိုမိန်း
- WikiNEuRal- ဝီကီပီးဒီးယား ဒိုမိန်း
- မှတ်စု ၅- ဒိုမိန်းအမျိုးမျိုး
- BBN- ဒိုမိန်းအမျိုးမျိုး
ဤဒေတာအတွဲများ၏ အားသာချက်များမှာ-
- Accessibility: သူတို့က လွတ်လပ်ပြီး ပူးပေါင်းဆောင်ရွက်မှုကို အားပေးတယ်။
- ဒေတာကြွယ်ဝမှု- ၎င်းတို့တွင် မတူကွဲပြားသော ဒေတာများ ပါဝင်ပြီး မော်ဒယ်စွမ်းဆောင်ရည်ကို မြှင့်တင်ပေးသည်။
- အသိုင်းအဝိုင်းပံ့ပိုးမှု- ၎င်းတို့သည် ပံ့ပိုးကူညီသော သုံးစွဲသူအသိုင်းအဝိုင်းတစ်ခုဖြင့် လာလေ့ရှိသည်။
- သုတေသနကို အဆင်ပြေချောမွေ့စေသည်- အထူးသဖြင့် ဒေတာစုဆောင်းမှု အရင်းအမြစ် အကန့်အသတ်ရှိသော သုတေသီများအတွက် အထူးအသုံးဝင်သည်။
သို့သော်လည်း ၎င်းတို့တွင် အားနည်းချက်များ ပါ၀င်သည် ။
- ဒေတာအရည်အသွေး- ၎င်းတို့တွင် အမှားများ သို့မဟုတ် ဘက်လိုက်မှုများ ပါဝင်နိုင်သည်။
- တိကျမှု မရှိခြင်း- ၎င်းတို့သည် သီးခြားဒေတာလိုအပ်သော အလုပ်များအတွက် မသင့်လျော်ပေ။
- လုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ စိုးရိမ်မှုများ- အရေးကြီးသော အချက်အလက်များနှင့် ဆက်စပ်နေသော အန္တရာယ်များ
- ကို Maintenance: ၎င်းတို့သည် ပုံမှန်အပ်ဒိတ်များကို လက်ခံရရှိမည်မဟုတ်ပါ။
ဖြစ်နိုင်ချေရှိသော အားနည်းချက်များရှိသော်လည်း၊ Open-source datasets များသည် NLP နှင့် machine learning ၏တိုးတက်မှုအတွက် အထူးသဖြင့် အမည်ပေးထားသော entity recognition နယ်ပယ်တွင် မရှိမဖြစ်လိုအပ်ပါသည်။
ဒီမှာအပြည့်အဝဆောင်းပါးဖတ်ရန်:
https://wikicatch.com/open-datasets-for-named-entity-recognition/