InMedia-Wikicatch

မရှိမဖြစ်လိုအပ်သော Open-Source အမည်ရှိ Entity Recognition Datasets 5 ခု၏ ခြုံငုံသုံးသပ်ချက်

အမည်ပေးထားသည့် entity recognition (NER) သည် စာသားအမြောက်အမြားအတွင်း တိကျသောအသေးစိတ်အချက်အလက်များကို ခွဲခြားသတ်မှတ်ပြီး အမျိုးအစားခွဲရာတွင် ကူညီပေးသည့် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်း (NLP) ၏ အဓိကကဏ္ဍတစ်ခုဖြစ်သည်။ NER အပလီကေးရှင်းများတွင် အချက်အလက်ထုတ်ယူမှု၊ စာသားအကျဉ်းချုပ်နှင့် ခံစားချက်ခွဲခြမ်းစိတ်ဖြာမှုတို့ ပါဝင်ပါသည်။ ထိရောက်သော NER အတွက်၊ စက်သင်ယူမှုပုံစံများကို လေ့ကျင့်ရန်အတွက် မတူကွဲပြားသောဒေတာအတွဲများ လိုအပ်ပါသည်။

NER အတွက် သိသာထင်ရှားသော open-source ဒေတာအတွဲငါးခုမှာ-

  • CONLL 2003- သတင်းဒိုမိန်း
  • CADEC- ဆေးဘက်ဆိုင်ရာ ဒိုမိန်း
  • WikiNEuRal- ဝီကီပီးဒီးယား ဒိုမိန်း
  • မှတ်စု ၅- ဒိုမိန်းအမျိုးမျိုး
  • BBN- ဒိုမိန်းအမျိုးမျိုး

ဤဒေတာအတွဲများ၏ အားသာချက်များမှာ-

  • Accessibility: သူတို့က လွတ်လပ်ပြီး ပူးပေါင်းဆောင်ရွက်မှုကို အားပေးတယ်။
  • ဒေတာကြွယ်ဝမှု- ၎င်းတို့တွင် မတူကွဲပြားသော ဒေတာများ ပါဝင်ပြီး မော်ဒယ်စွမ်းဆောင်ရည်ကို မြှင့်တင်ပေးသည်။
  • အသိုင်းအဝိုင်းပံ့ပိုးမှု- ၎င်းတို့သည် ပံ့ပိုးကူညီသော သုံးစွဲသူအသိုင်းအဝိုင်းတစ်ခုဖြင့် လာလေ့ရှိသည်။
  • သုတေသနကို အဆင်ပြေချောမွေ့စေသည်- အထူးသဖြင့် ဒေတာစုဆောင်းမှု အရင်းအမြစ် အကန့်အသတ်ရှိသော သုတေသီများအတွက် အထူးအသုံးဝင်သည်။

သို့သော်လည်း ၎င်းတို့တွင် အားနည်းချက်များ ပါ၀င်သည် ။

  • ဒေတာအရည်အသွေး- ၎င်းတို့တွင် အမှားများ သို့မဟုတ် ဘက်လိုက်မှုများ ပါဝင်နိုင်သည်။
  • တိကျမှု မရှိခြင်း- ၎င်းတို့သည် သီးခြားဒေတာလိုအပ်သော အလုပ်များအတွက် မသင့်လျော်ပေ။
  • လုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ စိုးရိမ်မှုများ- အရေးကြီးသော အချက်အလက်များနှင့် ဆက်စပ်နေသော အန္တရာယ်များ
  • ကို Maintenance: ၎င်းတို့သည် ပုံမှန်အပ်ဒိတ်များကို လက်ခံရရှိမည်မဟုတ်ပါ။

ဖြစ်နိုင်ချေရှိသော အားနည်းချက်များရှိသော်လည်း၊ Open-source datasets များသည် NLP နှင့် machine learning ၏တိုးတက်မှုအတွက် အထူးသဖြင့် အမည်ပေးထားသော entity recognition နယ်ပယ်တွင် မရှိမဖြစ်လိုအပ်ပါသည်။

ဒီမှာအပြည့်အဝဆောင်းပါးဖတ်ရန်:

https://wikicatch.com/open-datasets-for-named-entity-recognition/

လူမှုဝေမျှမယ်

ယနေ့သင်၏ AI သင်တန်းအချက်အလက်လိုအပ်ချက်ကိုဆွေးနွေးကြပါစို့။