စက်တင်ဘာလ 27, 2023

မရှိမဖြစ်လိုအပ်သော Open-Source အမည်ရှိ Entity Recognition Datasets 5 ခု၏ ခြုံငုံသုံးသပ်ချက်

အမည်ပေးထားသည့် entity recognition (NER) သည် စာသားအမြောက်အမြားအတွင်း တိကျသောအသေးစိတ်အချက်အလက်များကို ခွဲခြားသတ်မှတ်ပြီး အမျိုးအစားခွဲရာတွင် ကူညီပေးသည့် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်း (NLP) ၏ အဓိကကဏ္ဍတစ်ခုဖြစ်သည်။ NER အပလီကေးရှင်းများတွင် အချက်အလက်ထုတ်ယူမှု၊ စာသားအကျဉ်းချုပ်နှင့် ခံစားချက်ခွဲခြမ်းစိတ်ဖြာမှုတို့ ပါဝင်ပါသည်။ ထိရောက်သော NER အတွက်၊ စက်သင်ယူမှုပုံစံများကို လေ့ကျင့်ရန်အတွက် မတူကွဲပြားသောဒေတာအတွဲများ လိုအပ်ပါသည်။

NER အတွက် သိသာထင်ရှားသော open-source ဒေတာအတွဲငါးခုမှာ-

CONLL 2003- သတင်းဒိုမိန်း
CADEC- ဆေးဘက်ဆိုင်ရာ ဒိုမိန်း
WikiNEuRal- ဝီကီပီးဒီးယား ဒိုမိန်း
မှတ်စု ၅- ဒိုမိန်းအမျိုးမျိုး
BBN- ဒိုမိန်းအမျိုးမျိုး

ဤဒေတာအတွဲများ၏ အားသာချက်များမှာ-

Accessibility: သူတို့က လွတ်လပ်ပြီး ပူးပေါင်းဆောင်ရွက်မှုကို အားပေးတယ်။
ဒေတာကြွယ်ဝမှု- ၎င်းတို့တွင် မတူကွဲပြားသော ဒေတာများ ပါဝင်ပြီး မော်ဒယ်စွမ်းဆောင်ရည်ကို မြှင့်တင်ပေးသည်။
အသိုင်းအဝိုင်းပံ့ပိုးမှု- ၎င်းတို့သည် ပံ့ပိုးကူညီသော သုံးစွဲသူအသိုင်းအဝိုင်းတစ်ခုဖြင့် လာလေ့ရှိသည်။
သုတေသနကို အဆင်ပြေချောမွေ့စေသည်- အထူးသဖြင့် ဒေတာစုဆောင်းမှု အရင်းအမြစ် အကန့်အသတ်ရှိသော သုတေသီများအတွက် အထူးအသုံးဝင်သည်။

သို့သော်လည်း ၎င်းတို့တွင် အားနည်းချက်များ ပါ၀င်သည် ။

ဒေတာအရည်အသွေး- ၎င်းတို့တွင် အမှားများ သို့မဟုတ် ဘက်လိုက်မှုများ ပါဝင်နိုင်သည်။
တိကျမှု မရှိခြင်း- ၎င်းတို့သည် သီးခြားဒေတာလိုအပ်သော အလုပ်များအတွက် မသင့်လျော်ပေ။
လုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ စိုးရိမ်မှုများ- အရေးကြီးသော အချက်အလက်များနှင့် ဆက်စပ်နေသော အန္တရာယ်များ
ကို Maintenance: ၎င်းတို့သည် ပုံမှန်အပ်ဒိတ်များကို လက်ခံရရှိမည်မဟုတ်ပါ။

ဖြစ်နိုင်ချေရှိသော အားနည်းချက်များရှိသော်လည်း၊ Open-source datasets များသည် NLP နှင့် machine learning ၏တိုးတက်မှုအတွက် အထူးသဖြင့် အမည်ပေးထားသော entity recognition နယ်ပယ်တွင် မရှိမဖြစ်လိုအပ်ပါသည်။

ဒီမှာအပြည့်အဝဆောင်းပါးဖတ်ရန်:

https://wikicatch.com/open-datasets-for-named-entity-recognition/

ကျွမ်းကျင်သူတစ် ဦး နှင့်ပြောဆိုပါ

နာမည်*
မျိုးနွယ်အမည်*
အီးမေးလ်လိပ်စာ*
ဖုန်းနံပါတ်*
ကုမ္ပဏီ*
နိုင်ငံ*
နိုင်ငံ
မှတ်ချက်များ*
စာရင်းသွင်းခြင်းဖြင့်၊ Shaip နှင့် သဘောတူပါသည်။ ကိုယ်ရေးအချက်အလက်ပေါ်လစီ နှင့် ဝန်ဆောင်မှုစည်းမျဉ်းများ Shaip ထံမှ B2B စျေးကွက်ချဲ့ထွင်ဆက်သွယ်ရေးကို လက်ခံရယူရန် ကျွန်ုပ်၏သဘောတူညီချက်ကို ပေးဆောင်ပါ။
CAPTCHA

အခမဲ့စာအုပ်ကို download လုပ်ပါ

လူမှုဝေမျှမယ်

ယနေ့သင်၏ AI သင်တန်းအချက်အလက်လိုအပ်ချက်ကိုဆွေးနွေးကြပါစို့။

သငျသညျဒါ့အပြင်လိုနိုင်ပါစေ

မရှိမဖြစ်လိုအပ်သော Open-Source အမည်ရှိ Entity Recognition Datasets 5 ခု၏ ခြုံငုံသုံးသပ်ချက်

ကျွမ်းကျင်သူတစ် ဦး နှင့်ပြောဆိုပါ

လူမှုဝေမျှမယ်

Speech Recognition ဆိုတာ ဘာလဲ ၊ မိန့်ခွန်း အသိအမှတ်ပြုခြင်း ဒေတာကို ဘယ်မှာ ရှာတွေ့နိုင်မလဲ။

AI-စွမ်းအားသုံးဘဏ္ဍာရေး- မျိုးဆက်သစ်ပုံစံများသည် ဘဏ်လုပ်ငန်းကို ပြန်လည်အဓိပ္ပာယ်ဖွင့်ဆိုပုံ

Semantic Segmentation ဆိုတာ ဘာလဲ ၊ ဘယ်လို အထောက်အကူ ပြုသလဲ ။

AI ဒေတာန်ဆောင်မှုများ

အလုပ်အကိုင်

စက်မှုလုပ်ငန်း

ထုတ်ကုန်များ

ကုမ္ပဏီ

အရင်းအမြစ်များ

ဆက်သွယ်ရန်