Named Entity အသိအမှတ်ပြုခြင်း (NER)

အမည်ပေးထားသည့် Entity Recognition (NER) – အယူအဆ၊ အမျိုးအစားများနှင့် အသုံးချမှုများ

ကျွန်ုပ်တို့သည် စကားလုံးတစ်လုံးကိုကြားခြင်း သို့မဟုတ် စာသားကိုဖတ်သည့်အခါတိုင်း၊ ကျွန်ုပ်တို့တွင် စကားလုံးကို လူ၊ နေရာ၊ တည်နေရာ၊ တန်ဖိုးများနှင့် အခြားအရာများအဖြစ် ခွဲခြားခွဲခြားသတ်မှတ်နိုင်သည့် သဘာဝစွမ်းရည်ရှိသည်။ လူသားများသည် စကားလုံးတစ်လုံးကို လျင်မြန်စွာ မှတ်မိနိုင်ပြီး ၎င်းကို အမျိုးအစားခွဲကာ အကြောင်းအရာကို နားလည်နိုင်သည်။ ဥပမာအားဖြင့်၊ 'Steve Jobs' ဟူသော စကားလုံးကို ကြားသောအခါ၊ သင်သည် အနည်းဆုံး attribute သုံးခုမှ လေးခုကို ချက်ခြင်းစဉ်းစားနိုင်ပြီး entity ကို အမျိုးအစားများခွဲခြားနိုင်သည်။

  • Person: စတိဗ်ဂျော့ဘ်
  • ကုမ္ပဏီ: Apple
  • တည်နေရာ: California

ကွန်ပျူတာများတွင် ဤသဘာဝစွမ်းရည်မရှိသောကြောင့် စကားလုံးများ သို့မဟုတ် စာသားများကိုခွဲခြားသတ်မှတ်ပြီး အမျိုးအစားခွဲရန် ကျွန်ုပ်တို့၏အကူအညီကို လိုအပ်ပါသည်။ ဘယ်မှာလဲ။ Entity အသိအမှတ်ပြု Named (NER) ကစားသို့ကြွလာ။

NER နှင့် NLP နှင့် ၎င်း၏ဆက်စပ်မှုကို အတိုချုံးနားလည်ကြပါစို့။

Entity Recognition ဆိုတာ ဘာလဲ

Entity Recognition သည် Natural Language Processing ၏ အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။ ၏အဓိကရည်ရွယ်ချက် င်း၏ NNER လုပ်ဆောင်ရန်ဖြစ်ပါသည်။ ဖွဲ့စည်းတည်ဆောက်ပုံနှင့်ဖွဲ့စည်းပုံမထားသောဒေတာ နှင့် ဤအမည်ရှိအရာများကို ကြိုတင်သတ်မှတ်ထားသော အမျိုးအစားများအဖြစ် အမျိုးအစားခွဲပါ။ အချို့သော ဘုံအမျိုးအစားများမှာ အမည်၊ တည်နေရာ၊ ကုမ္ပဏီ၊ အချိန်၊ ငွေကြေးတန်ဖိုးများ၊ ပွဲလမ်းသဘင်များနှင့် အခြားအရာများ ပါဝင်သည်။

အတိုချုပ်အားဖြင့်၊ NER သည်-

  • အမည်ပေးထားသည့် အရာအား အသိအမှတ်ပြုခြင်း/ထောက်လှမ်းခြင်း - စာရွက်စာတမ်းတစ်ခုရှိ စကားလုံးတစ်လုံး သို့မဟုတ် စကားလုံးစီးရီးများကို ခွဲခြားသတ်မှတ်ခြင်း။
  • အမည်ပေးထားသော entity အမျိုးအစားခွဲခြားခြင်း - ရှာဖွေတွေ့ရှိထားသော အရာတိုင်းကို ကြိုတင်သတ်မှတ်ထားသော အမျိုးအစားများအဖြစ် အမျိုးအစားခွဲခြားခြင်း။

သို့သော် NER သည် NLP နှင့် မည်သို့ဆက်စပ်သနည်း။

Natural Language processing သည် စကားပြောနှင့် စာသားမှ အဓိပ္ပါယ်ကို ထုတ်ယူနိုင်သည့် အသိဉာဏ်ရှိသော စက်များကို တီထွင်ရန် ကူညီပေးပါသည်။ Machine Learning သည် သဘာဝဘာသာစကား အမြောက်အမြားကို လေ့ကျင့်ပေးခြင်းဖြင့် အဆိုပါ အသိဉာဏ်ရှိသော စနစ်များကို ဆက်လက်သင်ယူရန် ကူညီပေးပါသည်။ ဒေတာအစုံ.

ယေဘူယျအားဖြင့် NLP တွင် အဓိက အမျိုးအစားသုံးမျိုး ပါဝင်သည်။

  • ဘာသာစကား၏ ဖွဲ့စည်းပုံနှင့် စည်းမျဉ်းများကို နားလည်ခြင်း- syntax
  • စကားလုံးများ၊ စာသားနှင့် အပြောအဆိုများ၏ အဓိပ္ပါယ်ကို ရယူပြီး ၎င်းတို့၏ ဆက်ဆံရေးကို ခွဲခြားသတ်မှတ်ခြင်း- semantic
  • စကားပြောသော စကားလုံးများကို ခွဲခြားသိမြင်ပြီး ၎င်းတို့ကို စာသားအဖြစ် ပြောင်းလဲခြင်း။ - မိန့်ခွန်း

NER သည် NLP ၏ အဓိပ္ပါယ်ဖွင့်ဆိုချက်အပိုင်းတွင် ကူညီပေးသည်၊ စကားလုံးများ၏ အဓိပ္ပါယ်ကို ထုတ်နုတ်ကာ ၎င်းတို့၏ ဆက်ဆံရေးအပေါ် အခြေခံ၍ ၎င်းတို့ကို ခွဲခြားသတ်မှတ်ကာ နေရာချထားပေးသည်။

NER ၏ ဘုံဥပမာများ

ကြိုတင်သတ်မှတ်ထားသော ဘုံဥပမာအချို့ entity အမျိုးအစားခွဲခြင်း။ ခေါင်းစဉ်:

Examples of ner
Examples of ner

Person: Michael Jackson၊ Oprah Winfrey၊ Barack Obama၊ Susan Sarandon

တည်နေရာ: ကနေဒါ၊ ဟိုနိုလူလူ၊ ဘန်ကောက်၊ ဘရာဇီး၊ ကိန်းဘရစ်

အဖွဲ့အစည်းက: Samsung၊ Disney၊ Yale တက္ကသိုလ်၊ Google

အချိန်: 15.35 12 PM၊

အခြားအမျိုးအစားများတွင် ကိန်းဂဏာန်းတန်ဖိုးများ၊ Expression၊ E-Mail Address နှင့် Facility တို့ ပါဝင်ပါသည်။

အမည်ပေးထားသော အဖွဲ့အစည်း အသိအမှတ်ပြုမှုတွင် ရှုပ်ထွေးမှု

သက်ဆိုင်သည့် အသုံးအနှုန်းအမျိုးအစားသည် လူသားများအတွက် အလိုလိုရှင်းလင်းပါသည်။ သို့သော် ကွန်ပျူတာများတွင် ထိုသို့မဟုတ်ပါ - အမျိုးအစားခွဲခြားခြင်းဆိုင်ရာ ပြဿနာများ ကြုံတွေ့ရတတ်ပါသည်။ ဥပမာ:

မန်စီးတီး (အဖှဲ့အစညျး) ပရီးမီးယားလိဂ်ဆုဖလားကို ဆွတ်ခူးနိုင်သော်လည်း အောက်ပါဝါကျတွင် အဖွဲ့အစည်းကို ကွဲပြားစွာအသုံးပြုသည်။ မန်စီးတီး (Location) အထည်အလိပ်နှင့် စက်မှုလုပ်ငန်းသုံး ဓာတ်အားပေးစက်ရုံဖြစ်ခဲ့သည်။

သင်၏ NER မော်ဒယ် လိုအပ်သည်။ လေ့ကျင့်ရေးဒေတာ တိကျစွာလုပ်ဆောင်ရန် ဘဘ ထုတ်ယူခြင်း။ နှင့်အမျိုးအစားခွဲခြား။ Shakespearean English ဖြင့် သင့်မော်ဒယ်လ်ကို လေ့ကျင့်သင်ကြားပေးနေပါက Instagram တွင် ပုံဖေါ်နိုင်မည်မဟုတ်ပါ။

မတူညီသော NER ချဉ်းကပ်မှုများ

တစ်ဦး၏ အဓိက ပန်းတိုင် NER မော်ဒယ် စာသားစာရွက်စာတမ်းများတွင် အရာဝတ္တုများကို အညွှန်းတပ်ပြီး ၎င်းတို့ကို အမျိုးအစားခွဲရန်ဖြစ်သည်။ ဤရည်ရွယ်ချက်အတွက် အောက်ပါနည်းလမ်းသုံးခုကို ယေဘူယျအားဖြင့် အသုံးပြုပါသည်။ သို့သော်၊ တစ်ခု သို့မဟုတ် တစ်ခုထက်ပိုသော နည်းလမ်းများကို ပေါင်းစပ်ရန် သင်ရွေးချယ်နိုင်သည်။

ယနေ့သင်၏ AI သင်တန်းအချက်အလက်လိုအပ်ချက်ကိုဆွေးနွေးကြပါစို့။

NER စနစ်များဖန်တီးခြင်းအတွက် မတူညီသောနည်းလမ်းများမှာ-

  • အဘိဓာန်အခြေခံစနစ်များ

    အဘိဓာန်အခြေခံစနစ်သည် အရိုးရှင်းဆုံးနှင့် အခြေခံအကျဆုံး NER ချဉ်းကပ်မှုဖြစ်နိုင်သည်။ ၎င်းသည် စကားလုံးများ၊ အဓိပ္ပါယ်တူကွဲများနှင့် ဝေါဟာရစုဆောင်းမှုများစွာပါရှိသော အဘိဓာန်ကို အသုံးပြုမည်ဖြစ်သည်။ စနစ်သည် စာသားတွင်ပါရှိသော သီးခြားအရာတစ်ခုကို ဝေါဟာရ၌လည်း ရနိုင်မလား။ string-matching algorithm ကိုအသုံးပြုခြင်းဖြင့်၊ entities များကို အပြန်အလှန်စစ်ဆေးခြင်းကို လုပ်ဆောင်ပါသည်။

    ဤချဉ်းကပ်မှုကိုအသုံးပြုခြင်း၏အားနည်းချက်တစ်ခုမှာ NER မော်ဒယ်၏ထိရောက်သောလုပ်ဆောင်မှုများအတွက် ဝေါဟာရဒေတာအတွဲကို အဆက်မပြတ်အဆင့်မြှင့်တင်ရန် လိုအပ်ပါသည်။

  • စည်းကမ်းအခြေခံစနစ်များ

    ဤချဉ်းကပ်မှုတွင်၊ ကြိုတင်သတ်မှတ်ထားသော စည်းမျဥ်းများပေါ်တွင် အခြေခံ၍ အချက်အလက်များကို ထုတ်ယူသည်။ သုံးတဲ့ စည်းမျဉ်း နှစ်ခုရှိတယ်၊

    ပုံစံအခြေခံစည်းမျဉ်းများ- အမည်တွင် အကြံပြုထားသည့်အတိုင်း၊ ပုံစံအခြေခံစည်းမျဉ်းတစ်ခုသည် စာရွက်စာတမ်းတွင်အသုံးပြုသော morphological ပုံစံ သို့မဟုတ် စာလုံးတန်းများကို လိုက်နာသည်။

    ဆက်စပ်စည်းမျဉ်းများ- အကြောင်းအရာအခြေခံစည်းမျဉ်းများသည် စာရွက်စာတမ်းရှိ စကားလုံး၏အဓိပ္ပာယ် သို့မဟုတ် ဆက်စပ်မှုအပေါ် မူတည်သည်။

  • စက်သင်ယူမှုအခြေခံစနစ်များ

    Machine learning-based systems တွင်၊ ကိန်းဂဏာန်းစံနမူနာကို entities ကိုရှာဖွေရန်အသုံးပြုသည်။ ဤချဉ်းကပ်မှုတွင် စာသားစာရွက်စာတမ်း၏ အင်္ဂါရပ်ကိုအခြေခံသော ကိုယ်စားပြုမှုကို အသုံးပြုသည်။ မော်ဒယ်က အသိအမှတ်ပြုနိုင်တဲ့အတွက် ပထမချဉ်းကပ်မှုနှစ်ခုရဲ့ အားနည်းချက်များစွာကို သင် ကျော်လွှားနိုင်ပါတယ်။ entity အမျိုးအစားများ ၎င်းတို့၏ စာလုံးပေါင်းမှာ အနည်းငယ်ကွဲလွဲနေသော်လည်း၊

အမည်ပေးထားသည့် အဖွဲ့အစည်း အသိအမှတ်ပြုမှု၏ ဖြစ်ရပ်များနှင့် နမူနာများကို အသုံးပြုပါသလား။

အမည်ပေးထားသော Entity Recognition (NER) ၏ ဘက်စုံအသုံးပြုနိုင်မှုကို ထုတ်ဖော်ပြသခြင်း-

  1. Chatbot များ- NER သည် OpenAI ၏ ChatGPT ကဲ့သို့သော chatbot များကို အသုံးပြုသူ၏မေးမြန်းချက်များကို နားလည်ရန်အတွက် အဓိကအကြောင်းအရာများကိုဖော်ထုတ်ခြင်းဖြင့် ကူညီပေးသည်။
  2. ဖောက်သည်ပံ့ပိုး: ၎င်းသည် ဖောက်သည်တုံ့ပြန်ချက်အား ထုတ်ကုန်အမည်များဖြင့် စုစည်းကာ တုံ့ပြန်မှုအချိန်များကို အရှိန်မြှင့်ပေးသည်။
  3. ဘဏ္ဍာရေး: NER သည် ဘဏ္ဍာရေး အစီရင်ခံစာများမှ အရေးကြီးသော အချက်အလက်များကို ထုတ်ယူပြီး၊ လမ်းကြောင်း ခွဲခြမ်းစိတ်ဖြာမှုနှင့် စွန့်စားရမှု အကဲဖြတ်မှုတွင် အထောက်အကူ ပြုပါသည်။
  4. ကျန်းမာရေးစောင့်ရှောက်မှု: ၎င်းသည် ဆေးခန်းမှတ်တမ်းများမှ မရှိမဖြစ်လိုအပ်သော အချက်အလက်များကို ဆွဲယူကာ ဒေတာခွဲခြမ်းစိတ်ဖြာမှု ပိုမိုမြန်ဆန်စေသည်။
  5. HR- ၎င်းသည် လျှောက်ထားသူပရိုဖိုင်များကို အကျဉ်းချုပ်ပြီး ဝန်ထမ်းများ၏ အကြံပြုချက်ကို လမ်းကြောင်းပေးခြင်းဖြင့် ခေါ်ယူမှုကို ချောမွေ့စေသည်။
  6. သတင်းပေးသူများ- NER သည် အကြောင်းအရာများကို သက်ဆိုင်ရာ အချက်အလက်နှင့် ခေတ်ရေစီးကြောင်းအဖြစ် အမျိုးအစားခွဲကာ အစီရင်ခံမှုကို အရှိန်မြှင့်ပေးသည်။
  7. အကြံပြုအင်ဂျင်များ Netflix ကဲ့သို့ကုမ္ပဏီများသည် သုံးစွဲသူ၏အပြုအမူအပေါ်အခြေခံ၍ အကြံပြုချက်များကို ပုဂ္ဂိုလ်ရေးသီးသန့်ပြုလုပ်ရန် NER ကို အသုံးပြုသည်။
  8. ရှာဖွေရေးအင်ဂျင်: ဝဘ်အကြောင်းအရာကို အမျိုးအစားခွဲခြားခြင်းဖြင့် NER သည် ရှာဖွေမှုရလဒ်တိကျမှုကို မြှင့်တင်ပေးသည်။
  9. စိတ်ဓါတ်ခွဲခြမ်းစိတ်ဖြာခြင်း: NER သည် သုံးသပ်ချက်များမှ အမှတ်တံဆိပ်ဖော်ပြချက်များကို ထုတ်နုတ်ပြီး ခံစားချက်ခွဲခြမ်းစိတ်ဖြာမှုကိရိယာများကို လှုံ့ဆော်ပေးသည်။

NER ၏လျှောက်လွှာများ

NER တွင် Natural Language Processing နှင့် Training Datasets များ ဖန်တီးခြင်းနှင့် ဆက်စပ်သော နယ်ပယ်များစွာတွင် အသုံးပြုမှုကိစ္စများ အများအပြားရှိသည်။ စက်သင်ယူမှု နှင့် နက်ရှိုင်းသောသင်ယူမှု ဖြေရှင်းချက်များ။ NER ၏ အချို့သော application များမှာ-

  • ချောမွေ့သော ဖောက်သည် ပံ့ပိုးမှု

    NER စနစ်သည် ထုတ်ကုန်အမည်များ၊ သတ်မှတ်ချက်များ၊ ဌာနခွဲတည်နေရာများနှင့် အခြားအရာများကဲ့သို့ အရေးကြီးသော အချက်အလက်များအပေါ် အခြေခံ၍ သက်ဆိုင်ရာ ဖောက်သည်များ၏ တိုင်ကြားချက်များ၊ မေးမြန်းချက်များနှင့် တုံ့ပြန်ချက်များကို အလွယ်တကူ တွေ့ရှိနိုင်သည်။ တိုင်ကြားချက် သို့မဟုတ် အကြံပြုချက်အား ဦးစားပေးသော့ချက်စာလုံးများကို စစ်ထုတ်ခြင်းဖြင့် မှန်ကန်သောဌာနသို့ လမ်းကြောင်းပြောင်းသွားပါသည်။

  • ထိရောက်သော လူ့စွမ်းအားအရင်းအမြစ်များ

    NER သည် လူ့စွမ်းအားအရင်းအမြစ်အဖွဲ့များအား ၎င်းတို့၏ အလုပ်ခန့်ထားမှုလုပ်ငန်းစဉ်ကို တိုးတက်ကောင်းမွန်စေပြီး လျှောက်ထားသူများ၏ ကိုယ်ရေးအကျဉ်းကို အမြန်အကျဉ်းချခြင်းဖြင့် အချိန်ဇယားများကို လျှော့ချပေးသည်။ NER ကိရိယာများသည် ကိုယ်ရေးရာဇဝင်ကို စကန်ဖတ်ပြီး သက်ဆိုင်ရာ အချက်အလက်များ – အမည်၊ အသက်၊ လိပ်စာ၊ အရည်အချင်း၊ ကောလိပ်စသည်ဖြင့် ထုတ်ယူနိုင်သည်။

    ထို့အပြင် HR ဌာနသည် ဝန်ထမ်းများ၏ တိုင်ကြားချက်များကို စစ်ထုတ်ပြီး သက်ဆိုင်ရာ ဌာနဆိုင်ရာ အကြီးအကဲများထံ ထပ်ဆင့်ပေးပို့ခြင်းဖြင့် ဌာနတွင်း အလုပ်အသွားအလာများကို ချောမွေ့စေရန် NER ကိရိယာများကို အသုံးပြုနိုင်သည်။

  • ရိုးရှင်းသော အကြောင်းအရာ အမျိုးအစားခွဲခြားခြင်း။

    အကြောင်းအရာ အမျိုးအစားခွဲခြားခြင်းသည် သတင်းပေးသူများအတွက် ရယ်စရာအလုပ်တစ်ခုဖြစ်သည်။ အကြောင်းအရာကို မတူညီသောအမျိုးအစားများအဖြစ် ခွဲခြားသတ်မှတ်ခြင်းက ရှာဖွေတွေ့ရှိရန်၊ ထိုးထွင်းသိမြင်မှုရရှိရန်၊ လမ်းကြောင်းများကို ခွဲခြားသတ်မှတ်ရန်နှင့် ဘာသာရပ်များကို နားလည်ရန် ပိုမိုလွယ်ကူစေသည်။ နာမည်တစ်ခု Entity အသိအမှတ်ပြုမှု သတင်းပေးသူများအတွက် ကိရိယာသည် အသုံးဝင်သည်။ ၎င်းသည် ဆောင်းပါးများစွာကို စကင်န်ဖတ်ကာ၊ ဦးစားပေးသော့ချက်စာလုံးများကို ရှာဖွေဖော်ထုတ်နိုင်ပြီး လူပုဂ္ဂိုလ်၊ အဖွဲ့အစည်း၊ တည်နေရာနှင့် အခြားအရာများအပေါ် အခြေခံ၍ အချက်အလက်များကို ထုတ်ယူနိုင်သည်။

  • ရှာဖွေရေးအင်ဂျင်များကို အကောင်းဆုံးလုပ်ဆောင်ခြင်း။

    search engine optimization င်း၏ NNER ရှာဖွေမှုရလဒ်များ၏ အမြန်နှုန်းနှင့် ဆီလျော်မှုတို့ကို ရိုးရှင်းစေပြီး ပိုမိုကောင်းမွန်စေရာတွင် ကူညီပေးသည်။ ဆောင်းပါးထောင်ပေါင်းများစွာအတွက် ရှာဖွေမှုမေးခွန်းကို လုပ်ဆောင်မည့်အစား NER မော်ဒယ်သည် မေးခွန်းကို တစ်ကြိမ်လုပ်ဆောင်ပြီး ရလဒ်များကို သိမ်းဆည်းနိုင်သည်။ ထို့ကြောင့်၊ ရှာဖွေမှုမေးမြန်းချက်ရှိ တဂ်များကို အခြေခံ၍ မေးမြန်းချက်နှင့်ဆက်စပ်သော ဆောင်းပါးများကို အမြန်ကောက်ယူနိုင်သည်။

     

  • တိကျသော အကြောင်းအရာ အကြံပြုချက်

    ခေတ်မီသော အပလီကေးရှင်းများစွာသည် ပိုမိုကောင်းမွန်အောင်ပြုလုပ်ပြီး စိတ်ကြိုက်ဖောက်သည်အတွေ့အကြုံကို ပေးအပ်ရန် NER ကိရိယာများပေါ်တွင် မူတည်သည်။ ဥပမာအားဖြင့်၊ Netflix သည် သုံးစွဲသူ၏ ရှာဖွေမှုနှင့် ကြည့်ရှုမှုမှတ်တမ်းအပေါ် အခြေခံ၍ ပုဂ္ဂိုလ်ရေးသီးသန့် အကြံပြုချက်များကို ပေးဆောင်သည်။

Entity Recognition လို့ အမည်ပေးထားတာက သင့်ကို စေတယ်။ စက်သင်ယူမှု မော်ဒယ်များသည် ပိုမိုထိရောက်ပြီး ယုံကြည်စိတ်ချရသည်။ သို့သော်၊ သင်၏မော်ဒယ်များသည် ၎င်းတို့၏ အကောင်းဆုံးအဆင့်တွင် လုပ်ဆောင်ရန်နှင့် ရည်ရွယ်ထားသည့် ပန်းတိုင်များအောင်မြင်ရန် အရည်အသွေးပြည့်မီသော လေ့ကျင့်ရေးဒေတာအတွဲများ လိုအပ်ပါသည်။ သင်လိုအပ်သမျှမှာ သင့်အား အသုံးပြုရန်အသင့်ဖြစ်နိုင်သော အရည်အသွေးဒေတာအစုံများကို ပေးဆောင်နိုင်သည့် အတွေ့အကြုံရှိ ဝန်ဆောင်မှုပါတနာဖြစ်သည်။ ဒီလိုဆိုရင် Shaip က မင်းရဲ့အကောင်းဆုံးလောင်းကြေးပါပဲ။ သင့် AI မော်ဒယ်များအတွက် ထိရောက်ပြီး အဆင့်မြင့် ML ဖြေရှင်းချက်များအား ဖွံ့ဖြိုးတိုးတက်အောင် ကူညီပေးရန်အတွက် ပြည့်စုံသော NER ဒေတာအတွဲများအတွက် ကျွန်ုပ်တို့ထံ ဆက်သွယ်လိုက်ပါ။

[ဖတ်ရန်- Case Study- Clinical NLP အတွက် Entity Recognition (NER) ဟု အမည်ပေးထားသည်။]

Name-entity Recognition ဘယ်လိုအလုပ်လုပ်သလဲ။

Named Entity Recognition (NER) ၏ နယ်ပယ်သို့ ဝင်ရောက်ခြင်းသည် အဆင့်များစွာ ပါဝင်သော စနစ်ကျသော ခရီးကို ထုတ်ဖော်ပြသသည်-

  • တိုကင်ယူခြင်း

    အစပိုင်းတွင်၊ စာသားဆိုင်ရာအချက်အလက်များကို စကားလုံးများမှ စာကြောင်းများအထိ ကွဲပြားနိုင်သည့် တိုကင်များဟု ခေါ်ဝေါ်သော တိုကင်ငယ်များအဖြစ် ခွဲခြမ်းစိပ်ဖြာထားသည်။ ဥပမာအားဖြင့်၊ “Barack Obama was the US of the president” ဟူသော ကြေငြာချက်ကို “Barack”, “Obama”, “ was”, “the”, “president”, “of”, “the”, နှင့် “ ယူအက်စ်အေ"။

  • Entity Detection

    ဘာသာစကားဆိုင်ရာ လမ်းညွှန်ချက်များနှင့် ကိန်းဂဏန်းဆိုင်ရာ နည်းစနစ်များကို ပေါင်းစပ်အသုံးပြုခြင်းဖြင့်၊ ဖြစ်နိုင်ချေရှိသော အမည်ပေးထားသည့် အဖွဲ့အစည်းများကို မီးမောင်းထိုးပြထားသည်။ (“Barack Obama”) သို့မဟုတ် ကွဲပြားသောပုံစံများ (ရက်စွဲများကဲ့သို့) အမည်များတွင် စာလုံးကြီးခြင်းကဲ့သို့သော ပုံစံများကို အသိအမှတ်ပြုခြင်းသည် ဤအဆင့်တွင် အရေးကြီးပါသည်။

  • Entity အမျိုးအစားခွဲခြားခြင်း။

    ပို့စ်ရှာဖွေတွေ့ရှိမှု၊ အကြောင်းအရာများကို "ပုဂ္ဂိုလ်"၊ "အဖွဲ့အစည်း" သို့မဟုတ် "တည်နေရာ" ကဲ့သို့သော ကြိုတင်သတ်မှတ်ထားသော အမျိုးအစားများအဖြစ် စီထားသည်။ အညွှန်းတပ်ထားသော ဒေတာအတွဲများတွင် ပြုစုပျိုးထောင်ထားသည့် စက်သင်ယူမှုပုံစံများသည် ဤအမျိုးအစားခွဲခြားမှုကို မကြာခဏ တွန်းအားပေးသည်။ ဤတွင်၊ "Barack Obama" ကို "လူ" အဖြစ် "တည်နေရာ" အဖြစ် "USA" ဟုခေါ်သည်။

  • ဆက်စပ်အကဲဖြတ်ခြင်း။

    NER စနစ်များ၏ စွမ်းပကားကို အနီးနားရှိ အကြောင်းအရာများကို အကဲဖြတ်ခြင်းဖြင့် မကြာခဏ ချဲ့ထွင်ပါသည်။ ဥပမာအားဖြင့်၊ “ဝါရှင်တန်သည် သမိုင်းဝင်ဖြစ်ရပ်တစ်ခုကို သက်သေခံခဲ့သည်” ဟူသော စကားစုတွင် လူတစ်ဦး၏အမည်ထက် “ဝါရှင်တန်” ကို တည်နေရာတစ်ခုအဖြစ် ပိုင်းခြားသိရှိရန် ကူညီပေးသည်။

  • အကဲဖြတ်ပြီးနောက် သန့်စင်မှု

    ကနဦးခွဲခြားသတ်မှတ်ခြင်းနှင့် အမျိုးအစားခွဲခြင်းပြီးနောက်၊ အကဲဖြတ်ပြီးနောက် ဆန်းစစ်ချက်သည် ရလဒ်များကို ဟန်ချက်ညီစေနိုင်သည်။ ဤအဆင့်သည် မသေချာမရေရာမှုများကို ကိုင်တွယ်ဖြေရှင်းနိုင်ခြင်း၊ တိုကင်များစွာပါဝင်သည့်အရာများကို ပေါင်းစည်းခြင်း သို့မဟုတ် entity ဒေတာကို မြှင့်တင်ရန်အတွက် အသိပညာအခြေခံများကို အသုံးပြုနိုင်သည်။

ဤအသေးစိတ်ဖော်ပြသောချဉ်းကပ်မှုသည် NER ၏အဓိကအချက်ကို ရှင်းရှင်းလင်းလင်းပြသရုံသာမက ရှာဖွေရေးအင်ဂျင်များအတွက်ပါ အကြောင်းအရာများကို ပိုမိုကောင်းမွန်အောင်ပြုလုပ်ပေးကာ NER ပါ၀င်သည့် ရှုပ်ထွေးသောလုပ်ငန်းစဉ်၏မြင်နိုင်စွမ်းကို မြှင့်တင်ပေးပါသည်။

NER အကျိုးကျေးဇူးများနှင့် စိန်ခေါ်မှုများ။

အကျိုးကျေးဇူးများ:

  1. သတင်းအချက်အလက် ထုတ်ယူခြင်း။: NER သည် သော့ဒေတာကို ဖော်ထုတ်ပေးကာ အချက်အလက်များ ထုတ်ယူရာတွင် ကူညီပေးသည်။
  2. အကြောင်းအရာအဖွဲ့အစည်း: ၎င်းသည် ဒေတာဘေ့စ်များနှင့် ရှာဖွေရေးအင်ဂျင်များအတွက် အသုံးဝင်သော အကြောင်းအရာများကို အမျိုးအစားခွဲရန် ကူညီပေးသည်။
  3. အသုံးပြုသူအတွေ့အကြုံပိုမိုကောင်းမွန်စေမည်: NER သည် ရှာဖွေမှုရလဒ်များကို သန့်စင်စေပြီး အကြံပြုချက်များကို ပုဂ္ဂိုလ်ရေးသီးသန့်ပြုလုပ်သည်။
  4. ထိုးထွင်းသိမြင်သော သုံးသပ်ချက်: ၎င်းသည် စိတ်ခံစားမှုဆိုင်ရာ ခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် လမ်းကြောင်းရှာဖွေခြင်းတို့ကို လွယ်ကူချောမွေ့စေသည်။
  5. အလိုအလျောက်လုပ်ငန်းအသွားအလာNER သည် အလိုအလျောက်စနစ်အား မြှင့်တင်ပေးသည်၊ အချိန်နှင့် အရင်းအမြစ်များကို ချွေတာသည်။

ကန့်သတ်ချက်များ/စိန်ခေါ်မှုများ-

  1. မရေရာသော ဆုံးဖြတ်ချက်: အလားတူအရာများကို ခွဲခြားရန် ရုန်းကန်နေရသည်။
  2. Domain-Specific Adaptation: မတူကွဲပြားသော ဒိုမိန်းများတစ်လျှောက် အရင်းအမြစ်-အများ
  3. ဘာသာစကား မှီခိုမှု: ထိရောက်မှုမှာ ဘာသာစကားများဖြင့် ကွဲပြားသည်။
  4. တံဆိပ်တပ်ထားသောဒေတာ ရှားပါးခြင်း။: သင်တန်းအတွက် တံဆိပ်တပ်ထားသော ဒေတာအစုံများစွာ လိုအပ်ပါသည်။
  5. Unstructured Data ကို ကိုင်တွယ်ခြင်း။: အဆင့်မြင့်နည်းပညာများ လိုအပ်ပါသည်။
  6. စွမ်းဆောင်ရည် တိုင်းတာခြင်း။: တိကျသော အကဲဖြတ်မှုသည် ရှုပ်ထွေးသည်။
  7. အချိန်မှန်ထုတ်ယူခြင်း: တိကျမှုနှင့် အရှိန်ထိန်းညှိမှုသည် စိန်ခေါ်မှုဖြစ်သည်။

လူမှုဝေမျှမယ်

သငျသညျဒါ့အပြင်လိုနိုင်ပါစေ