ML အတွက် NLP ဒေတာအတွဲ

15 အကောင်းဆုံး NLP Datasets များကို သင့်အား သဘာဝဘာသာစကား စီမံဆောင်ရွက်ပေးခြင်းပုံစံများကို လေ့ကျင့်ပေးသည်။

သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်းသည် machine learning armour တွင် အရေးကြီးသောအပိုင်းတစ်ခုဖြစ်သည်။ သို့သော်၊ မော်ဒယ်ကို ကောင်းမွန်စွာလုပ်ဆောင်နိုင်စေရန်အတွက် ၎င်းသည် များပြားလှသော အချက်အလက်နှင့် လေ့ကျင့်မှုများ လိုအပ်ပါသည်။ NLP ၏ အရေးပါသော ပြဿနာများထဲမှတစ်ခုမှာ domain အတွင်းရှိ စိတ်ဝင်စားဖွယ်ရာ နယ်ပယ်များစွာကို လွှမ်းခြုံနိုင်သော လေ့ကျင့်ရေးဒေတာအတွဲများ မရှိခြင်းပင်ဖြစ်သည်။

သင်သည် ဤကျယ်ပြန့်သောနယ်ပယ်တွင် စတင်လုပ်ကိုင်နေပါက၊ သင်၏ဒေတာအတွဲများကို ဖန်တီးရန် ၎င်းသည် စိန်ခေါ်မှုရှိပြီး လက်တွေ့တွင် မလိုအပ်တော့သည်ကို သင်တွေ့ရှိနိုင်သည်။ အထူးသဖြင့် အရည်အသွေးတွေ ရှိလာတဲ့အခါ NLP ၎င်းတို့၏ ရည်ရွယ်ချက်အပေါ် အခြေခံ၍ သင်၏ စက်သင်ယူမှု မော်ဒယ်များကို လေ့ကျင့်ရန် ရရှိနိုင်သော ဒေတာအတွဲများ။

NLP စျေးကွက်သည် 11.7 နှင့် 2018 အတွင်း CAGR 2026% တွင်ကြီးထွားရန်စီစဉ်ထားသည်။ 28.6 နေဖြင့် $ 2026 ဘီလီယံ. NLP နှင့် machine learning အတွက် တိုးပွားလာသော ၀ယ်လိုအားကြောင့် ယခုအခါတွင်၊ စိတ်ခံစားမှုဆိုင်ရာ ခွဲခြမ်းစိတ်ဖြာမှု၊ သုံးသပ်ချက်များ၊ အမေးအဖြေများ ခွဲခြမ်းစိတ်ဖြာမှုနှင့် စကားသံ ခွဲခြမ်းစိတ်ဖြာမှု ဒေတာအတွဲများကို ပံ့ပိုးပေးသည့် အရည်အသွေးရှိသော ဒေတာအတွဲများကို သင့်လက်ထဲတွင် ရရှိနိုင်ပါပြီ။

စက်သင်ယူခြင်းအတွက် NLP ဒေတာအတွဲများကို သင်ယုံကြည်နိုင်ပါသည်။

မရေမတွက်နိုင်သောဒေတာအစုံများ - အမျိုးမျိုးသောလိုအပ်ချက်များကိုအာရုံစိုက်နေသည် - နေ့တိုင်းနီးပါးထုတ်လွှတ်နေသောကြောင့်၎င်းသည်အရည်အသွေး၊ ယုံကြည်စိတ်ချရသောနှင့်အကောင်းဆုံးဒေတာအတွဲများကိုရယူရန်စိန်ခေါ်မှုဖြစ်နိုင်သည်။ ဤတွင်၊ ကျွန်ုပ်တို့သည် ၎င်းတို့ဝန်ဆောင်မှုပေးသည့် အမျိုးအစားများအလိုက် ခွဲခြားထားသော ဒေတာအတွဲများကို သင့်အား တင်ပြထားသောကြောင့် ကျွန်ုပ်တို့သည် သင့်အတွက် ပိုမိုလွယ်ကူစေပါသည်။

ယေဘုယျ

Hewlett-Packard Labs တွင် ဖန်တီးထားသော Spambase သည် သုံးစွဲသူများထံမှ စပမ်းအီးမေးလ်များ အစုအဝေးပါရှိပြီး စိတ်ကြိုက်ပြုလုပ်ထားသော spam စစ်ထုတ်မှုကို ဖန်တီးရန် ရည်ရွယ်သည်။ ၎င်းတွင် အီးမေးလ်မက်ဆေ့ချ်များမှ လေ့လာတွေ့ရှိချက်ပေါင်း 4600 ကျော်ရှိပြီး 1820 နီးပါးသည် spam များဖြစ်သည်။

Enron ဒေတာအတွဲတွင် ၎င်းတို့၏ စက်သင်ယူမှုပုံစံများကို လေ့ကျင့်ရန် အများသူငှာရရှိနိုင်သည့် အမည်ဝှက် 'အစစ်' အီးမေးလ်များ စုစည်းမှု အများအပြားရှိသည်။ ၎င်းတွင် အသုံးပြုသူ 150 ကျော်ထံမှ အီးမေးလ် သန်းတစ်ဝက်ကျော်ရှိပြီး Enron ၏ အကြီးတန်း စီမံခန့်ခွဲမှု အများစုဖြစ်သည်။ ဤဒေတာအတွဲကို ဖွဲ့စည်းတည်ဆောက်ပုံနှင့် ဖွဲ့စည်းတည်ဆောက်ပုံမထားသော ဖော်မတ်နှစ်မျိုးလုံးအတွက် အသုံးပြုနိုင်ပါသည်။ ဖွဲ့စည်းတည်ဆောက်ပုံမရှိသောဒေတာကို မြှင့်တင်ရန်၊ သင်သည် ဒေတာလုပ်ဆောင်ခြင်းနည်းပညာများကို အသုံးပြုရန် လိုအပ်သည်။

Recommender System dataset သည် မတူညီသော အင်္ဂါရပ်များ ပါဝင်သော အချက်အလက်အစုံအလင်၏ ကြီးမားသော အစုအဝေးတစ်ခုဖြစ်ပြီး၊

  • ကုန်ပစ္စည်းပြန်လည်သုံးသပ်ခြင်း
  • ကြယ်ပွင့်အဆင့်သတ်မှတ်ချက်များ
  • ကြံ့ခိုင်ရေးခြေရာခံခြင်း
  • သီချင်းအချက်အလက်
  • လူမှုကွန်ယက်
  • အချိန်ပြကွက်များ
  • အသုံးပြုသူ/ပစ္စည်း အပြန်အလှန်ဆက်သွယ်မှုများ
  • GPS အချက်အလက်

စိတ်ဓါတ်ခွဲခြမ်းစိတ်ဖြာ

  • ရုပ်ရှင်နှင့်ဘဏ္ဍာရေးဆိုင်ရာအဘိဓာန်များ (လင့်ခ်)

စိတ်ဓါတ်ခွဲခြမ်းစိတ်ဖြာ
ရုပ်ရှင်နှင့်ဘဏ္ဍာရေးဆိုင်ရာ ဒေတာအတွဲအတွက် အဘိဓာန်များသည် ဘဏ္ဍာရေးဖြည့်စွက်မှုများနှင့် ရုပ်ရှင်ပြန်လည်သုံးသပ်ခြင်းများတွင် အပြုသဘော သို့မဟုတ် အနုတ်လက္ခဏာဆောင်သော ကွဲပြားမှုအတွက် ဒိုမိန်းသီးသန့်အဘိဓာန်များကို ပံ့ပိုးပေးပါသည်။ ဤအဘိဓာန်များကို IMDb နှင့် US Form-8 ဖြည့်စွက်ချက်များမှ ထုတ်ယူပါသည်။

Sentiment 140 တွင် မတူညီသော နယ်ပယ် 160,000 ခုတွင် အမျိုးအစားခွဲထားသော အမျိုးမျိုးသော အီမိုတီကွန်များပါသည့် tweet ပေါင်း 6 ကျော်ပါရှိသည်- tweet date၊ polarity၊ text၊ user name၊ ID နှင့် query။ ဤဒေတာအတွဲသည် သင့်အား အမှတ်တံဆိပ်တစ်ခု၊ ထုတ်ကုန်တစ်ခု သို့မဟုတ် Twitter လုပ်ဆောင်ချက်အပေါ်အခြေခံသည့် အကြောင်းအရာတစ်ခု၏ ခံစားချက်ကို ရှာဖွေတွေ့ရှိနိုင်စေသည်။ ဤဒေတာအတွဲကို အခြားလူမှမှတ်သားထားသော တွစ်တာများနှင့်မတူဘဲ အလိုအလျောက်ဖန်တီးထားသောကြောင့် တွစ်တာများကို အပြုသဘောဆောင်သော စိတ်ခံစားမှုများနှင့် အနုတ်လက္ခဏာခံစားချက်များကို နှစ်သက်ဖွယ်မရှိဟု အမျိုးအစားခွဲခြားထားသည်။

ဤ Multi-domain ခံစားချက်ဒေတာအတွဲသည် ထုတ်ကုန်အမျိုးမျိုးအတွက် Amazon သုံးသပ်ချက်များ၏ သိုလှောင်မှုတစ်ခုဖြစ်သည်။ စာအုပ်များကဲ့သို့သော ကုန်ပစ္စည်းအမျိုးအစားအချို့တွင် သုံးသပ်ချက်ပေါင်း ရာဂဏန်းမျှသာရှိသော်လည်း အချို့မှာ သုံးသပ်ချက်ပေါင်း ရာဂဏန်းမျှသာရှိသည်။ ထို့အပြင်၊ ကြယ်ပွင့်အဆင့်သတ်မှတ်ချက်ပါရှိသော သုံးသပ်ချက်များကို ဒွိအညွှန်းများအဖြစ်သို့ ပြောင်းလဲနိုင်သည်။

ယနေ့သင်၏ AI သင်တန်းအချက်အလက်လိုအပ်ချက်ကိုဆွေးနွေးကြပါစို့။

စာသားမ

အဖွင့်ဒိုမိန်းမေးခွန်းနှင့်အဖြေသုတေသနကိုကူညီရန် ဖန်တီးထားသည့် WiKi QA Corpus သည် အများသူငှာရရှိနိုင်သည့် အကျယ်ပြန့်ဆုံးသောဒေတာအတွဲများထဲမှတစ်ခုဖြစ်သည်။ Bing ရှာဖွေရေးအင်ဂျင်မေးမြန်းချက်မှတ်တမ်းများမှ ပြုစုထားသော အမေးအဖြေအတွဲများပါရှိသည်။ ၎င်းတွင်မေးခွန်းပေါင်း 3000 ကျော်နှင့် တံဆိပ်တပ်ထားသော အဖြေစာကြောင်း 1500 ကျော်ရှိသည်။

  • ဥပဒေရေးရာကိစ္စအစီရင်ခံချက်ဒေတာအတွဲ (လင့်ခ်)

Legal Case Reports ဒေတာအတွဲတွင် တရားဥပဒေဆိုင်ရာ အမှုပေါင်း 4000 ကို စုစည်းထားပြီး အလိုအလျောက် စာသားအကျဉ်းချုပ်နှင့် ကိုးကားချက်ခွဲခြမ်းစိတ်ဖြာခြင်းအတွက် လေ့ကျင့်ရန် အသုံးပြုနိုင်သည်။ စာရွက်စာတမ်းတစ်ခုစီတိုင်း၊ မှတ်သားဖွယ်စကားများ၊ ကိုးကားမှုအတန်းများ၊ ကိုးကားမှတ်စုစကားများနှင့် အခြားအရာများကို အသုံးပြုပါသည်။

Jeopardy dataset သည် Reddit အသုံးပြုသူ ပေါင်းစည်းထားသော နာမည်ကြီး ပဟေဠိ TV ရှိုးတွင် ဖော်ပြထားသော မေးခွန်းပေါင်း 200,000 ကျော် စုစည်းမှုတစ်ခု ဖြစ်သည်။ ဒေတာအချက်တစ်ခုစီကို ၎င်း၏ထုတ်လွှင့်သည့်ရက်စွဲ၊ အပိုင်းနံပါတ်၊ တန်ဖိုး၊ အဝိုင်းနှင့် အမေး/အဖြေတို့ဖြင့် ခွဲခြားထားသည်။

အသံမိန့်ခွန်း

အော်ဒီယိုမိန့်ခွန်း ဤဒေတာအတွဲသည် အင်္ဂလိပ်ဘာသာစကားကို ကျော်လွန်လိုသူတိုင်းအတွက် ပြီးပြည့်စုံပါသည်။ ဤဒေတာအတွဲတွင် ဒတ်ခ်ျ၊ ဂျာမန်နှင့် အင်္ဂလိပ်လို ပြောဆိုထားသော ဆောင်းပါးများ စုစည်းမှု ရှိသည်။ ၎င်းတွင် အမျိုးမျိုးသောအကြောင်းအရာများနှင့် စပီကာအစုံပါရှိပြီး နာရီရာနှင့်ချီကြာအောင် လုပ်ဆောင်သည်။

2000 HUB5 အင်္ဂလိပ်ဒေတာအတွဲတွင် အင်္ဂလိပ်ဘာသာစကားဖြင့် တယ်လီဖုန်းပြောဆိုမှုမှတ်တမ်း 40 ပါရှိသည်။ ဒေတာကို National Institute of Standards and Technology မှ ပံ့ပိုးပေးထားပြီး ၎င်း၏ အဓိက အာရုံစိုက်မှုမှာ စကားပြောဆိုမှုအား အသိအမှတ်ပြုရန်နှင့် မိန့်ခွန်းကို စာသားအဖြစ်သို့ ပြောင်းလဲခြင်းအပေါ် ဖြစ်သည်။

LibriSpeech ဒေတာအတွဲသည် နာရီပေါင်း 1000 နီးပါးကြာ အင်္ဂလိပ်စကားပြော စုစည်းမှုဖြစ်ပြီး အသံစာအုပ်များမှ အခန်းများအဖြစ် ခေါင်းစဉ်များအလိုက် စနစ်တကျ ပိုင်းဖြတ်ထားသောကြောင့် ၎င်းသည် သဘာဝဘာသာစကား လုပ်ဆောင်ခြင်းအတွက် ပြီးပြည့်စုံသော ကိရိယာတစ်ခုဖြစ်လာသည်။

reviews

Yelp ဒေတာအတွဲတွင် စီးပွားရေးလုပ်ငန်းပေါင်း 8.5၊ ၎င်းတို့၏ သုံးသပ်ချက်များနှင့် အသုံးပြုသူဒေတာများ၏ သုံးသပ်ချက်ပေါင်း 160,000 သန်းခန့် စုစည်းမှုရှိသည်။ သုံးသပ်ချက်များကို သင်၏ မော်ဒယ်များအား စိတ်ခံစားမှုဆိုင်ရာ ခွဲခြမ်းစိတ်ဖြာမှုတွင် လေ့ကျင့်ရန် အသုံးပြုနိုင်သည်။ ထို့အပြင်၊ ဤဒေတာအတွဲတွင် မြို့တော်နေရာရှစ်ခုကို လွှမ်းခြုံထားသည့် ဓာတ်ပုံပေါင်း 200,000 ကျော်လည်း ပါရှိသည်။

IMDB သုံးသပ်ချက်များသည် ရုပ်ရှင် 50 ကျော်အတွက် ကာစ်အချက်အလက်၊ အဆင့်သတ်မှတ်ချက်၊ ဖော်ပြချက်နှင့် အမျိုးအစားများပါရှိသော ရေပန်းအစားဆုံး ဒေတာအတွဲများထဲမှ တစ်ခုဖြစ်သည်။ သင့်စက်သင်ယူမှုမော်ဒယ်များကို စမ်းသပ်ရန်နှင့် လေ့ကျင့်ရန် ဤဒေတာအတွဲကို အသုံးပြုနိုင်သည်။

  • Amazon သုံးသပ်ချက်များနှင့် အဆင့်သတ်မှတ်ခြင်းဒေတာအတွဲ (လင့်ခ်)

Amazon ပြန်လည်သုံးသပ်ခြင်းနှင့် အဆင့်သတ်မှတ်ခြင်းဒေတာအတွဲတွင် တန်ဖိုးရှိသော မက်တာဒေတာစုဆောင်းမှုနှင့် 1996 မှ 2014 ခုနှစ်အထိ စုဆောင်းထားသော Amazon မှ မတူညီသောထုတ်ကုန်များ၏ ပြန်လည်သုံးသပ်ချက်များပါရှိသည် – မှတ်တမ်းပေါင်း 142.8 သန်းခန့်ပါဝင်သည်။ မက်တာဒေတာတွင် စျေးနှုန်း၊ ထုတ်ကုန်ဖော်ပြချက်၊ အမှတ်တံဆိပ်၊ အမျိုးအစားနှင့် အခြားအရာများ ပါဝင်ပြီး သုံးသပ်ချက်များတွင် စာသားအရည်အသွေး၊ စာသား၏အသုံးဝင်မှု၊ အဆင့်သတ်မှတ်ချက်များနှင့် အခြားအရာများပါရှိသည်။

ဒါဆို သင့်စက်သင်ယူမှုပုံစံကို လေ့ကျင့်ဖို့ ဘယ်ဒေတာအတွဲကို သင်ရွေးချယ်ခဲ့လဲ။

ငါတို့သွားတဲ့အခါ မင်းကို ထားခဲ့မယ်။ အကြံပြုချက်လိုလားသည်။ 

သင့်လိုအပ်ချက်အတွက် NLP ဒေတာအတွဲကို မရွေးချယ်မီ README ဖိုင်ကို သေချာစွာကြည့်ရှုပါ။ ဒေတာအတွဲတွင် ဒေတာအတွဲ၏ အကြောင်းအရာ၊ ဒေတာအမျိုးအစားခွဲထားသည့် ဘောင်အမျိုးမျိုးနှင့် ဒေတာအတွဲ၏ ဖြစ်နိုင်ခြေရှိသော အသုံးပြုမှုကိစ္စများကဲ့သို့သော သင်လိုအပ်နိုင်သည့် လိုအပ်သော အချက်အလက်အားလုံး ပါဝင်မည်ဖြစ်သည်။

သင်တည်ဆောက်သည့် မော်ဒယ်များ မည်သို့ပင်ရှိစေကာမူ ကျွန်ုပ်တို့၏ စက်များကို ကျွန်ုပ်တို့၏ဘဝများနှင့် ပိုမိုနီးစပ်ပြီး အတွင်းပိုင်းအရ ပေါင်းစပ်ရန် စိတ်လှုပ်ရှားဖွယ် အလားအလာ ရှိပါသည်။ NLP ဖြင့်၊ စီးပွားရေး၊ ရုပ်ရှင်များ၊ စကားပြောဆိုမှုကို အသိအမှတ်ပြုမှု၊ ငွေကြေးနှင့် အခြားအရာများအတွက် ဖြစ်နိုင်ခြေများ များပြားလာသည်။ အကယ်၍ သင်သည်ထိုကဲ့သို့သောဒေတာအတွဲများကိုပိုမိုရှာဖွေနေပါက ဤနေရာကိုကလစ်နှိပ်ပါ။

လူမှုဝေမျှမယ်

သငျသညျဒါ့အပြင်လိုနိုင်ပါစေ