လက်ရေးဒေတာအစုံများ

သင်၏ ML မော်ဒယ်များကို လေ့ကျင့်ရန် အကောင်းဆုံး Open-source Handwriting Datasets 15 ခု

စီးပွားရေးလောကသည် ထူးထူးခြားခြား အရှိန်အဟုန်ဖြင့် ပြောင်းလဲနေသော်လည်း ဤဒစ်ဂျစ်တယ်အသွင်ပြောင်းမှုသည် ကျွန်ုပ်တို့လိုချင်သလောက် ကျယ်ပြန့်သည်မဟုတ်။ ကြီးမားသောကော်ပိုရေးရှင်းများမှ အသေးစားစီးပွားရေးလုပ်ငန်းများအထိ ၎င်းတို့၏နေ့စဉ်လုပ်ငန်းဆောင်တာများတွင် ရုပ်ပိုင်းဆိုင်ရာစာရွက်စာတမ်းများကို ကိုင်ဆောင်နေကြဆဲဖြစ်သည်။ အသုံးပြုမှု အကြိမ်ရေ သိသိသာသာ လျော့ကျသွားသော်လည်း ၎င်းကို လုံးဝ မပြီးမြောက်သေးပါ။ ဒစ်ဂျစ်တယ်အသုံးပြုမှုအတွက် အချိန်ကုန်သော စာရွက်စာတမ်းများကို စကင်န်ဖတ်ခြင်းလုပ်ငန်းစဉ်အစား၊ နောက်ဆုံးပေါ်ကို အသုံးပြုပါ။ OCR အချိန်ကုန်သက်သာပြီး ထိရောက်မှုရှိပါတယ်။

optical character recognition အသုံးပြုမှု မြင့်တက်လာခြင်းသည် အဓိကအားဖြင့် အလိုအလျောက် မှတ်သားမှုစနစ်များ ထုတ်လုပ်မှု တိုးလာခြင်းကြောင့်ဟု ယူဆနိုင်ပါသည်။ ရလဒ်အနေဖြင့် OCR နည်းပညာ၏ ကမ္ဘာ့စျေးကွက်တန်ဖိုးမှာ ကျဆင်းသွားခဲ့သည်။ $ 8.93 ဘီလီယံအထိ 2021 ခုနှစ်တွင် CAGR သည် 15.4 နှင့် 2022 အကြား 2030% တွင် ကြီးထွားမည်ဟု ခန့်မှန်းထားသည်။

ဒါပေမယ့် OCR နည်းပညာဆိုတာဘာလဲ။ အဘယ်ကြောင့်ဆိုသော် ၎င်းသည် ထိရောက်သော AI မော်ဒယ်များကို တီထွင်နေသော စီးပွားရေးလုပ်ငန်းများအတွက် ဂိမ်းပြောင်းလဲမှုတစ်ခု ဖြစ်ပါသလား။ ရှာကြစို့။

OCR ဆိုတာဘာလဲ။

တနည်းအားဖြင့် text recognition ကိုရည်ညွှန်းသည်၊ OCR သို့မဟုတ် Optical Character အသိအမှတ်ပြုမှု စကင်န်ဖတ်ထားသော စာရွက်စာတမ်းများ၊ ရုပ်ပုံသီးသန့် PDF များနှင့် လက်ရေးမှတ်စုများမှ ပုံနှိပ် သို့မဟုတ် ရေးသားထားသော အချက်အလက်များကို စက်ဖြင့်ဖတ်နိုင်သော ဖော်မတ်သို့ ထုတ်ယူသည့် ပရိုဂရမ်တစ်ခုဖြစ်သည်။ ဆော့ဖ်ဝဲသည် ရုပ်ပုံမှ စာလုံးတစ်လုံးစီကို ထုတ်နှုတ်ပြီး ၎င်းတို့ကို စကားလုံးများနှင့် စာကြောင်းများအဖြစ် ပေါင်းစပ်ထားသောကြောင့် စာရွက်စာတမ်းများကို ဒစ်ဂျစ်တယ်စနစ်ဖြင့် ဝင်ရောက် တည်းဖြတ်ရန် လွယ်ကူစေသည်။

open-source datasets တွေက ဘာတွေလဲ။

OCR နည်းပညာကို အသုံးချရန် အလားအလာကောင်းများရှိသည့် နေရာများစွာရှိသည်။ အချို့နေရာများတွင် လေဆိပ်၊ eBook ထုတ်ဝေခြင်း၊ ကြော်ငြာများ၊ ဘဏ်များနှင့် ထောက်ပံ့ရေးကွင်းဆက်စနစ်များ ပါဝင်သည်။ သို့သော် လျှောက်လွှာများသည် ၎င်းတို့၏ရည်ရွယ်ချက်ကို အကောင်အထည်ဖော်ရန်အတွက် ပရောဂျက်အလိုက် လေ့ကျင့်သင်ကြားရန် လိုအပ်သည်။ Optical Character Recognition ဒေတာအတွဲများ.

အပလီကေးရှင်း၏ ထိရောက်မှုသည် ဒေတာအတွဲ၏ အရည်အသွေးနှင့် ပါဝင်သော လေ့ကျင့်ရေးနည်းစနစ်ပေါ်တွင် အဓိကမူတည်ပါသည်။ သို့သော် အရည်အသွေးမီ ဒစ်ဂျစ်တယ်နှင့် ရှာဖွေခြင်း ဖြစ်သည်။ လက်ရေးဒေတာအတွဲများ လျှောက်လွှာအတွက်ခက်ခဲသည်။ ထို့ကြောင့်၊ ကုမ္ပဏီများစွာသည် တစ်ဦးတည်းပိုင်များအစား open-source သို့မဟုတ် အခမဲ့သုံးစွဲနိုင်သော datasets များကို အသုံးပြုကြသည်။

Open-Source ဒေတာအတွဲများ၏ အကျိုးကျေးဇူးများနှင့် စိန်ခေါ်မှုများ

စီးပွားရေးလုပ်ငန်းများသည် ၎င်းတို့၏ ML အပလီကေးရှင်းများအတွက် အခမဲ့သုံးစွဲနိုင်သောဒေတာကို ရွေးချယ်ရမည်ဆိုသည်ကို နားလည်ရန် အကျိုးကျေးဇူးများနှင့် စိန်ခေါ်မှုများကို အချင်းချင်းကြားတွင် စိန်ခေါ်ရန် လိုအပ်ပါသည်။

အက်ိဳးေက်းဇူးမ်ား

  • ဒေတာများကို အလွယ်တကူ ရယူသုံးစွဲနိုင်မည်ဖြစ်သည်။ ဒေတာရရှိနိုင်မှုကြောင့်၊ အပလီကေးရှင်းကို တီထွင်ထုတ်လုပ်ရာတွင် ကုန်ကျစရိတ် သိသိသာသာ လျော့ကျသွားသည်။
  • ဒေတာအစုံကို အလွယ်တကူရနိုင်သောကြောင့် အပလီကေးရှင်းအတွက် ဒေတာစုဆောင်းရန် အချိန်နှင့် ကြိုးစားအားထုတ်မှုမှာ သိသိသာသာ လျော့ကျသွားပါသည်။
  • ဒေတာအတွဲကို လေ့လာရန်၊ လိုက်လျောညီထွေဖြစ်အောင်နှင့် အကောင်းဆုံးဖြစ်အောင် ကူညီပေးသည့် ရပ်ရွာဖိုရမ်များ သို့မဟုတ် အကူအညီပေးသည့်အဖွဲ့များ အများအပြားရှိပါသည်။
  • open-source dataset ၏ အဓိကအားသာချက်များထဲမှတစ်ခုမှာ စိတ်ကြိုက်ပြင်ဆင်ခြင်းတွင် ကန့်သတ်ချက်များမထားရှိပါ။
  •   Open-Source ဒေတာသည် လူဦးရေ၏ ကြီးမားသော ကဏ္ဍတစ်ခုသို့ ဝင်ရောက်နိုင်ပြီး ငွေကြေးအတားအဆီးများမရှိဘဲ ခွဲခြမ်းစိတ်ဖြာမှုနှင့် ဆန်းသစ်တီထွင်မှုတို့ကို ပြုလုပ်နိုင်မည်ဖြစ်သည်။

စိန်ခေါ်မှုများ

  • ပရောဂျက်အတွက် တိကျသော အချက်အလက်ကို ရယူရန် ခက်ခဲသည်။ ထို့အပြင်၊ အချက်အလက်ပျောက်ဆုံးခြင်းနှင့် ရရှိနိုင်သောဒေတာကို မှားယွင်းစွာအသုံးပြုခြင်း ဖြစ်နိုင်ခြေရှိသည်။
  • တစ်ဦးတည်းပိုင်ဒေတာရယူရန် အချိန်နှင့် ကြိုးစားအားထုတ်မှု ကြာမြင့်ပြီး ငွေကုန်ကြေးကျများသည်။
  • ဒေတာရယူရန် ပိုမိုလွယ်ကူနိုင်သော်လည်း အသိပညာနှင့် ခွဲခြမ်းစိတ်ဖြာမှုကုန်ကျစရိတ်သည် ကနဦးအားသာချက်ထက် သာလွန်ပေမည်။
  • အပလီကေးရှင်းများ ဖွံ့ဖြိုးတိုးတက်ရန်အတွက် အခြားသော developer များသည် တူညီသောဒေတာကို အသုံးပြုကြသည်။
  • ဤဒေတာအတွဲများသည် လုံခြုံရေးချိုးဖောက်မှုများ၊ ကိုယ်ရေးကိုယ်တာနှင့် ခွင့်ပြုချက်တို့ကို လွန်စွာထိခိုက်လွယ်သည်။

Machine Learning အတွက် အကောင်းဆုံး လက်ရေးနှင့် OCR ဒေတာအတွဲ 15

Open-source ocr ဒေတာအတွဲများ

များပြားလှသော open-source datasets များသည် text recognition application development အတွက် ရနိုင်ပါသည်။ အကောင်းဆုံး 15 ပုဒ်

  1. ICDAR ဒေတာအတွဲ

    စာရွက်စာတမ်းခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် အသိအမှတ်ပြုခြင်းဆိုင်ရာ နိုင်ငံတကာညီလာခံတွင် မှတ်ချက်များနှင့်အတူ လေ့ကျင့်ရေး ၂၂၉ ခုနှင့် စမ်းသပ်မှုပုံ ၂၃၃ ခုပါရှိသည်။ ၎င်းသည် စာသားထောက်လှမ်းမှု အကဲဖြတ်မှုအတွက် စံအမှတ်တစ်ခုအဖြစ် လုပ်ဆောင်သည်။

  2. IIIT 5K-စကားလုံးဒေတာအတွဲ

    Google ရုပ်ပုံရှာဖွေမှုမှ ရယူထားသော IIIT 5K-word သည် ဆိုင်းဘုတ်များ၊ ကြော်ငြာဘုတ်များ၊ နံပါတ်ပြားများနှင့် ပိုစတာများမှ စကားလုံးများစုစည်းမှုဖြစ်သည်။ ၎င်းတွင် 5K ဖြတ်တောက်ထားသော စကားလုံးပုံများပါ၀င်သောကြောင့် ၎င်းကိုရရှိနိုင်သည့် စာသားမှတ်သားမှုဒေတာအတွဲများအနက် အကျယ်ပြန့်ဆုံးစုစည်းမှုတစ်ခုဖြစ်သည်။

  3. NIST ဒေတာဘေ့စ်

    NIST သို့မဟုတ် National Institute of Science သည် စာလုံးပုံပေါင်း 3600 ကျော်ဖြင့် လက်ရေးနမူနာ 810,000 ကျော်ကို အခမဲ့အသုံးပြုရန် စုစည်းပေးထားပါသည်။

  4. MNIST ဒေတာဘေ့စ်

    NSIT ၏ အထူးဒေတာဘေ့စ် 1 နှင့် 3 မှ ဆင်းသက်လာသော MNIST ဒေတာဘေ့စ်သည် လေ့ကျင့်ရေးအတွဲအတွက် လက်ရေးနံပါတ် 60,000 စုစည်းထားပြီး စာမေးပွဲအတွက် နမူနာ 10,000 စုစည်းထားသည်။ ဤ open-source ဒေတာဘေ့စ်သည် မော်ဒယ်များကို ကြိုတင်လုပ်ဆောင်ခြင်းတွင် အချိန်နည်းပါးစေပြီး ပုံစံများကို မှတ်မိစေရန် လေ့ကျင့်ပေးပါသည်။

  5. စာသားထောက်လှမ်းခြင်း။

    open-source database၊ Text Detection dataset တွင် ဆိုင်းဘုတ်များ၊ တံခါးပြားများ၊ သတိပေးချက်ပြားများနှင့် အခြားအရာများ၏ အိမ်တွင်းနှင့် အပြင်ဘက် ပုံ 500 ခန့် ပါဝင်ပါသည်။

  6. စတန်းဖို့ဒ် OCR

    Stanford မှထုတ်ဝေသော ဤအခမဲ့သုံးစွဲနိုင်သောဒေတာအတွဲသည် MIT Spoken Language Systems Group မှလက်ရေးဖြင့်ရေးထားသောစကားလုံးစုဆောင်းမှုဖြစ်သည်။

  7. DDI-100

    မဟုတ်ပါက Distorted Document Images Dataset ဟုခေါ်တွင်သော DDI-100 သည် ဂျီဩမေတြီပုံစံများနှင့် ပုံပျက်ပုံများစွာ အသုံးပြုထားသော စာရွက်စာတမ်းများ၏ စာမျက်နှာပေါင်း 6658 ကျော်ကို စုစည်းထားပါသည်။ ထို့အပြင်၊ DDI-100 တွင် 99870 ပုံများ၊ တံဆိပ်ခေါင်းမျက်နှာဖုံးများ၊ စာသားမျက်နှာဖုံးများနှင့် ဘောင်ဘောင်များပါရှိသည်။

  8. RoadText-1K

    ဗီဒီယိုများတွင် စာသားများကို သိရှိနိုင်ရန် မော်ဒယ်များကို လေ့ကျင့်ပေးသည့် အကြီးဆုံးဒေတာအတွဲများထဲမှ တစ်ခုဖြစ်သော RoadText-1K တွင် ဘောင်ခတ်ထားသော စာသားမှတ်ချက်နှင့် ဗီဒီယိုဘောင်တိုင်းရှိ စာသားများကို စာသားမှတ်တမ်းဖြင့် ဘောင်ခတ်ထားသော ဗီဒီယိုအပိုင်း ၁၀၀၀ ပါရှိသည်။

  9. MSRA-TD500

    လေ့ကျင့်မှု ၃၀၀ နှင့် စာသားပုံ ၂၀၀ ပါ၀င်သည် ။ MSRA-TD300 တွင် တရုတ်နှင့် အင်္ဂလိပ်ဘာသာစကားများမှ စာလုံးများပါရှိပြီး ဝါကျအဆင့်တွင် မှတ်သားထားသည်။

  10. MJSynth ဒေတာအတွဲ

    University of Oxford မှ ပံ့ပိုးပေးထားသော ဤစကားလုံးဒေတာအတွဲတွင် အင်္ဂလိပ်ဘာသာစကား စကားလုံးပေါင်း 9 ကျော်ကို ပေါင်းစပ်ဖန်တီးထားသော ရုပ်ပုံပေါင်း 90 သန်းနီးပါးရှိသည်။

  11. Street View Text

    Google Street View ပုံများမှ စုစည်းထားသော ဤဒေတာအတွဲတွင် ဘုတ်များနှင့် လမ်းအဆင့် ဆိုင်းဘုတ်များ၏ အဓိကအားဖြင့် စာသားထောက်လှမ်းပုံများ ပါရှိပါသည်။

  12. မှတ်တမ်းအချက်အလက်များ

    Document Database သည် စာရေးဆရာ 941 ဦးထံမှ ဇယားများ၊ ဖော်မြူလာများ၊ ပုံဆွဲများ၊ ပုံသေနည်းများ၊ စာရင်းများနှင့် အခြားအရာများ အပါအဝင် လက်ရေးဖြင့်ရေးထားသော စာရွက်စာတမ်း ၉၄၁ ခုကို စုစည်းထားသည်။

  13. သင်္ချာအသုံးအနှုန်းများ

    The Mathematics Expressions သည် သင်္ချာသင်္ကေတ 101 ခုနှင့် အသုံးအနှုန်း 10,000 ပါဝင်သည့် ဒေတာဘေ့စ်တစ်ခုဖြစ်သည်။

  14. Street View အိမ်နံပါတ်များ

    Google Street View မှ စုဆောင်းရရှိထားသော ဤ Street View House Numbers သည် 73257 လမ်းအိမ်နံပါတ် ဂဏန်းများပါရှိသော ဒေတာဘေ့စ်တစ်ခုဖြစ်သည်။

  15. သဘာဝ ပတ်ဝန်းကျင် OCR

    သဘာဝပတ်ဝန်းကျင် OCR သည် ကမ္ဘာတစ်ဝှမ်းရှိ ပုံပေါင်း ၆၆၀ နီးပါးနှင့် စာသားမှတ်ချက်ပေါင်း ၅၂၃၈ ခု၏ ဒေတာအစုတစ်ခုဖြစ်သည်။

၎င်းတို့သည် စာသားထောက်လှမ်းခြင်းဆိုင်ရာ အပလီကေးရှင်းများအတွက် လေ့ကျင့်ရေး ML မော်ဒယ်များအတွက် ထိပ်တန်း open-source dataset အချို့ဖြစ်သည်။ သင့်လုပ်ငန်းနှင့် အပလီကေးရှင်းလိုအပ်ချက်များနှင့် ကိုက်ညီမည့်တစ်ခုကို ရွေးချယ်ခြင်းသည် အချိန်နှင့် ကြိုးစားအားထုတ်မှု လိုအပ်ပါသည်။ သို့ရာတွင်၊ သင့်လျော်သောတစ်ခုကို မဆုံးဖြတ်မီ ဤဒေတာအတွဲများနှင့် စမ်းသပ်ရပါမည်။

ယုံကြည်စိတ်ချရပြီး ထိရောက်သော စာသားထောက်လှမ်းခြင်း အက်ပ်တစ်ခုဆီသို့ သင်တိုးတက်မှုကို ကူညီရန်အတွက် Shaip - အဆင့်မြင့်နည်းပညာဖြေရှင်းချက်ပေးသူဖြစ်သည်။ ကျွန်ုပ်တို့သည် စိတ်ကြိုက်ပြုပြင်နိုင်သော၊ အကောင်းဆုံးဖြစ်အောင်ဖန်တီးရန်နှင့် ဖန်တီးရန် ကျွန်ုပ်တို့၏နည်းပညာအတွေ့အကြုံကို အသုံးချပါသည်။ ထိရောက်သော OCR လေ့ကျင့်ရေးဒေတာအတွဲများ အမျိုးမျိုးသော client ပရောဂျက်များအတွက်။ ကျွန်ုပ်တို့၏စွမ်းရည်များကို အပြည့်အဝနားလည်ရန် ယနေ့ကျွန်ုပ်တို့နှင့် ဆက်သွယ်လိုက်ပါ။

လူမှုဝေမျှမယ်