ဖွဲ့စည်းခြင်း, ကောလိပ်နှင့်တက္ကသိုလ်များ

Corpus ဘာသာဗေဒကဘာလဲ?

အနည်းငယ်ဆယ်စုနှစ်လွန်ခဲ့သောဘာသာစကားသုတေသနအလိုအလျောက်ရန်, သိပ္ပံပညာရှင်များသာ၏အိပ်မက်မှာနိုင်ပါတယ်။ အဆိုပါအလုပျလကျဖွငျ့ပြုလေ၏, ကကျောင်းသားတစ်ဦးကြီးများအရေအတွက်ကဆွဲဆောင်, သိသိသာသာဖြစ်နိုင်ခြေကို "စိုးရိမ်ခြင်းမရှိသော" အမှားတွေရှိပါတယ်ဖြစ်ပြီး, အရေးအကြီးဆုံးကတော့ - ဤအမှုအလုံးစုံတို့ကိုရှည်, အချိန်ကြာမြင့်စွာယူခဲ့ပါတယ်။

အတူကွန်ပျူတာနည်းပညာဖွံ့ဖြိုးတိုးတက်ရေးအတွက်ပိုမိုမြန်ဆန်ပြင်းအား၏အမိန့်အပေါ်သုတေသနပြုရန်ဖြစ်နိုင်သမျှဖြစ်လာခဲ့ပြီးယနေ့ဘာသာစကား၏လေ့လာမှုအတွက်အလားအလာအကောင်းဆုံးလမ်းညွှန်ချက်များထဲမှတစ်ဦး Corpus ဘာသာဗေဒဖြစ်ပါတယ်။ ၎င်း၏အဓိကအင်္ဂါရပ်တဲ့အထူးလမ်းအတွက်တစ်ခုတည်းဒေတာဘေ့စသို့စာသားကိုသတင်းအချက်အလက်, သတင်းအချက်အလက်ပမာဏ၏အသုံးပြုမှုနှင့်သိသိသာသာခန္ဓာကိုယ်တောင်းဆိုခဲ့သည်။

ယနေ့အထိ, သောင်းချီ lexical ယူနစ်ဘီလျံ၏ရန်သန်းပေါင်းများစွာထဲကနေ spanning အမျိုးမျိုးသောဘာသာစကားပစ္စည်းအပေါ် အခြေခံ. ကွဲပြားခြားနားသောရည်ရွယ်ချက်များနှင့်အတူဖန်တီးအများအပြားအဆောက်အဦးများရှိပါသည်။ ဤသည်ဦးတည်ချက်တစ်ခုအလားအလာအဖြစ်အသိအမှတ်ပြုခြင်းနှင့်လျှောက်လွှာနှင့်သုတေသနရည်ရွယ်ချက်ဦးတည်သိသာထင်ရှားသောတိုးတက်မှုများကိုပြသနေသည်။ ကျွမ်းကျင်သူများ, တလမ်းတည်းဖြင့်သို့မဟုတ်သဘာဝဘာသာစကားနှင့်အတူအခြားဖောက်ကားပါကအနည်းဆုံးအခြေခံအဆင့်မှာကျမ်း၏ခန္ဓာကိုယ်နှင့်အတူခင်မင်သိကျွမ်းရရန်အကြံပြုသည်။

Corpus ဘာသာဗေဒသမိုင်း

ဒီလမ်းကြောင်းသစ်၏ဖွဲ့စည်းခြင်းသည်လွန်ခဲ့သောရာစုအစောပိုင်း 60-ies အတွက်ဘရောင်းခန္ဓာကိုယ်မှာအမေရိကန်ပြည်ထောင်စုဖန်တီးမှုကြောင့်ဖြစ်သည်။ စုဆောင်းခြင်းစကားလုံးပုံစံများအပေါငျးတို့သ 1 သန်း၏စာသားများပါဝင်သည်နှင့်ယနေ့ဒီအရွယ်အစား၏ကိုယ်ကိုလုံးဝ uncompetitive ပါလိမ့်မယ်။ ဤသည်ကွန်ပျူတာနည်းပညာ၏ဖွံ့ဖြိုးတိုးတက်မှုများ၏အရှိန်အဟုန်အဖြစ်အသစ်သောသုတေသနအရင်းအမြစ်များကိုများအတွက်ကြီးထွားလာတောင်းဆိုချက်များမှအကြီးအကျယ်ကြောင့်ဖြစ်သည်။

Corpus ဘာသာဗေဒအပြည့်အဝနှင့်လွတ်လပ်သောစည်းကမ်းသို့ပေါ်ထွက်လာသည့် 90 ခုနှစ်, စာသားများတစ်ဦးစုဆောင်းမှုတက်ရေးဆွဲခဲ့ကြခြင်းနှင့်ဘာသာစကားများများစွာများအတွက်မှတ်သား။ ဤကာလ၌ဖန်တီးခဲ့ဥပမာ, ဗြိတိန်အမျိုးသား Corpus သန်း 100 တိုကင်။

ဘာသာဗေဒ၏ဤဒေသ၏ဖွံ့ဖြိုးတိုးတက်ရေးကိုအတူ, စာသား volumes ကိုပိုပိုပြီးဖြစ်လာ (နှင့်အဘိဓါန်ယူနစ်ဘီလျံရောက်ရှိဖို့) ဖြစ်ကြောင်း, နှင့် layout ကိုပိုပြီးကွဲပြားခြားနားဖြစ်လာနေသည်။ ယနေ့အထိ, အင်တာနက်အာကာသသေကောင်တိကျမ်းစာ၌လာသည်ကိုတွေ့ရှိခဲ့ခြင်းနှင့်ဘာသာစကား, ဘာသာမျိုးစုံနှင့်သင်ယူမှု-oriented အနုပညာသို့မဟုတ်ပညာရပ်ဆိုင်ရာစာပေအဖြစ်များစွာသောအခြားမျိုးစိတ်ပြောပြီနိုင်ပါသည်။

အိမ်ရာတွေကဘာတွေလဲ

ခန္ဓာကိုယ်ဘာသာဗေဒအတွက်ခန္ဓာကိုယ်အမျိုးအစားများကိုတော်တော်များများအကြောင်းပြချက်များအတွက်ထောက်ပံ့ပေးနိုင်ပါသည်။ အလိုလိုသည်ခွဲခြားများအတွက်အခြေခံစာသားဘာသာစကား (ရုရှား, ဂျာမန်) တို့ဝင်ရောက်ခွင့် mode ကိုဖွစျစနေို (open source ဖြစ်ပြီး, စီးပွားဖြစ်အပိတ်), အရင်းအမြစ်ပစ္စည်း (စိတ်ကူးယဉ်, မှတ်တမ်းရုပ်ရှင်, ပညာရေး, သတင်းစာပညာ) ၏အမျိုးအစား။

စိတ်ဝင်စားစရာကောင်းတဲ့လမ်းပြောပြီဘာသာစကား၏ပစ္စည်းများထုတ်ပေးပါတယ်။ အဆိုပါတမင်ဖြေဆိုသူတစ်ခုအတုပတ်ဝန်းကျင်ကိုဖန်တီးရန်ထိုကဲ့သို့သောစကားအသံဖမ်း, နှင့်ရရှိလာတဲ့ပစ္စည်း "အလိုအလျောက်" ဟုခေါ်တွင်စေနိုင်ဘူးကတည်းကခေတ်သစ် Corpus ဘာသာဗေဒအခြားလမ်းသွားပြီ။ တစ်ဦးကစေတနာ့ဝန်ထမ်းတစ်ဦးမိုက်ကရိုဖုန်းတပ်ဆင်ထား, နေ့ကာလအတွင်းကပါဝင်သည့်စကားဝိုင်းများအားလုံးကို၏စံချိန်တင်, ထုတ်လုပ်တာဖြစ်ပါတယ်။ ပတ်ပတ်လည်ကလူ, သင်တန်း, နေ့တိုင်းစကားပြောသင်တန်းတွင်သိပ္ပံပညာ၏ဖွံ့ဖြိုးတိုးတက်ရေးကိုအထောက်အကူပြုရန်ကိုမသိနိုငျသညျ။

နောက်ပိုင်းစံချိန်တင်အဆိုပါဒေတာဘေ့စထဲမှာသိမ်းထားတဲ့နှင့်ပုံနှိပ်စာသားအမျိုးအစားအားဖြင့်လိုက်ပါသွားကြသည်ကိုလက်ခံရရှိခဲ့သည်။ ထို့ကြောင့်ကပါးစပ်နေ့စဉ်မိန့်ခွန်းအိုးအိမ်ကိုဖန်တီးရန်လိုအပ်ဖြစ်နိုင်သော markup ဖြစ်လာသည်။

လြှောကျလှာ

တတ်နိုင်သမျှဘာသာစကားနှင့်အဆောက်အဦးကျမ်း၏ဖြစ်ကောင်းအသုံးပြုမှုများအသုံးပြုခြင်း။ ဘာသာဗေဒအတွက်ထည်လျှောက်ထားရန်နည်းလမ်းများဖြစ်နိုင်သည်:

သော့ကိုအဆုံးအဖြတ် program တစ်ခုအတွက်ကျယ်ပြန့်အသီးသီး, မဲဆန္ဒရှင်များနှင့်ဖောက်သည်များ၏အပြုသဘောဆောင်နှင့်အပျက်သဘောဆောင်သောတုံ့ပြန်မှုခြေရာခံစောင့်ရှောက်ဖို့နိုင်ငံရေးနှင့်စီးပွားရေးအတွက်အသုံးပြုသည်။
သူတို့ရဲ့စွမ်းဆောင်ရည်တိုးတက်လာဖို့အဘိဓါနျနှင့်ဘာသာပြန်များမှ connection သတင်းအချက်အလက်စနစ်။
ဘာသာစကားကိုယူနစ်, ယင်း၏ဖွံ့ဖြိုးရေးလုပ်ငန်းများ၏သမိုင်းနှင့်မဝေးတော့တဲ့အနာဂတ်မှာပြောင်းလဲမှုများခန့်မှန်း၏နားလည်မှုကိုအထောက်အကူဖြစ်စေကြောင်းသုတေသနအလုပ်များကိုတစ်ဦးကအမျိုးမျိုး။
အဆိုပါ, morphological syntactic, semantic နှင့်အခြား features တွေအပေါ်အခြေခံပြီး information retrieval စနစ်များဖွံ့ဖြိုးရေးကောင်စီ။
မတူညီသောဘာသာစကားစနစ်များနှင့်အခြားသူများ၏ optimization ။

အဆောက်အဦးများအသုံးပြုခြင်း

ပုံမှန်ရှာဖွေရေးအင်ဂျင်နဲ့အတူအလားတူအရင်းအမြစ် interface ကိုများနှင့်သတင်းအချက်အလက်များကိုအခြေခံရှာဖွေစကားလုံးများကို၏စကားလုံးသို့မဟုတ်ပေါင်းစပ်ထည့်သွင်းရန်အသုံးပြုသူလှုံ့ဆော်ပေးခဲ့တယ်။ အပြင်အတိအကျစုံစမ်းမှုနီးပါးမည်သည့်ဘာသာစကားစံနှုန်းများအပေါ်စာသားသတင်းအချက်အလက်ကိုရှာဖွေခွင့်ပြုထားသည့်တိုးမြှင့်ဗားရှင်းကိုသုံးနိုင်သည်ဖွဲ့စည်းထားပါသည်။

ရှာဖွေရေးအခြေစိုက်စခန်းဖြစ်နိုင်သည်:

မိန့်ခွန်း၏အစိတ်အပိုင်းတစ်ခုအထူးသဖြင့်အုပ်စုတစ်စု၏အဖွဲ့ဝင်အဖြစ်;
သဒ္ဒါအင်္ဂါရပ်များ,
semantic;
stylist နှင့်စိတ်ခံစားမှုအရောင်။

သငျသညျကိုလညျးဝိဘတ် "၌" နှင့်ကမ္မကာရကအမှု၌နာမ်နောက်ကြွလာတော်မူသောဧကဝုစ်ပစ္စုပ္ပန်တင်းမာနေ, ပထမဦးဆုံးပုဂ္ဂိုလ်တစ်ဦးအတွက်ကြိယာအပေါငျးတို့သကွိကိုရှာဖွေဥပမာ, စကားများနေတဲ့ sequence ကိုရှာစံပေါင်းစပ်နိုင်ပါတယ်။ ထိုကဲ့သို့သောရိုးရှင်းသောတာဝန်ဖို့ဒီဖြေရှင်းချက်အသုံးပြုသူစက္ကန့်အနည်းငယ်ကြာနှင့်သတ်မှတ်ထားသောနယ်ပယ်များတွင်သာအနည်းငယ် mouse ကိုကလစ်လိုအပ်သည်။

အတွက်အဆိုပါလုပ်ငန်းစဉ်သည်

ရှာဖွေရေးသူ့ဟာသူနေတဲ့အထူးသဖြင့်ပန်းတိုင်အတွက်လိုအပ်ချက်အပေါ်မူတည်ပြီးအားလုံး subcorpus နှင့်အထူးရွေးချယ်တော်မူတစ်ခုပေါ်တွင်ထွက်သယ်ဆောင်နိုင်ပါတယ်:

ပထမဦးဆုံးခြေလှမ်းအမှုများအတွက်အခြေခံဖွဲ့စည်း texts ပေးသောသတ်မှတ်ဖို့ဖြစ်ပါတယ်။ လက်တွေ့ကျတဲ့ရည်ရွယ်ချက်များသည်မကြာခဏသတင်းစာပညာ, သတင်းပုံပြင်များ, အွန်လိုင်းမှတ်ချက်များကိုအသုံးပြုသည်။ အဆိုပါသုတေသနစီမံကိန်းကိုအထုပ်အမျိုးအစားမျိုးစုံ၏အသုံးပြုမှုကိုဖြစ်တယ်, ဒါပေမဲ့စာသားအချို့ဘုံမြေပြင်နှင့်အညီရွေးချယ်ထားသည့်ရပါမည်။
pretreatment အကြောင်းမဲ့ကျမ်း၏ရရှိလာတဲ့စုဆောင်းခြင်း, စာသား၏ bibliographic နှင့်အပို-ဘာသာစကားဖော်ပြချက်ကပြင်ဆင်အမှားအယွင်းများ၏ဆုံးမပဲ့ပြင်ရှိလျှင်ရှိ၏။
အားလုံး Non-စာသားသတင်းအချက်အလက်ဖယ်ထုတ်ပစ်သည်: ဂရပ်ဖစ်, ပုံများ, စားပွဲရှင်းလင်းရေး။
ပုံမှန်အားဖြင့်နောက်ထပ်အပြောင်းအလဲနဲ့အဘို့အမိန့်ခွန်း, နေသောတိုကင်၏တစ်ဦးခွဲဝေဖြစ်ပါတယ်။
နောက်ဆုံးအနေနဲ့ကဒြပ်စင်၏ဗဟုရရှိသော, morphological syntactical နှင့်အခြားအမှတ်အသားများဆောင်သွားကြ၏။

မိန့်ခွန်း၏တစ်စိတ်တစ်ပိုင်းဖော်ထုတ်နေသည်တစ်ဦးချင်းစီ၏ဒြပ်စင်မြို့သားဖြန့်ဝေနေတဲ့ဗဟုနှင့် syntactic ဖွဲ့စည်းပုံအားဖြင့်ဖန်ဆင်းသမျှသောအရောင်းအများ၏ရလဒ်, သဒ္ဒါနှင့်အချို့ကိစ္စ၌, semantic attribute တွေ။

အဆောက်အဦးများဖန်တီးခြင်းအတွက်အခက်အခဲများ

ထိုသို့ကိုယ်ခန္ဓာအဘို့စကားများသို့မဟုတ်စာကြောင်းများစုတခုအတူတူထားရန်မလုံလောကျကိုနားလည်သဘောပေါက်ရန်အရေးကြီးပါသည်။ တဖကျတှငျ, စာသားများတစ်ဦးစုဆောင်းမှုမျှမျှတတဖြစ်သင့်တယ်, ကြောင်း, အချို့အချိုးအစားအတွက်ကျမ်းအမျိုးမျိုးကိုကိုယ်စားပြုသည်။ အခြားတွင် - ထိုဝင်းရဲ့ contents အထူးလမ်းအတွက်လှပတဲ့ရပါမည်။

ပထမဦးဆုံးပြဿနာတခုသဘောတူညီချက်အားဖြင့်ဖြေရှင်းနေသည်: ဥပမာ, စုဆောင်းခြင်းအတွက်စာပေကျမ်း၏ 60%, မှတ်တမ်းရုပ်ရှင်၏ 20% ပါဝင်သည်တစ်အချို့သောရာခိုင်နှုန်းယနေ့တည်ရှိနေမပြောပြီဘာသာစကား, ဥပဒေပြု, သိပ္ပံနည်းကျအကျင့်ကိုကျင့်, etc စုံလင်သောစာရွက်ဟန်ချက်ညီအောင်ထိန်းကိုယ်ခန္ဓာ၏ရေးသားထားသောကိုယ်စားပြုမှုပေးထား ...

အကြောင်းအရာ layout ကိုရည်မှတ်ဒုတိယမေးခွန်း, စိန်ခေါ်မှုဖြေရှင်းနိုင်။ အဲဒီမှာကျမ်း၏ marking အော်တိုအတှကျအသုံးပွုအထူးအစီအစဉ်များနှင့် algorithms ရှိပါတယ်, ဒါပေမယ့်သူတို့တစ်တွေစုံလင်သောရလဒ်မပေးပါဘူး, ပြတ်တောက်စေခြင်းနှင့်လမ်းညွှန်လက်စွဲစာအုပ်ကို rework လိုအပ်နိုင်ပါတယ်။ ဤပြဿနာကိုနှငျ့ဆကျဆံရာတှငျအခွင့်အလမ်းများနှင့်စိန်ခေါ်မှုများစက္ကူ Corpus ဘာသာဗေဒ၏ V. P. Zaharova ထဲမှာအသေးစိတ်ဖော်ပြထားကြပါတယ်။

စာသားမ markup ကျနော်တို့ကိုအောက်တွင်စာရင်းပြုစုရာပေါင်းများစွာအဆင့်ဆင့်မှာအကောင်အထည်ဖော်နေသည်။

morphological မှတ်သားခြင်း

ကျောင်းမှာကနေကျနော်တို့ကိုရုရှားဘာသာစကားမှာရှိခွန်း၏ကွဲပြားခြားနားသောအစိတ်အပိုင်းများဖြစ်ကြသည်ကို၎င်း, သူတို့ထဲကတစ်ဦးချင်းစီက၎င်း၏ကိုယ်ပိုင်ဝိသေသလက္ခဏာများရှိကြောင်းသတိရပါ။ ဥပမာ, ကြိယာအကွံနှင့်မျှမနာမ်မှာအချိန်အမျိုးအစားရှိပါတယ်။ မဆိုင်းမတွတစ်ဇာတိပီနာမ်နှင့် conjugation ကြိယာငြင်းပယ်ပေမယ့်သန်း 100 ၏ကိုယ်ကို mark ရန်။ လက်စွဲစာအုပ်အလုပ်သမားအလုပ်လုပ်မည်မဟုတ်ပေ tokens ။ အားလုံးလိုအပ်သောလုပ်ငန်းများကွန်ပျူတာ execute နိုငျသညျ, သို့သျောလညျး, ဒီထိုသို့ဆုံးမဩဝါဒပေးရန်လိုအပ်ပါသည်။

Morphological မှတ်သားခြင်း, ကွန်ပျူတာအချို့သဒ္ဒါ features တွေရှိခြင်းမိန့်ခွန်းတစ်ခုအချို့အစိတ်အပိုင်းအဖြစ်တစ်ဦးချင်းစီစကားလုံး "နားလည်" ရမည်ဖြစ်သည်။ ရုရှား (နှင့်အခြားမည်သည့်ဘာသာစကား) ပုံမှန်စည်းမျဉ်းနံပါတ်လည်ပတ်ကတည်းကကြောင့် algorithms ၏နံပါတ်များအတွက်ကားထဲတွင်ရင်းနှီးမြှုပ်နှံခြင်း, morphological ခွဲခြမ်းစိတ်ဖြာများအတွက်အလိုအလျောက်လုပ်ထုံးလုပ်နည်းတည်ဆောက်ရန်ဖြစ်နိုင်ပါတယ်။ သို့သော်စိုးမိုးရေးမှခြွင်းချက်အဖြစ်အမျိုးမျိုးသောရှုပ်ထွေးအချက်များရှိပါသည်။ ရလဒ်အဖြစ်ယနေ့ပိုက်ကွန်ကိုကွန်ပျူတာခွဲခြမ်းစိတ်ဖြာဝေးစံပြကနေဖြစ်တယ်, ပင် 4% အမှား 4 mln ၏တန်ဖိုးဖြစ်ထွန်း။ သန်း 100 ၏ခန္ဓာကိုယ်အပေါ်စကား။ ယူနစ်, လက်စွဲစာအုပ် rework လိုအပ်။

အသေးစိတ်စာအုပ်ပြဿနာ Zaharova V. P. "Corpus ဘာသာဗေဒ" ဖော်ပြသည်။

syntactic မှတ်

ဆန်းစစ်မှုသို့မဟုတ်ဆန်းစစ်မှု - တစ်ဝါကျအတွက်စကားများကြားဆက်ဆံရေးဆုံးဖြတ်သည်တဲ့လုပ်ထုံးလုပ်နည်း။ algorithms အစုတခုအသုံးပြုခြင်းမိန့်ခွန်း၏ဘာသာရပ်, predicate, ဖြည့်စွက်, မျိုးစုံအလှည့်၏စာသားဆုံးဖြတ်ရန်ဖြစ်နိုင်ပါတယ်။ အဓိက sequence ကိုသောစကားများထွက်ရှာပါနှင့်အရာ - မှီခိုကျနော်တို့ထိထိရောက်ရောက်စာသားကိုကနေသတင်းအချက်အလက် extract နိုင်ပြီးကျွန်တော်တို့ကိုစိတျဝငျစားသာသတင်းအချက်အလက်ရှာဖွေရေးတောင်းဆိုချက်ကိုတုံ့ပြန်ထုတ်ဖို့စက်သင်ပေးရန်။

စကားမစပ်, ခေတ်သစ်ရှာဖွေရေးအင်ဂျင်ထိုကဲ့သို့သော "မည်မျှကယ်လိုရီအနေနဲ့ပန်းသီးထဲမှာ" သို့မဟုတ်အဖြစ်သက်ဆိုင်ရာမေးမြန်းချက်တုံ့ပြန်တိကျတဲ့ဂဏန်းအစားရှည်စာသားများထွက်ပေးရန်ဤကိုသုံးပါ "စိန့်ပီတာစဘတ်မှမော်စကိုကနေအကွာအဝေး။ " သို့သျောလညျး, ဒါမှမဟုတ်အခြားအခြေခံသင်ခန်းစာမှာ "အဆိုပါ Corpus ဘာသာဗေဒမှနိဒါန်း" တိုင်ပင်ရန်လိုအပ်ကြောင်းအားဖြင့်ဖော်ပြထားတဲ့လုပ်ငန်းစဉ်၏တောင်မှအခြေခံနားလည်သဘောပေါက်ရန်။

semantic markup

နှုတ်ကပတ်တော်တည်းဟူသောဝေါဟာရအသုံးအနှုံး - အဓိပ္ပာယ်ကို, ရိုးရှင်းသောစည်းမျဉ်းများအတွက်ဖြစ်ပါတယ်။ မိမိအ semantic အမျိုးအစားနှင့်အမျိုးအစားခွဲများအစုတခုပိုင်ထင်ဟပ်နေတဲ့စကားလုံးထည့်သွင်းတွက်ချက်မှု tags များ၏ semantic ခွဲခြမ်းစိတ်ဖြာဖို့ကျယ်ပြန့်သက်ဆိုင်သောချဉ်းကပ်။ ထိုသို့သောသတင်းအချက်အလက်ပိုကောင်းအောင် algorithms စာသားကိုသေံ, အော်တို summarization ကိုနှင့် Corpus ဘာသာဗေဒ၏အခြားတာဝန်များကိုနည်းလမ်းများခွဲခြမ်းစိတ်ဖြာများအတွက်တန်ဖိုးရှိတဲ့ဖြစ်ပါတယ်။

အလွန်ကျယ်ပြန့် semantic နဲ့စိတ္တဇစကားလုံးကိုယ်စားပြုပင်၏အသီးကို "အမြစ်" ၏နံပါတ်ရှိပါသည်။ သစ်ပင် nodes များအခက်ကဲ့သို့ ပို. ပို. တိကျသော lexical ဒြပ်စင်များ, ဖွဲ့စည်းထားပါသည်။ ဥပမာ, စကားလုံး "သတ္တဝါ" "လူ့" နှင့် "တိရိစ္ဆာန်" ကဲ့သို့သောအယူအဆများနှင့်ဆက်စပ်နိုင်ပါသည်။ တိရစ္ဆာန်များ၏အတန်းနှင့်အမျိုးအစားများပေါ် - ပထမစကားလုံးကွဲပြားခြားနားသောယောင်ဆောင် kinship အသုံးအနှုန်းများ, နိုင်ငံသား, ဒုတိယသို့ထွက်ခွဲထွက်ဖို့ဆက်လက်ပါလိမ့်မယ်။

information retrieval စနစ်များအသုံးပြုခြင်း

Corpus ဘာသာဗေဒ၏အသုံးပြုမှုဒေသများလှုပ်ရှားမှု၏ကွဲပြားခြားနားလယ်ကွင်းကိုဖုံးလွှမ်း။ အိမ်ကိုသေံနှင့်အခြားစာသားကိုအပြောင်းအလဲနဲ့အဆုံးအဖြတ်, အချက်အလက်များပြန်လည်ရယူရန်, annotating, အလိုအလျောက်ဘာသာပြန်ချက်စနစ်များကိုဖန်တီး, အဘိဓါန်များပြင်ဆင်မှုနှင့်ဆုံးမခြင်းများအတွက်အသုံးပြုကြသည်။

ထို့အပြင်ထိုကဲ့သို့သောအရင်းအမြစ်များကိုတက်ကြွစွာကမ္ဘာကြီးဘာသာစကားများနှင့်ယေဘုယျအားဖြင့်ဘာသာစကား၏လုပ်ငန်းဆောင်တာများယန္တရားများ၏လေ့လာမှုအတွက်အသုံးပြုကြသည်။ Pre-ပြင်ဆင်ထားအချက်အလက်များ၏ကြီးမားသော volumes ကိုမှဝင်ရောက်ခွင့်ဖှံ့ဖွိုးတိုးတဘာသာစကားများ၏ခေတ်ရေစီးကြောင်း၏လျင်မြန်ခြင်းနှင့်ပြည့်စုံသောလေ့လာမှုနိုင်အောင်စီစဉ်ပေးထားတယ်နှင့်တည်ငြိမ်ဖွဲ့စည်းရေး neologisms မိန့်ခွန်းမြန်နှုန်းပြောင်းလဲမှု lexical ယူနစ်နှင့်အခြားသူများတန်ဖိုးထားသည်။

အချက်အလက်များ၏ထိုကဲ့သို့ကြီးမားသောပမာဏနှင့်အတူအလုပ်အလိုအလျောက်လိုအပ်ပါတယ်ကတည်းကယနေ့ကွန်ပျူတာနှင့် Corpus ဘာသာဗေဒအကြားနီးကပ်အပြန်အလှန်ရှိသေး၏။

ရုရှားအမျိုးသား Corpus

ဤကိစ္စတွင် (NKRYA အတိုကောက်) အလုပ်များကိုကျယ်ပြန့်အမျိုးမျိုးများအတွက်အရင်းအမြစ်၏အသုံးပြုမှုကိုခွင့်ပြု, subcorpus ၏နံပါတ်ပါဝင်သည်။

အဆိုပါဒေတာဘေ့စအတွက်ပစ္စည်းများ NKRYA ခွဲခြားထားတယ်:

ပြည်တွင်းနှင့်ပြည်ပနှစ်ခုစလုံးမီဒီယာ '' 90 နှင့် 2000 ပြည့်နှစ်များတွင်စာပေခြင်းငှါ၎င်း,
မှတ်တမ်းတင်မိန့်ခွန်း;
aktsentologicheski ကျမ်း (စိတ်ဖိစီးမှု၏ဆိုလိုသညျထိုအမှတ်အသားများ) မှတ်သား;
စကားမိန့်ခွန်း;
ကဗျာ;
syntactic နှင့်အခြားအမှတ်အသားများနှင့်အတူပစ္စည်းများ။

အဆိုပါသတင်းအချက်အလက်စနစ်ကလည်းအင်္ဂလိပ်, ဂြာမနျသို့ရုရှားအနေဖြင့်အကျင့်ကိုကျင့်၏အပြိုင်ဘာသာ, ပြင်သစ်နှင့်များစွာသောအခြားဘာသာစကားများ (နှင့်အပြန်အလှန်) နဲ့ Subcorpus ပါဝင်သည်။

ဒါ့အပြင်ဒေတာဘေ့စအတွက်သမိုင်းဝင်ကျမ်း၏အပိုင်းတစ်ခုက၎င်း၏ဖွံ့ဖြိုးတိုးတက်မှု၏ကွဲပြားခြားနားသောကာလအတွက်ရုရှားအတွက်စာဖြင့်ရေးသားမိန့်ခွန်းကိုကိုယ်စားပြုလျက်ရှိ၏။ ရုရှားဘာသာစကားကိုကျွမ်းကျင်ပိုင်နိုင်စွာနိုင်ငံခြားနိုင်ငံသားများများအတွက်အသုံးဝင်သောဖြစ်နိုင်သည့်လေ့ကျင့်ရေးခန္ဓာကိုယ်သည်လည်းရှိပါသည်။

ရုရှားအမျိုးသား Corpus 400 သန်း lexical ယူနစ်ပါဝင်သည်နှင့်နည်းလမ်းများစွာအတွက်ရှေ့ဆက်ဥရောပအလောင်းများ၏ဘာသာစကားများသိသိသာသာအစိတ်အပိုင်းတစ်ခုဖြစ်သည်။

အလားအလာ

ဒီလမ်းကြောင်းသစ်၏အသိအမှတ်ပြုမှု၏မျက်နှာသာအတွက်တကယ်တော့ရုရှားတက္ကသိုလ်များအတွက်ဓာတ်ခွဲခန်း Corpus ဘာသာဗေဒကတိပေး၏ရရှိမှုဖြစ်ပါသည်အဖြစ်နိုင်ငံခြားငွေ။ ဤအချက်အလက်နှင့်ရှာဖွေရေးအရင်းအမြစ်များ၏မူဘောင်အတွင်းအသုံးပြုခြင်းနှင့်သုတေသနနှင့်အတူမြင့်မားနည်းပညာများ၏လယ်ပြင်တွင်မေးခွန်းတစ်ခုကို-ဖြေဆိုခြင်းစနစ်များအချို့သောဒေသများ၏ဖွံ့ဖြိုးတိုးတက်ရေးကိုပါဝငျပေမယ့်အထက်တွင်ဆွေးနွေးထားတယ်။

Corpus ဘာသာဗေဒ၏နောက်ထပ်ဖွံ့ဖြိုးရေး, ကွန်ပျူတာများကိုအားပေး, နည်းပညာနှင့်သတင်းအချက်အလက်ရှာဖွေခြင်းနဲ့ processing ၏လုပ်ငန်းစဉ်များပိုကောင်းအောင်အသစ် algorithms များအကောင်အထည်ဖော်မှု၏စည်းကမ်းချက်များ၌ထံမှအထိအားလုံးအဆင့်ဆင့်မှာပိုပြီး RAM ကိုခန့်မှန်းသည်နှင့်စားသုံးသူမှအသုံးပြုသူများကသူတို့နေ့စဉ်အတွက်အရင်းအမြစ်၏ဤအမျိုးအစားကိုအသုံးပြုရန်ပိုပိုပြီးနည်းလမ်းများကြောင့် ဘဝနှင့်အလုပ်။

နိဂုံးချုပ်

ပြီးခဲ့သည့်ရာစုအလယ်၌ 2017 ခုနှစ်တွင်အာကာသယာဉ်သည်လူများအဘို့အပေါငျးတို့သလုပျဆောငျကွဝဠာနှင့်စက်ရုပ်မှတဆင့်သွားလာရှိရာဝေးလံသောအနာဂတ်, သလိုပဲ။ တကယ်တော့, သိပ္ပံ "အဖြူရောင်အစက်အပြောက်" နဲ့တငျထားနှင့်စိတ်ပျက်ဖွယ်ရာစုနှစ်လူသားထု၏မေးခွန်းများကိုဖြေဆိုရန်အပူတပြင်းကြိုးစားမှုအောင်ဖြစ်ပါတယ်။ ဒီနေရာမှာဘာသာစကား၏ functioning မေးခွန်းလွှာဂုဏ်အသရေ၏နေရာတစ်နေရာသိမ်းပိုက်နှင့်အစိုးရအဖွဲ့နှင့်ကွန်ပျူတာဘာသာဗေဒသူတို့ကိုဖြေဆိုရန်ကျွန်တော်တို့ကိုကူညီနိုင်ပါတယ်။

ကြီးမားတဲ့ data တွေကိုအစုံရဲ့အပြောင်းအလဲနဲ့နီးပါးကိုမှန်ကန်အချိန်အတွက်စကားများဖွဲ့စည်းခြင်းကိုခြေရာခံဖို့တိကျတဲ့ဘာသာစကားအင်္ဂါရပ်များဖွံ့ဖြိုးတိုးတက်ရေးအတွက်ကြိုတင်ခန့်မှန်း, လက်လှမ်းမမှီယခင်က, ပုံစံများ detect နိုင်ပါတယ်။

လက်တွေ့ကျတဲ့အဆင့်အထိတွင်, ကမ္ဘာလုံးဆိုင်ရာပူးတွဲအများပြည်သူစိတ်ဓါတ်များကိုအကဲဖြတ်နိုင်ရန်အလားအလာရှိသော tool အဖြစ်ဥပမာ, မြင်နိုင်ပါသည် - အင်တာနက်ကိုအမှန်တကယ်အသုံးပြုသူများကအသုံးပြုနေသူများကဖန်တီးနေတဲ့အဆက်မပြတ် updated နေ့စဉ်အခြေခံအမျိုးမျိုးသောကျမ်းဖြစ်ပါတယ်: ဤမှတ်ချက်နှင့်ပြန်လည်သုံးသပ်ချက်များနှင့်ဆောင်းပါးများ, နှင့်မိန့်ခွန်း၏များစွာသောအခြားပုံစံများ။

ထို့အပြင်ခုနှစ်, အလောင်းနှင့်အတူအလုပ်လုပ် information retrieval တွင်ပါဝင်ပတ်သက်သည်ဟုအတူတူဟာ့ဒ်ဝဲ၏ဖှံ့ဖွိုးတိုးစေတယ်, ကျနော်တို့ဝန်ဆောင်မှုနှင့်ရင်းနှီးကျွမ်းဝင်ကြသည် "ဟုဂူးဂဲလ်" သို့မဟုတ် "Yandex" စက်, ဘာသာပြန်ချက်, အီလက်ထရောနစ်အဘိဓါနျ။

ကျနော်တို့စိတ်ချလက်ချအဆိုပါ Corpus ဘာသာဗေဒကိုသာပထမဦးဆုံးခြေလှမ်းကိုအခိုင်အမာနိုင်ပြီး, မဝေးတော့တဲ့အနာဂတ်၌ပွင့်လန်းပါလိမ့်မယ်။

ဖွဲ့စည်းခြင်း, ကောလိပ်နှင့်တက္ကသိုလ်များ

Corpus ဘာသာဗေဒကဘာလဲ?

Corpus ဘာသာဗေဒသမိုင်း

အိမ်ရာတွေကဘာတွေလဲ

လြှောကျလှာ

အဆောက်အဦးများအသုံးပြုခြင်း

အတွက်အဆိုပါလုပ်ငန်းစဉ်သည်

အဆောက်အဦးများဖန်တီးခြင်းအတွက်အခက်အခဲများ

morphological မှတ်သားခြင်း

syntactic မှတ်

semantic markup

information retrieval စနစ်များအသုံးပြုခြင်း

ရုရှားအမျိုးသား Corpus

အလားအလာ

နိဂုံးချုပ်

Similar articles

ဖွဲ့စည်းခြင်း

ဖွဲ့စည်းခြင်း

ဖွဲ့စည်းခြင်း

ဖွဲ့စည်းခြင်း

ဖွဲ့စည်းခြင်း

ဖွဲ့စည်းခြင်း

Trending Now

စီးပွားရေးလုပ်ငန်း

ဝိဇ္ဇာနှင့်ဖျော်ဖြေမှု

ခရီးသွားလာ

ခရီးသွားလာ

စီးပွားရေးလုပ်ငန်း

ကားများ

Newest

ဉာဏဖွံ့ဖြိုးရေးလုပ်ငန်း

သတင်းနှင့်လူ့အဖွဲ့အစည်း

ရာထူး

ဘဏ္ဍာရေး

ဥပဒ

ဘဏ္ဍာရေး