Jump to content

SkyFlyer

Forumjan
  • Posts

    4
  • Joined

  • Last visited

About SkyFlyer

  • Rank
    Newbie
    Newbie
  1. Աիդա Սուրենովնա (քիչ մնաց ելի Աննա գրեի ), Իմ խնդիրը բառի «անպետք» վերջնամասի հայտնաբերումն ու լիկվիդացումն է։ Իս ինչո՞ւ ոչ առաջամասի, քանզի գրեթե անհնար է այն առանձնացնել բառից իմ օգտագործած պարզ մեթոդներով։ Խնդրում եմ չոգտագործել լեզվական մասնագիտական տերմիններ քանզի Ձեր ասելիքը սկսում է անհասկանալի դառնալ։ Հեղինե, Կարծում եմ ինձ բայակերտ ածանցներն ել են պետք, քանզի քո նշած խաղ+ացն+ել բայը կարելի է մաքրել «անպետք» վերջնամասից, քանզի բայակերտ ածանցից (ացն) հետո գալիս է ոչ թե արմատ այլ մեկ այլ «անպետք» վերջնամաս։ Այսինքն, պարզ ասած, ես կարող եմ ծրագրին տալ բոլոր հնարավոր վերջնամասերի ցուցակը և ծրագիրը ամեն բառի համար կհամեմատի արդյոք բառը պարունակում է ցուցակում առկա վերջնամաս ու եթե գտնի, այն կջնջի բառից ստանալով նախածանց+արմատ։ Ստացված արդյունքը լիարժեք չէ, սակայն լիովին բավարարում է իմ խնդրին։ Հրեշտակ, Կարծում եմ կարիք չկա պարզելու աղբյուրը, քանզի դա մեր խնդրի նպատակը չէ։ Իհարկե կլինեն նաև սխալներ (օրինակ չեկ վերջածանցը) քանզի Հեղինեն լեզվի մասնագետ չէ և սա ել գիտական աշխատություն չէ։ Շատ երախտապարտ լկինեի եթե դու ել ռուսերենի վերջածանցները գրեիր, քանզի նույն պրոցեսը կատարվելու է նաև ռուսերեն հոդվածների հետ։
  2. Աննա Սուրենովնա ջան, Պապս կասեր «երջանիկ է այն ազգը, որի յուրաքանչուր անդամ անում է այն գործը, որը գերազանց գիտի»։ Իմ համար այդ ցուցակը գրելը հավերժության հավասար մի բան է, իսկ մասնագետի համար մի ակնթարթ։ Ինձ հետաքրքրում են բոլոր հավանական «ավելորդ» մասնիկները բառի վերջում։
  3. Հեղինե ջան, Կարծում եմ կարիք չկա նշելու իմ երախտագիտության չափը։ Հատուկ քո պատվին այդ փնտրման համակարգը անվանելու եմ «Հեղինե»։ Անհամբեր սպասում եմ ցանկը լրացնելուն։ Ս.Հ.
  4. Վերջերս որոշեցի տվյալների բազայի որոնման ծրագիր գրել, որը տեղադրելու եմ իմ նախագծերից մեկում։ http://www.armtown.com Սկսելով կոդավորումը, շատ շուտ հասկացա, որ բավական բարդ խնդիր է դա։ Իմ կոդը հիմնված է լինելու Full indexing մեթոդի վրա, որը շատ տարածված մեթոդ է։ Տեքստը ինդեքսավորելու համար ծրագիրը բառ առ բառ կարդում է այն ու գնահատելով բառի "արժեքր" տվյալ տքստում այն գրանցում 2 տարբեր աղյուսակներում։ Դրանցից առաջինը կոչվում է բառարան, որը 2 սյունականոց աղյուսակ է, որի առաջին սյունակում գրված է բառի հերթական համարը, իսկ մյուսում պարզապես բառր, մոտավորապես այսպես... 1 բարև 2 ես 3 եմ ... Իսկ մյուս աղուսյակում գրանցվում է հոդվածի հերթական համարը, բառի հերթական համարը և բառի հետ կապված որոշ այլ ինֆորմացիա (արժեքը, դիրքը և այլն) 1 2 1.55214 – նշանակում է է–ին հոդվածում 2–րդ բառը (ես) ունի 1.55214 արժեք ... Սա ուղղակի ծանոթացման համար էր։ Հիմա անցնենք բուն խնդրին։ Տվյալ մեթոդի թերություններից մեկն այն է որ «բառարանը» բավական ահռելի չափերի է հասնում շատ շուտ (մի քանի հազար տեքստ ինդեքսավորելուց այն կկաղմի մոտ 50-70% այդ տեղտերի)։ Դրա համար օգտագործում են տարբեր միջոցներ այն փոքրացնելու համար։ Այդ միջոցներից մեկը դա stemming-ն է, որի էությունը կայանում է նրանում, որ բառի արժեքը դա արմատն է և առանձնացնելով արմատը մենք չենք կորցնում իմաստը։ Օրինակ եթե այցելուն փնտրել է «մարդկություն» բառը ապա բոլոր հոդվածները, որոնք պարունակում են «մարդ» արմատով բառերը (մարդկային, մարդու, մարդը...) նույնպես կհետաքրքրեն նրան։ Այսինքն կստացվի, որ փոխանակ պահելու այդ բոլոր «մարդ» արմատով բառերը, մենք կարող ենք պահել միայն «մարդ» արմատը, որը մի քանի տասնյակ անգամ կփոքրացնի բառարանի չափսը եվ կնդլայնի փնտրման արդյունքները, որը նույնպես կարևոր է։ Խնդրում եմ օգնեք ինձ ամբողջացնելու վերջածանցների ցանկը, որը կօգնի ինձ ավելի որակյալ ծրագիր գրելուն ու կօգնի այցելուներին ճիշտ փնտրման արդյունքներ ներկայացնել։ Նախապես շնորհակալ եմ։ Մինչ այժմ սա է վերջածանցների ցուցակը (վերջածանց ասելով ես ավելի շուտ նկատի ունեմ բառի վերջի անօգտակար մասը՝ վերրածանց, որոշյալ անորոշ հոդ, հոգնակի մասնիկ և այլն)։ – ությունները|ություններն|ությունների|ություններին|ություններով|ություններից|ություններում – ություններ – ությունը|ությունն|ությանը|ությանն|ությամբ|ացնելու – ություն|ության|ներին|ներով|ներում|ացնել – ական|ականը|ականն|ապես|ները|ներում|ներով|ների|ային|անալ|որեն|ավոր – ներ|երն|վել|ելու|ելի|ման|յան|ացի|երի|երն|երը|երով|երում|ումն|ումը – յի|ին|եր|ում|ել|ով|ում|ցի|ից|ող|եց|ալ – ի|ն|ը|ու
×
×
  • Create New...