Novosti i kratki pregled

Najzanimljivija pitanja

Implementacije rječnika

Poveznice
posljednja promjena 18.12. 2009.

EH.Txt

Englesko-hrvatski rječnik
Hrvatsko-engleski rječnik

English-Croatian Dictionary
Croatian-English Dictionary

(ili: Svijetla strana crne rupe)

EH rječnik održava
Dr. Goran Igaly

A za one koji prate razvoj ove datoteke u posljednjih 5 i pol godina, pripremio sam nekoliko, nadam se zanimljivih, informacija.

Distribucija po duljini pojmova

U prvoj tablici prikazana je distribucija prijevoda prema broju riječi na engleskoj odnosno hrvatskoj strani. Plavom bojom označen je broj riječi pojedinog pojma na engleskoj, a crvenom broj riječi u istom prijevodu na hrvatskoj strani. Primjerice, broj 1337 na poziciji (3,4) znači da u datoteci EH.Txt ima 1337 prijevoda kod kojih se engleski pojam sastoji od 3 riječi, a hrvatski od 4 riječi. Cilj mi je eliminirati prijevode koji imaju mnogo riječi na nekoj od strana, budući da to znači da radi o opisnom prijevodu koji zahtijeva traženje ekonomičnijeg (kraćeg) rješenja. Trenutna situacija je takva da je s maksimalno dvije riječi pokriveno 84% prijevoda, s maksimalno 3 riječi 93% prijevoda, s maksimalno 4 riječi 97% prijevoda, a s maksimalno 5 riječi (osjenčano područje) 99% prijevoda.

1234567891011
1104815145773287104646927614462177
2765828911395012475313041701153073
31107366450941337447210128431123
419181313881308377138512131
5241303484342721084212
643171145127712462
771639474526911
8359101517621
9126332
101111
111
121

Broj prijevoda pojedinih pojmova<

Druga zanimljiva statistika na koju bih želio ukazati je broj prijevoda u EH.Txt za pojedine engleske odnosno hrvatske pojmove. Naime, jedan od problema rječnika je da za neke pojmove nude previše prijevoda. Zbog toga je jedan od ciljeva razvoja EH.Txt i smanjenje broja prijevoda za pojedine pojmove. Ovaj problem u EH.Txt neće nikada moći biti potpuno riješen, budući da mnogi pojmovi imaju više značenja i jednostavno će morati ostati veći broj prijevoda koji, zbog jednostavne strukture EH.Txt (samo dva stupca), ne mogu biti razvrstani po značenjima. Broj pojmova iz pojedinih jezika, zajedno s brojem prijevoda dan je u sljedeće dvije tablice:
Engleske natuknice     Hrvatske natuknice
Broj
engleskih
pojmova
Broj
prijevoda
pojma
  Ukupan
broj
prijevoda
Kumulativan
broj
prijevoda
Postotak     Broj
hrvatskih
pojmova
Broj
prijevoda
pojma
  Ukupan
broj
prijevoda
Kumulativan
broj
prijevoda
Postotak
61894 1   61894 61894 33,26%     88232 1   88232 88232 47,41%
14438 2   28876 90770 48,78%     12207 2   24414 112646 60,53%
5982 3   17946 108716 58,42%     4612 3   13836 126482 67,97%
3367 4   13468 122184 65,66%     2354 4   9416 135898 73,03%
2065 5   10325 132509 71,21%     1488 5   7440 143338 77,02%
1456 6   8736 141245 75,90%     979 6   5874 149212 80,18%
1022 7   7154 148399 79,74%     739 7   5173 154385 82,96%
725 8   5800 154199 82,86%     563 8   4504 158889 85,38%
587 9   5283 159482 85,70%     375 9   3375 162264 87,19%
383 10   3830 163312 87,76%     326 10   3260 165524 88,95%
305 11   3355 166667 89,56%     224 11   2464 167988 90,27%
241 12   2892 169559 91,11%     182 12   2184 170172 91,44%
174 13   2262 171821 92,33%     157 13   2041 172213 92,54%
145 14   2030 173851 93,42%     108 14   1512 173725 93,35%
128 15   1920 175771 94,45%     96 15   1440 175165 94,13%
97 16   1552 177323 95,29%     85 16   1360 176525 94,86%
64 17   1088 178411 95,87%     86 17   1462 177987 95,64%
65 18   1170 179581 96,50%     50 18   900 178887 96,13%
67 19   1273 180854 97,18%     49 19   931 179818 96,63%
38 20   760 181614 97,59%     43 20   860 180678 97,09%
31 21   651 182265 97,94%     36 21   756 181434 97,50%
24 22   528 182793 98,23%     33 22   726 182160 97,89%
18 23   414 183207 98,45%     21 23   483 182643 98,15%
12 24   288 183495 98,60%     17 24   408 183051 98,36%
8 25   200 183695 98,71%     17 25   425 183476 98,59%
14 26   364 184059 98,91%     12 26   312 183788 98,76%
9 27   243 184302 99,04%     9 27   243 184031 98,89%
7 28   196 184498 99,14%     6 28   168 184199 98,98%
15 29   435 184933 99,38%     8 29   232 184431 99,11%
4 30   120 185053 99,44%     8 30   240 184671 99,23%
9 31   279 185332 99,59%     4 31   124 184795 99,30%
1 32   32 185364 99,61%     3 32   96 184891 99,35%
4 33   132 185496 99,68%     4 33   132 185023 99,42%
2 34   68 185564 99,71%     3 34   102 185125 99,48%
2 35   70 185634 99,75%     4 35   140 185265 99,55%
3 36   108 185742 99,81%     2 36   72 185337 99,59%
4 37   148 185890 99,89%     2 37   74 185411 99,63%
1 39   39 185929 99,91%     1 38   38 185449 99,65%
2 40   80 186009 99,95%     3 39   117 185566 99,72%
1 42   42 186051 99,98%     1 40   40 185606 99,74%
1 44   44 186095 100,00%     5 41   205 185811 99,85%
                1 42   42 185853 99,87%
93415     186095         1 44   44 185897 99,89%
                3 48   144 186041 99,97%
                1 54   54 186095 100,00%
                         
              113160     186095    

Dakle, u EH.Txt, verzija 1.86 ima 93.415 engleskih i 113.150 hrvatskih pojmova. Od toga 61.894 engleskih pojmova ima samo jedan prijevod na hrvatski, a 88.232 hrvatska pojma imaju samo jedan prijevod na engleski. Ostali pojmovi imaju dva ili više prijevoda. U osjenčanom dijelu tablice nalaze se pojmovi s, po mojem mišljenju, prevelikim brojem prijevoda i taj broj prijevoda nastojat ću u sljedećim izdanjima smanjiti.

Ovdje navodim koji su pojmovi za koje ću pokušati smanjiti broj prijevoda (sivo istaknuto područje):

ENGLESKI
44 prijevoda: set; 42: cut; 40 note, run; 39: advance; 37 review, score, array, get; 36: move, notice, charge; 35: screen, to; 34: trim, cover; 33: mean, master, sound, back; 32: post; 31: reach, record, scale, right, setting, spread, waste, band, bar; 30: make, rate, pass, associate, labor; 29: order, pitch, settle, release, retrieve, return, scope, turn, wear, take, stick, yield, bias, complete

HRVATSKI
54 prijevoda: slab; 48: kraj, oštar, odvratan; 44: mnoštvo; 42: prevariti; 41 neobičan, odrediti, položaj, osloboditi, sjajan; 40: jasan; 39: postaviti, prijevara, otvoren; 38: veseo; 37: udarac, značajan; 36: prepreka, udariti; 35 potpuno, prekid, veza, uništiti; 34: izvanredan, snažan, drzak; 33: smanjiti, upravljati, dosadan, čist; 32: grub, pregled, dodatak; 31: oznaka, prijatan, zbuniti, čvrst; 30: lažan, određen, slobodan, težak, znak, zastoj, vješt, dio

To je za sada sve. Želim vam uspješno korištenje EH.Txt, verzija 1.86
Goran Igaly