25 GODINA HAŠEKA

AUTOR: Šandor Dembitz OBJAVLJENO: Jezik, god. 66, br. 4-5, str. 138-150. Rad je primljen 2. travnja 2019., prihvaćen za tisak 7. listopada 2019. i nakon tiskanja pretvoren u ovaj oblik s dopuštenjem uredništva Jezika.

Broj komentara: 

Uvod

Ime iz naslova čitatelja vjerojatno najprije podsjeća na Dobrog vojaka Švejka a ponekog, možda, i na Ljudevita Jonkea, prvog urednika Jezika, prevoditelja romana na hrvatski. Za razliku od Čeha Jaroslava Hašeka, koji je svoju svjetski poznatu satiru pisao tijekom i nakon Velikoga rata, hrvatski je vojnik Švejk – pridjev „dobar“ namjerno je izostavljen – svoj Hašek počeo pisati tijekom Domovinskoga rata, te ga i dandanas dopisuje.

Hašek je pohrvaćeni oblik akronima Hascheck, izvedenog iz naziva Hrvatski akademski spelling checker, i označava jezgrenu komponentu mrežnog pravopisnog provjernika koji u različitim oblicima, danas na adresi https://ispravi.me/, od 21. ožujka 1994. stoji na raspolaganju svima koji žele da im se tekst prije objavljivanja strojno provjeri.

Danas, u guglzoiku, spellchecking nije posebno atraktivno područje prirodnojezičnih tehnologija, što u domaćim okvirima potvrđuje spominjanje Hašeka u knjizi Hrvatski jezik u digitalnom dobu, u kojoj mu je posvećena jedna jedina rečenica na 26. stranici: „On-line Hrvatski akademski spelling checker (Hascheck) postoji od 1994. i još uvijek je u uporabi.“ U citiranoj se monografiji njezini autori, svi odreda barem jednom izabrani za člana-suradnika HAZU-a, iscrpno bave temama danas opredmećenim u Google Translateu ili Google Dictateu itd. Jedino im je promakla činjenica da je Hašek davna hrvatska anticipacija istih, ali što se tu može.

Čemu uopće on-line spellchecking? U paleoguglzoiku, dok su se Amerikanci još intenzivno bavili pravopisnim provjernicima, o problemu je napisano i ovo:

„Recept za izradu gulaša od slona započinje s: prvo ulovi slona. Ako vaš recept za izradu pravopisnog provjernika započinje s: prvo pronađi sve valjane riječi-različnice u engleskom jeziku, vjerojatno ćete brzo uvidjeti da je puno lakše napraviti ukusni gulaš od slona.“ [1]

Lako je predočiv američki lovac, opremljen puškom za uspavljivanje, kako si lovi svoga slona. Što da radi njegov hrvatski parnjak, oboružan kamenom sjekirom, ako slučajno uspije ošamutiti svoga mamuta? „Na internet s njime, jer inače gulaša nema!“ Da je ovo paleolitičko razmišljanje bilo ispravno potvrđuje činjenica da danas, osim Microsoftova pravopisnog provjernika za hrvatski, korisnicima hrvatskoga u stvarnosti za te svrhe još jedino Hašek stoji na raspolaganju. Prije dvadesetak godina konvencionalnih hrvatskih pravopisnih provjernika bilo je za na lopate bacati, ali nisu preživjeli. Međunarodnim veletvrtkama šaka jada ne može konkurirati po modelu: „vidjela žaba kako potkivaju konja pa i sama digla nogu“. Za takve izazove ipak treba malo soli u glavi. Da je izazivač strancima na koncu pokazao tko je tko na domaćem bunjištu, potvrđuje i nedavna usporedba.

Što je napravljeno?

Kako je Hašek nastao, čemu sve služi, kako radi i još puno toga zainteresirani čitatelj Jezika može pronaći u Kolu i Filologiji [2]. Stoga će ovdje ukratko biti prikazano samo ono što je u 25 godina napravljeno a da ima neku vrijednost.

Hašekov je rječnik od početnih 100.000 različnica hrvatskog općejezičnog fonda u 25 godina strogo nadziranog učenja, nadziranoga radi očuvanja preciznosti rječnika, narastao na:

Engleski leksik je uključen u Hašekov rječnik jer je engleski jezik današnja lingua franca. Čak se i u Hrvatskoj jezičnoj riznici, stomilijunskom dijakronijskom korpusu sa stoljetnim rasponom tekstova, koji su sastavili kroatisti, javlja 13.175 različnica iz engleskog dijela Hašekova rječnika (najučestaliji je određeni član the s ukupno 7.988 pojavljivanja), koje tvore 0,4 % cjelovitoga korpusa Riznice. Uzimajući u obzir i ukošene oblike engleskih riječi tipa rolla, rollu itd., udio engleštine u Riznici penje se do 0,8 %, što odgovara razini zatipkovno-pravopisnih grešaka u njoj. Inače, Hašekov bi rječnik, kada bi ga netko želio tiskati, tražio najmanje 3 standardna leksikografska sveska.

U 25 godina usluzi je pristupljeno s 1.368.702 IP-adrese iz 177 vršnih internetskih domena, pretežito zemalja. Prikaz opsega pružene usluge po vršnim domenama dan je u Dodatku ovom radu. Prema evidenciji HTTP kolačića, tj. tragu koji svaki korisnik ostavlja za sobom nakon obavljene obrade, uslugu je koristilo oko milijun osoba. U Tablici 1. prikazana je ukupnost 25-godišnjeg Hašekovog usluživanja najvažnijih vršnih domena s nekoliko bitnih parametara.

Izvorišta prometa Obrađeni korpus [pojavnica] Udio po izvorištima [%] Prosječno prekrivanje korpusa rječnikom [%] Prosječni udio zatipkovno-pravopisnih grešaka u korpusu [%]
Hrvatska 6.313.123.913 87,26 98,47 1,50
BiH 460.404.455 6,36 97,17 2,81
Srbija [3] 58.941.003 0,81 97,31 2,67
Njemačka 58.714.427 0,81 98,13 1,83
SAD 54.830.162 0,76 98,67 1,31
Ostala 289.082.052 4,00 97,68 2,29
Ukupno 7.235.096.012 100,00 98,34 1,62

Tablica 1.

Obrađeni korpus od 7,2 Gpojavnica (gigapojavnica) odgovara korpusu od 30 milijuna autorskih kartica teksta i 6 puta je veći od „najvećeg hrvatskog korpusa hrWaC“, kojim se na 35. stranici diči uvodno citirana monografija, što je samo još jedna potvrda da kod malih primjereno osmišljeni pristupi znaju polučiti bolje rezultate od nekritičkog slijeđenja velikih po žabljem modelu.

Ono što zabrinjava jest podatak koji upućuje da se hrvatski urednije piše u SAD-u negoli u samoj Hrvatskoj (posljednji stupac Tablice 1.), ali to je pitanje kojim bi se morale pozabaviti hrvatske obrazovne vlasti. Poziv se opravdava činjenicom da su unatrag nekoliko posljednjih godina one bile vrlo izdašne u dodjeljivanju nagrade „Ivan Filipović“ za značajna ostvarenja u odgojno-obrazovnoj djelatnosti hrvatskim normativistima, kojima je zadaća hrvatske učenike uputiti kako treba uredno pisati na hrvatskom jeziku. Nas sretnima čine priznanja sljedeće vrste:

Poštovani, pohvala za vašu stranicu https://ispravi.me/! Nisam izvorna govornica hrvatskog jezika i teško mi pada pohvatati sve gramatičke cake. Vaša stranica mi daje samopouzdanja jer učim pri svakom pisanju. Hvala puno i samo naprijed! Lp, Tena [4]

Hašek je odavno prestao biti konvencionalni pravopisni provjernik. Ispravljanje gramatičkih grešaka započelo je mijenjanjem nepostojećeg glagolskog priloga prošlog, primjerice „slijedivši“, u valjani glagolski prilog sadašnji, tj. „slijedeći“, i obrnuto, „proslijedeći“ u „proslijedivši“. Čak ni pismeni korisnici hrvatskoga nisu više sasvim sigurni, vjerojatno zbog gubitka aorista, odnosno imperfekta u svakodnevnoj uporabi, koji su hrvatski glagoli svršeni, a koji nesvršeni. Bavljenje „nekonvencionalnim greškama“ nastavljeno je s kreiranjem hrvatskog n-gramskog sustava, koji je omogućio da se kontekstno prepoznaju, po potrebi i isprave, učestale gramatičke i stilske greške u pisanju na hrvatskome.

Skupljanje i uređivanje hrvatskih n-grama započelo je, potaknuto projektom Google Translate, sredinom 2007. godine. N-gramski je sustav nužna podatkovna podloga za suočavanje s izazovima kao što su strojno prevođenje, strojna pretvorba govora u tekst itd. U Tablici 2. nalazi se usporedni prikaz hrvatskoga s dva najveća Googleova n-gramska sustava s početka rečenoga projekta.

  Engleski
WaC
1,025 Tpojavnica
Kineski
WaC
883 Gpojavnica
Hrvatski
Hašekov korpus
7,2 Gpojavnica
1-grami 13.588.391 1.616.150 5.757.442
2-grami 314.843.401 281.107.315 265.171.603
3-grami 977.069.902 1.024.642.142 918.083.221
4-grami 1.313.818.354 1.348.990.533 1.390.001.665
5-grami 1.176.470.663 1.256.043.325 1.463.796.046
Ukupno 3.795.790.711 3.912.399.465 4.042.809.977

Tablica 2.

Google se poslužio cjelokupnim WWW-om kao tekstovnim repozitorijem, odnosno tzv. Web as Corpus (WaC) pristupom – isti je poslužio i za dobivanje maloprije spomenutoga „najvećeg hrvatskog korpusa“ – i čestotnošću n-grama, primijenivši tzv. cut-off kriterij, da bi dobio gore prikazane sustave. To u hrvatskom slučaju ne može voditi do usporedivih rezultata, ali do usporedivih se rezultata dolazi ako se iskoriste Hašekove obrade i leksičnost kao kriterij za uvrštavanje n-grama u bazu, tj. da su konstituenti svih n-grama riječi s potvrdom u Hašekovom rječniku. Valja napomenuti da preko 50 % unigrama u hrvatskom slučaju tvore različnice-brojevi, no već s n ≥ 2 udio n-grama s takvim konstituentima pada ispod 2 %.

Hašekov 25-godišnji društveni doprinos može se sažeti u sljedećem:

  1. Ušteđeno je oko 10.000 radnih godina sričućega čitanja, koje bi se bez usluge potrošile radi otkrivanja i otklanjanja grešaka, neizostavnih pratiteljica nastajanja novoga teksta.
  2. Stvoren je hrvatski n-gramski sustav, podatkovna podloga nužna za uspješno suočavanje s izazovima koji stoje pred hrvatskim jezičnim tehnolozima, čiji je opseg veći od opsega svih knjiga koje su od Gutenberga do danas tiskane na hrvatskom jeziku.

Kako je usluga https://ispravi.me/ zapravo predlektoriranje, osmišljena da bi se uređivaču teksta olakšao i skratio najnekreativniji, a vrlo zamorni dio posla, izračun prvoga doprinosa polazi od:

Hašek je obradi 30.000.000 autorskih kartica teksta, pa računajte.

Opseg korpusa svi knjiga tiskanih od Gutenberga do 2010. godine broji 18,2 Tpojavnica [5], iz čega slijedi procjene da sve knjige ikada tiskane na hrvatskome tvore korpus čiji opseg ne premašuje 20 Gpojavnica. Opseg hrvatskog n-gramskog sustava, mjeren pojavnicama, računa se iz podataka posljednjega stupca Tablice 2. na sljedeći način:

5i = 1 (broj_i_grama) · (i + 1) = 20,2 Gpojavnica

i na tome se temelji navedena veličina drugoga doprinosa.

Hašek je ovoliko opstao zahvaljujući uplatama manje od jednog promila njegovih korisnika, koji ga rabe ili su ga rabili u profesionalne svrhe. Skrb o usluzi počiva na leđima aktualnog dekana FER-a i njegovog umirovljenika, čije je zdravlje dobrano narušeno. Srećom, obojica još dišu.

Što nije napravljeno?

Vijest o postojanju hrvatskog n-gramskog sustava potaknula ja Francuze, koji rade na sustavu Ariane, da predlože da se njihov francusko-ruski par, razvijan od vremena kada je Francuska pod de Gaulleom napustila NATO, metodom samonadopunjavanja (engl. bootstrapping) pretvori u francusko-hrvatski par za strojno prevođenje. Prijedlog je djelovao zdravo, jer je nudio mogućnost da se u razumnom roku s malim ulaganjima dođe do visokokvalitetnog sustava za strojno prevođenje s francuskoga na hrvatski, i obrnuto. O kakvoj se kvaliteti prevođenja razmišljalo dovoljno govori podatak da je za benchmarking, tj. usporedbu pokazatelja kakvoće prevođenja, odabran Saint-Exupéryjev Le Petit Prince, kod nas davno preveden od strane jedne Splićanke kao Mali princ, potom u izdanju iz 2011. preimenovan u Malog kraljevića. Međutim, od zamisli se nije daleko stiglo, jer ni tražena sredstva za pokrivanje materijalnih troškova projekta nisu odobrena. Zašto?

Hrvatska politika, bilo koje vrste, nikada nije ozbiljno shvaćala Digitalnu deklaraciju međuovisnosti, političku najavu guglzoika napisanu od strane osobe koja je dobila Nobelovu nagradu za mir 2007. godine. Posebno je njezinu drugu točku:

„Moramo prevladati naše jezične barijere razvijajući stvarnovremenske sustave za strojno govorno prevođenje, tako da svatko na svijetu može razgovarati s bilo kim drugim“
ona doživljavala kao science fiction. Izravni dokazi s početka guglzoika za potkrjepu ove tvrdnje trebali bi se nalaziti u arhivima MZO-a, HAZU-a i IHJJ-a. Nešto svježiji, premda neizravni dokaz slijedi: Dostatno.

U govornotehnološkom segmentu (strojna tvorba govora, odnosno strojno pretvaranje govora u tekst) jednostavnija rješenja (strojna tvorba govora, upravljanje govorom) na hrvatskom tržištu nude slovenske i srpske tvrtke, jer hrvatskih tvrtki, koje bi im konkurirale, jednostavno nema. No, pravo vrhnje u ovom području bere Newton Technologies Adria, lokalna podružnica češke tvrtke, koja je nedavno Ministarstvu pravosuđa RH prodala sustav za pretvorbu kontinuiranoga govora u tekst „s pripadajućim specijaliziranim uređajima za diktiranje za 800 korisnika“ za 33,5 milijuna kuna. Uzalud svi prijedlozi davno upućeni Hrvatskoj zakladi za znanost da je nastupilo vrijeme za pokretanje projekata ciljanih prema razvoju hrvatskih govornotehnoloških proizvoda. Uzalud dokazivanja da se uporabljivi prototipovi sustava, kako za strojnu tvorbu govora [6], tako i za pretvaranje kontinuiranoga govora u tekst [7], dadu brzo napraviti, i to bez ikakvih financijskih ulaganja, samo temeljeno na dobrim domaćim podatkovnim podlogama i radu ne doktoranada, već diplomanata. Izgleda da je u Hrvatskoj isplativije sufinancirati tuđi nego poticati vlastiti tehnološki razvoj, čak i kada je u pitanju jezik bez kojega bi Hrvatska bila tek zemljopisna odrednica. Valja napomenuti da su prije 25 godina Česi i Hrvati dijelili istu razinu razvijenosti prirodnojezičnih tehnologija [8].

Zaključak

Prije 150 godina pokrenuta je izrada tzv. Akademijina rječnika, grandioznoga projekta koji je trajao preko 100 godina, da bi se pokazalo kako je hrvatski ravnopravan svim drugim europskim jezicima. U današnjoj su Europi svi jezici nazivno ravnopravni, no u stvarnosti su neki nešto ravnopravniji, kao u onoj poznatoj životinjskoj farmi. Za male narode, njihovu kulturu i identitet, nužno je stoga da u 21. stoljeću izbore, i putem jezičnih tehnologija, svoje mjesto pod suncem ravnopravnosti. Malo je područja nad kojima danas mali narod može iskazivati potpuni suverenitet kao što je to njegov jezik.

Jasno je da se od suvereniteta uvijek može odustajati, ako za to postoje valjani razlozi. Takva odustajanja imaju svoju cijenu i u pravilu počivaju na političkim procjenama. O cijenama je ovdje bilo nešto riječi, a za političke procjene Hašekov autor nije mjerodavan. Može samo iskazati svoju bojazan da će se hrvatskom jeziku do konca 21. stoljeća vratiti status Küchensprachea, kakav je imao prije Akademijina rječnika, odustanu li Hrvati od razvoja jezičnih tehnologija za vlastiti jezik. Ovaj rad upućuje da je takav scenarij, na autorovu veliku žalost, danas već na djelu. Čemu su se onda Strossmayer i toliki nakon njega uopće trudili, neki i ginuli?

DODATAK

Prikaz opsega pružene usluge po vršnim domenama

Budući da su nazivi vršnih domena uzeti iz američke baze, prikaz je pisan engleskim pravopisom.
  IP-domains (countries) #IP-addresses #Texts Corpus [tokens]
1.Afghanistan1412810,907
2.Albania6653,808652,605
3.Algeria20407,319
4.Andorra6225,172
5.Angola25194
6.Anonymous Proxy201,646330,606
7.Argentina104492168,571
8.Armenia74113,557
9.Asia/Pacific Region116713,578
10.Australia7387,5901,869,227
11.Austria7,019129,74125,148,812
12.Azerbaijan13262,868
13.Bahrain49279
14.Bangladesh71814,873
15.Barbados5402,865
16.Belarus327824,734
17.Belgium1,60825,4645,409,281
18.Belize729241,935
19.Bermuda1141
20.Bolivia109847,783
21.Bosnia and Herzegovina108,1221,491,045460,404,455
22.Botswana11510,887
23.Bouvet Island1742,037
24.Brazil212975196,390
25.British Virgin Islands3132,784
26.Brunei11928
27.Bulgaria30612,3591,272,561
28.Burkina Faso1119
29.Burundi316695
30.Cambodia11569591,950
31.Cameroon142283,891
32.Canada1,19043,2479,996,040
33.Cape Verde21063
34.Chile58309124,996
35.China3715,4981,344,131
36.Colombia5342885,234
37.Congo - Brazzaville18717
38.Congo - Kinshasa4304,419
39.Costa Rica227012,677
40.Côte d'Ivoire67826,673
41.Croatia1,155,34623,142,5196,313,123,913
42.Cuba4450
43.Curaçao11125
44.Cyprus4723651,506
45.Czech Republic89035,2827,002,622
46.Denmark56411,5651,799,119
47.Dominican Republic4311,114
48.Ecuador178310,697
49.Egypt8365226,395
50.El Salvador59915,377
51.Estonia1,50312,0573,123,082
52.Ethiopia1511628,273
53.Europe1,39896,95215,193,772
54.Faroe Islands311848
55.Finland2484,546962,307
56.France2,027109,25520,372,694
57.French Polynesia4146,946
58.Gambia111
59.Georgia3515627,077
60.Germany17,675293,47958,714,427
61.Ghana451,000
62.Gibraltar12444
63.Greece3571,533477,706
64.Grenada13409,442
65.Guadeloupe223,010
66.Guatemala5497,369
67.Guernsey13662
68.Haiti11163
69.Honduras1145
70.Hong Kong SAR China1751,239215,751
71.Hungary1,60118,1594,801,973
72.Iceland62299118,901
73.India3291,116334,232
74.Indonesia158522157,330
75.Iran3011721,279
76.Iraq7315120,819
77.Ireland2,09818,0914,936,897
78.Isle of Man55918,481
79.Israel133430137,631
80.Italy3,05049,3088,844,232
81.Jamaica113712,695
82.Japan2161,792322,026
83.Jersey12190
84.Jordan2766104,807
85.Kazakhstan3216721,420
86.Kenya34798101,094
87.Kuwait3712255,197
88.Kyrgyzstan6125,744
89.Laos196212,999
90.Latvia1231,118261,875
91.Lebanon12344,674
92.Liberia11,029284,667
93.Libya5124,655
94.Liechtenstein122,489366,166
95.Lithuania2,23612,5562,950,112
96.Luxembourg5394,4121,231,743
97.Macau SAR China381,206
98.Madagascar58833
99.Malawi14171692,180
100.Malaysia9833568,028
101.Maldives68357
102.Malta102924142,161
103.Martinique111,310
104.Mauritania232,790
105.Mauritius20516,205
106.Mexico1711,320358,737
107.Moldova1061,763499,313
108.Monaco2239044,370
109.Mongolia29204
110.Montenegro5,92174,41226,743,505
111.Morocco5922642,278
112.Mozambique4226,768
113.Myanmar (Burma)3162562,308
114.Nepal2110326,308
115.Netherlands2,29959,28215,222,549
116.New Zealand104988188,779
117.Nicaragua101812,338
118.Nigeria332,015232,345
119.North Macedonia1,65318,3344,433,953
120.Norway3605,4741,982,203
121.Oman11562848,591
122.Pakistan17794,449
123.Palestinian Territories117
124.Panama1923191,467
125.Paraguay115
126.Peru3522423,228
127.Philippines9538251,338
128.Pitcairn Islands12249
129.Poland2,35845,16712,304,620
130.Portugal4193,151778,821
131.Puerto Rico54012,507
132.Qatar931,815494,898
133.Réunion2231,959
134.Romania56719,1953,749,730
135.Russia5128,4871,759,307
136.Rwanda2290
137.Saint Kitts and Nevis34029,618
138.Saint Lucia22182
139.Satellite Provider411665
140.Saudi Arabia5343967,714
141.Senegal103857,054
142.Serbia9,67688,90958,941,003
143.Seychelles6242,8066,526,067
144.Sierra Leone126
145.Singapore158956707,089
146.Slovakia4669,8131,946,409
147.Slovenia12,774246,84633,146,688
148.South Africa78803225,069
149.South Korea8532352,287
150.South Sudan162,200
151.Spain1,38413,0146,896,783
152.Sri Lanka31467,340
153.Sudan6121,249
154.Suriname1173
155.Sweden1,82950,0947,935,319
156.Switzerland1,64727,3188,642,473
157.Syria59302
158.Taiwan5621464,589
159.Tajikistan22108
160.Tanzania379633,855
161.Thailand8093,3781,151,445
162.Timor-Leste11579,244
163.Togo11694
164.Tunisia137316,137
165.Turkey6313,9902,102,011
166.Uganda7173,342
167.Ukraine3374,7312,499,272
168.United Arab Emirates3361,600375,077
169.United Kingdom3,992142,48724,480,273
170.United States6,467266,98454,830,162
171.Uruguay6133,681
172.Uzbekistan819573
173.Vatican City6182,570
174.Venezuela35461
175.Vietnam3472,903465,490
176.Zambia8424,609
177.Zimbabwe125
TOTAL1,368,70226,701,3657,235,096,012
Last update: Mon Apr 1 08:19:41 CEST 2019

Prema dostupnim MaxMindovim GeoIP podatcima, hrvatska vršna domena raspolaže s ukupno 2.818.597 IP-adresa, od kojih dobar dio nije izravno dostupan krajnjim korisnicima interneta. Prema podatcima iz gornjega prikaza proizlazi da je 41 % hrvatskih IP-adresa koristilo Hašekovu uslugu, iz čega slijedi da je on nedvojbeno infrastrukturna usluga u Hrvatskoj. Uzimajući u obzir udio Hrvata u populaciji BiH te činjenicu da je 13 % bosanskohercegovačkih IP-adresa koristilo istu uslugu, zaključak se može protegnuti i na tu zemlju. Specifičnost Hašeka kao hrvatske infrastrukturne usluge jest ta da nikada nikakve veze nije imao, unatoč svim nastojanjima da se takav status promijeni, sa zaduženima za skrb o nacionalnim interesima. Izvjesno je da to tako ne može ići do u nedogled, ako ni radi čega drugoga onda radi smrtnosti njegova održavatelja.

Bilješke

[1] Bentley, J.: A Spelling Checker, Communications of the ACM, 28(5), 1985., str. 460.

[2] Dembitz, Š.: Funkcionalna leksikografija mrežnoga pravopisnog provjernika, Filologija, 58(2012), str. 55-98, HAZU, 2012.

[3] Uključuje i promet iniciran iz Republike Kosovo. Premda je po ISO-3166-1 standardu Kosovu već dodijeljena vršna domena KO, razdvajanje vršnih domena Kosova i Srbije još nije obavljeno.

[4] Citiranu poruku je 27. siječnja 2019. Hašeku (hascheck@fer.hr) uputila Tena Ćorić, osoba rođena i odrasla u Švicarskoj.

[5] Michel, J.-B., et al.: Quantitative Analysis of Culture Using Millions of Digitized Books, Science, Vol. 331, Issue 6014, pp. 176-182, 2011.

[6] Šoić, R.: Sinteza hrvatskog govora uporabom sustava Festival, diplomski rad br. 74, FER, Zagreb, 2010.

[7] Bajo, D., Turković, D., Dembitz, Š.: Rapid Prototyping of a Croatian Large Vocabulary Continuous Speech Recognition System, Proceedings of the IARIA, pp. 13-18, Curran Associates, Red Hook, NY, 2014.

[8] Dembitz, Š.: Automatizacija postupka otkrivanja grešaka u tekstu u novim telekomunikacijskim službama, doktorska disertacija, ETF-Zagreb, 1993., str. 5.