KESKUSTELUT > MUUT AIHEET > AKK 1-100, TILASTOTIETOA

3418. AKK 1-100, tilastotietoa

iso S22.5.2007 klo 23:23
Tilastohullujen onnenpäivä on koittanut?

Ihmisjärjellä selittämättömin ponnisteluin on salaisessa laboratoriossa restauroitu alkukirjainketjun näköispainoksen evoluutioversio, jossa on häivytetty kaikki harharetket ja väärin jatketut on korjattu mahdollisimman pienin viilauksin niin että tuloksena on säännöt täyttävä yhtenäinen ketju.

Tässä tulee korjattuun versioon liittyvää tilastotietoa:

Ketjussa on 23275 viestiä 250 lähettäjältä. Lähettäjien joukkoon on laskettu "korjaaja", joka joutui pujottamaan jälkikäteen 15 uutta viestiä sellaisissa tilanteissa missä vääriä jatkoja ei pystynyt muuten parsimaan.

Viestien yhteispituus on 2183348 merkkiä ja keskipituus 93.81 merkkiä. Jatkosanojen keskipituus on 9.85 kirjainta.

Lyhin jatkosana on A ja pisin 44-kirjaiminen alkoholilainsäädäntöuudistusvaliokuntamiehet.

Jatkosanan pituuksia 7-11 oli kutakin yli 2000. Eniten oli 9-kirjaimisia, 2715 kappaletta. 8- ja 10-kirjaimiset olivat aivan tuntumassa, 2696 ja 2690 kappaletta.
2. iso S22.5.2007 klo 23:24
Lähettäjien Top 100:

1. RA: 4773
2. Arska: 2842
3. Eki: 2218
4. mor: 1916
5. matts: 1370
6. Juhani Heino: 1194
7. Pena: 944
8. iso S: 926
9. kirre: 875
10. Jaska: 824
11. Tsööts: 558
12. jupejus: 421
13. Matias-Myyrä: 272
14. TT: 267
15. Miimu: 249
16. marjaana: 236
17. Sakke: 227
18. tero: 209
19. Olavi Kivalo: 161
20. Arja: 131
21. korppi: 131
22. Sari: 129
23. Egon: 120
24. Ari: 116
25. Kaitsu: 113
26. Libero: 113
27. tapiiri: 112
28. Hakro: 109
29. Urputtaja: 105
30. Juha-Pekka Kuusela: 99
31. Heljä-Maija: 94
32. Juha N: 91
33. Artsi: 79
34. Eleth: 71
35. Sini: 71
36. JPQ: 61
37. Tupu: 61
38. Jyrki: 60
39. tonimikael: 57
40. corona: 53
41. Ritu: 50
42. Timppa: 46
43. Suzie Q: 45
44. larza: 43
45. Taata: 41
46. mariisa: 36
47. kummeli: 28
48. Hui_hai: 27
49. Nanna: 22
50. Teppo: 20
3. iso S22.5.2007 klo 23:26
(siis Top 50. Ei satunnaisia turisteja listata!)

Jatkosanojen Top 50:

1. ainakin: 76
2. nyt: 72
3. normaalia: 50
4. aina: 46
5. anteeksi: 45
6. nopeasti: 45
7. arska: 41
8. niin: 41
9. normaalisti: 39
10. ihmettelen: 38
11. alvariinsa: 36
12. aivan: 34
13. ilmeisesti: 34
14. normaali: 34
15. asiaa: 33
16. noin: 33
17. ainoastaan: 32
18. nettiin: 31
19. nytkin: 31
20. arvelisin: 30
21. näin: 30
22. ihminen: 28
23. ajatuksia: 27
24. iltaisin: 27
25. arvelen: 25
26. nautin: 25
27. nukkumaan: 25
28. aamulla: 24
29. asti: 24
30. ihan: 24
31. ahkerasti: 22
32. naurattaa: 22
33. auttaa: 21
34. itsekin: 21
35. ahdistaa: 20
36. ajatella: 20
37. antaumuksella: 20
38. ihanaa: 19
39. ajoittain: 18
40. alituiseen: 18
41. ei: 18
42. ilmoille: 18
43. netissä: 18
44. akkssa: 17
45. antaa: 17
46. armoa: 17
47. ilmaiseksi: 17
48. itselleni: 17
49. noloa: 17
50. aiheesta: 16
4. iso S22.5.2007 klo 23:37
Erilaisia jatkosanoja oli 15975. Ketjuilijoiden mielikuvitus ei ole osoittanut hiipumisen merkkejä koska sanat ovat esiintyneet keskimäärin vain 1.46 kertaa.

Pyöristellen voi sanoa että jatkettavaksi tarjottu sana on ollut kaksi kertaa kolmesta uusi ja joka kolmannella kerralla aiemmin käytetty. Tehkääpä vastaava laskelma jonkin saippuasarjan käsikirjoituksesta - veikkaan että toistoa on huomattavasti enemmän:

- Meidän pitää puhua.
- Pitääkö meidän puhua?
- Kyllä, meidän pitää välttämättä puhua.
- Mistä meidän pitää puhua?
- Juuri siitä meidän pitää puhua.
- Onko nyt oikea aika puhua siitä?
- Siitäkin meidän pitää puhua.
- Pitäisikö meidän ensin puhua siitä?
- Mistä sinä oikein puhut, senkin manipuloiva roisto?
5. matts23.5.2007 klo 09:08
Noiden salkkareiden yms. käsikirjoittajien olisi syytä lukea Tractatuksen loppu ja tuo mietittävä erityisesti sitä 7. lausetta.
6. RA23.5.2007 klo 14:02
Kiitos tilastoinnista, iso S! On todella tärkeää, että tämän mittaluokan kulttuuriteot tulevat dokumentoiduksi.

Laskeskelin, että noita "normaali"-alkuisia jatkosanoja on yhteensä 123, joten JOS ne kaikki ovat minun, olen käyttänyt tuota sanaa vain noin joka 39. viesti! Ja niin kuin siitä on naristu, että toistelen sitä alinomaa eli alvariinsa!

Enhän siis toistele! Ainakaan normaalisti! :-)
7. iso S23.5.2007 klo 14:48
Jalat maahan eli eipäs hypätä johtopäätöksiin! Toivorikkaassa päätelmässäsi on nähdäkseni kaksi virhettä ja pitämätön jossittelu.

Yleisimpien jatkosanojen Top 50 kattaa vain 1453 viestiä. Lopuissa 21822 viestissä voi hyvinkin olla puuttuvat 4650 normaali-alkuista sanaa.

Toisekseen, ethän ole välttämättä sijoittanut normaali-sanaa viimeiseksi, vaan olet saattanut yrittää kiertää tilastohaavia käyttämällä sitä viestin alussa tai keskellä.

Jossittelu ei pitäne paikkaansa koska muistan ihan selvästi jonkun muun käyttäneen ainakin kerran normaali-sanaa. Voi tietysti olla että tämä poikkeusnormaali on niiden viestien joukossa jotka piti hylätä syystä tai toisesta, jos ei juuri siksi että on menty käyttämään varattua sanaa.

Muitakin viekkaita tapoja kätkeä normaali on olemassa, kuten hämäävän alun käyttäminen ja sanan pilkkominen: epänormaali, paranormaali, keskinormaali, Norma ali! (kannustushuuto limboavalle Norma Jean Bakerille), n o r m a a l i, puhumattakaan tahallisista väärinkirjoituksista (mornaali, normali) joilla tilasto-ohjelma uunotetaan ihan normaalikebabille. Kierouden huipun tuntumassa voisivat olla normaaIi (huom. iso I-kirjain pienen l-kirjaimen tilalla) ja N0RMAALI (nolla ei pistä silmään kun käyttää suuraakkosia).
8. iso S23.5.2007 klo 15:05
RA, kuponkien alustavan tarkastuksen mukaan viesteissä on esiintynyt teksti 'normaali' 408 kertaa jossakin kohtaa, itsenäisenä tai sanan osana. Niin uskomattomalta kuin täydellinen tasapuolisuus tuntuukin, samaisen laskelman mukaan niistä tasan puolet (204) on sinun ja loput muiden.

Tällä koneella minulla on käytettävissä keskeneräinen versio siivotusta ketjusta joten tulos on suuntaa-antava, mutta en usko sen poikkeavan kovin olennaisesti oikeasta.
9. RA23.5.2007 klo 15:15
No niin. Kuten normaalia, tein normaalittomia / epänormaaleja / abnormaaleja johtopäätöksiä.

=> Köyhä RA (tavallinen)?
10. RA23.5.2007 klo 15:20
Siis: Noin joka 23. viesti. Lähenee jo normaalisti ilmaistuna tautologiaa! ;-)

Mutta kai normaalisti normaalisti saa asiansa ilmaista edelleenkin?
11. iso S23.5.2007 klo 18:06
Tarkistettu tulos: 207/413. Nyt meni Kekkosmaisella marginaalilla enemmistön puolelle. Voitto kotiin, sanoi Raatikaisen vaimokin!

Jatkoluvan perusteluksi käynee vanha roomalainen normaalisanonta: Quius regio, eius religio. Tähän soveltaen: kenen viesti, sen normi. Tuomio voi muuttua hovissa jos yleinen tai yhtäläinen syyttäjä valittaa, mutta sehän on normaalia!
12. jupejus23.5.2007 klo 19:31
Oliko tuossa tilastossa tutkittu käytettyjen eri kirjaimien määriä. Epäilen konsonanteissa ännän olevan keulilla.
13. Juhani Heino23.5.2007 klo 22:28
Tsemppiä muille! Nimittäin en ole enää jaksanut osallistua paitsi joskus vaihtanut säiettä, mutta edelleen olen kuudentena. Siispä haaste: pääseekö joku muu ohitseni ennen isoa S:ää? Pena saattaisi piristyä uudelleen, ja Jaskallakin olisi vielä ihan hyvät mahikset...
14. iso S23.5.2007 klo 23:47
Ei ole kirjainten määriä tutkittu mutta voin joku kaunis sadepäivä laskea. Pitää ensin ottaa hormonipiikki että saan kasvamaan pari miljoonaa uutta sormea!
15. iso S24.5.2007 klo 09:42
No niin, pyöritin kirjaintilastoja. Luvut ovat prosentteina ja rumat etunollat on lisätty jotta sarakkeet pysyisivät edes suunnilleen linjassa.

1. sarake: osuus kaikissa sanoissa
2. sarake: osuus sanojen alkukirjaimissa
3. sarake: osuus sanojen loppukirjaimissa
4. sarake: osuus jatkosanoissa
5. sarake: osuus jatkosanojen alkukirjaimissa

A: 13.9154, 14.3019, 24.5741, 16.2791, 33.9459
B: 00.0755, 00.1310, 00.0031, 00.1220, 00.0043
C: 00.0286, 00.0399, 00.0129, 00.0388, 00.0260
D: 00.7174, 00.6488, 00.0415, 00.6007, 00.0390
E: 07.8280, 07.7273, 05.0979, 07.6439, 06.9175
F: 00.0593, 00.0941, 00.0129, 00.0885, 00.0130
G: 00.1369, 00.1847, 00.0286, 00.1761, 00.0477
H: 01.8450, 01.6976, 00.3585, 01.5844, 00.5331
I: 13.2126, 12.7363, 13.2712, 12.9226, 14.8838
J: 00.9930, 01.2439, 00.0076, 01.1137, 00.0217
K: 05.2097, 05.7376, 00.1000, 05.1514, 00.1517
L: 06.1431, 06.3401, 00.0670, 05.7239, 00.0780
M: 02.9833, 03.2247, 00.1022, 02.9099, 00.1257
N: 09.1197, 07.4273, 31.6019, 09.3125, 26.2006
O: 04.7061, 05.0696, 03.1585, 04.7683, 02.1325
P: 01.2904, 01.3961, 00.0165, 01.2603, 00.0217
Q: 00.0045, 00.0069, 00.0098, 00.0070, 00.0130
R: 02.4299, 03.4518, 00.1415, 03.1469, 00.1604
S: 07.4677, 07.8421, 02.8737, 07.3039, 02.5962
T: 09.9410, 10.1673, 07.1988, 09.6859, 05.5348
U: 04.7032, 05.0839, 01.2915, 04.7379, 01.4173
V: 01.8168, 01.9365, 00.0174, 01.7395, 00.0173
W: 00.0100, 00.0099, 00.0107, 00.0101, 00.0087
X: 00.0084, 00.0128, 00.0098, 00.0128, 00.0130
Y: 01.2308, 01.1286, 00.4996, 01.0441, 00.3294
Z: 00.0081, 00.0103, 00.0009, 00.0097, 00.0043
Å: 00.0019, 00.0039, 00.0004, 00.0035, 00.0000
Ä: 03.6726, 02.0961, 08.8457, 02.3560, 04.5466
Ö: 00.4409, 00.2488, 00.6455, 00.2466, 00.2167

Jatkosanojen loppukirjaimia ei kannata tilastoida, koska se on pientä heittoa lukuunottamatta sama kuin alkukirjaimissa. Jatkosanan loppukirjainhan on sama kuin seuraavan seuraavan jatkosanan alkukirjain. Ero tulisi (ellei ketju katkea) vain 1. jatkosanan alkukirjaimesta ja viimeisen jatkosanan loppukirjaimesta ja nämäkin voisivat tuurilla olla samat.

Tutkin jatkosanat erikseen koska arvelin että niiden kirjainjakauma saattaa poiketa normaalista. Epäily oli oikea. Esimerkiksi A-pitoisuus oli koholla ja Ö-pitoisuus kuopalla. Kirjainten keskinäiseen yleisyysjärjestykseen ei kuitenkaan tullut dramaattisia muutoksia.

N ei ollut yleisin konsonantti, T meni ohi. Kirjainten yleisyysjärjestys oli
AITNESLKOUÄMRHVPYJDÖGBFCWXZQÅ (kaikki)
AITNESLKOURMÄVHPJYDÖGBFCXWZQÅ (jatkosanat)
AITSENLKUORMÄVHPJYDÖGBFCXZWQÅ (alkukirjain)
AITSENLKUORMÄVHPJYDÖGBFCXZWQÅ (loppukirjain)

Suunnilleen sama, mutta N haluaa näköjään olla mieluummin keskustassa kuin ääripäissä. Sen kanssa vaihtaa paikkaa iso S joka viihtyy paremmin syrjässä! Lievästi kummallista on se että U pyrkii reunalle hanakammin kuin O. Tätä ei voisi arvata kun ajattelee esimerkiksi kyseistä ilmiötä kuvaavaa sanaa 'outo'. Ryhmässä ÄMRHV esiintyy myös pientä liikehdintää.

Saksalainen Ü ja erilaiset aksenttimerkit jätin pois. Niiden osuus on pieni, alle Å:n per lurjus, mikä on hyvä. Let's tala suomea, bitte!
16. Jukkis24.5.2007 klo 11:26
Noita voi verrata vaikka täältä
http://www.cs.tut.fi/~jkorpela/kielikello/kirjtil. html
löytyvään aineistoon. Jos ei parempaa tekemistä keksi.
17. jupejus24.5.2007 klo 11:30
A ja I ovat tunnetusti paljon käytettyjä kirjaimia. T on yleinen ristikoissa ja yleensäkin teksteissä, mutta kummasti meni vaan ännän ohi. N on jotenkin kummastuttanut yleiskirjaimena akk:ssa, mutta selittynee tuolla sanan viimeisellä kirjaimella (31.6019).

J on kumman vähän käytössä, vaikka normaalitekstissä j:tä siksikin.

Todellista harhaa tuo myös Ä:n karttaminen. Ä, kun tuntuu että haluais tupsahtaa lauseeseen kuin lauseeseen, mutta sen käytölle ei ole liputettu kovin.

Hyvät on iso S:llä doupinkiaineet ; )
18. iso S24.5.2007 klo 14:13
Enimmäkseen AKK-kieli näyttää muistuttavan varsin hyvin kirjakieltä. Prosenttilukuja vertaillessa eniten eroa tulee A- ja I-kirjaimissa. Kirjakielessä on A:ta 2.02 prosenttiyksikköä vähemmän ja I:tä 2.57 prosenttiyksikköä enemmän kuin AKK:ssa. Kaikki muut mahtuvatkin alle yhden prosenttiyksikön eron sisään.

Harvinaisilla kirjaimilla tuo ei olekaan ihme, onhan kirjaimista tusinan verran että niitä on alle prosentin tiheydellä. Niiden tilannetta kuvaa paremmin suhdeluku, vaikkapa kirjakieli per AKK, sadalla kerrottuna jolloin vertailuluvuksi tulee 100 jos molemmissa näytteissä taajuus on sama. Melko kauniisti luvut asettuvat satasen tuntumaan. Jupejusin kummastelema J nousee omaan luokkaansa, sen suhdeluku on 192. Kirjakielessä on siis lähes kaksinkertainen määrä J-kirjaimia AKK-kieleen verrattuna. Tästä voimme päätellä että jupejus on pikemminkin kirjakieltä kuin AKK-kieltä!

Korpelan aineisto on hiukan suurempi kuin AKK-ketju. Siinä on lähes 2.5 miljoonaa kirjainta ja AKK-näytteessä noin 1.86 miljoonaa. Korpelan mukaan W ja X eivät kuulu kirjakieleen ollenkaan. AKK:ssa niillä on prosentin sadasosan verran kannatusta.
KOMMENTOI

Pakolliset kentät merkitty tähdellä *