KESKUSTELUT > MUUT AIHEET > SEITSEMÄN VELJESTÄ NETISSÄ

8476. Seitsemän veljestä netissä

iso S11.6.2015 klo 17:24
Matias-Myyrä on keksinyt alkukirjainketjuun omaperäisen idean. Hän etsii Seitsemästä veljeksestä jatkosanaan soveltuvia lauseenpätkiä. M-M kuvailee tekniikkaansa säikeessä
8428. Alkukirjainketju - 301
ja kertoo, että teos löytyy mm. osoitteesta
_http://www.gutenberg.org/cache/epub/11940/pg11940 .txt

Sieltä minäkin aikoinaan sen lienen imuroinut, mutta jos näin on niin sitten sisältöä on reippaasti siivottu. Vanhassa oli niin paljon skannausroskaa ja hulluja väliviivoja (en-­nenkuin joutui laitumeksi, halkileik-­kaama, oli-­vat). Ne eivät olleet tavuviivoja (Ascii-koodi 45) vaan jonkinlaisia tavuviivan ja rivinvaihdon yhdistäviä merkkejä (koodi 173), joita Muistio ei kuitenkaan rivinvaihdoksi tunnistanut. Tänne kopioidessa merkki näyttää katoavan ja tavuviiva täytyy lisätä itse.

Löysin kilpailevan version osoitteesta
_http://eiskis.net/seitsemanveljesta/

Se on parempi kuin aiemmin löytämäni, mutta virheitä on enemmän kuin (nykyisessä) Gutenbergissa. Siitä puuttuu mm. yksittäisiä sanoja ja kokonaine lausekin on paikoitellen kadonnut.

Molemmissa on virheitä jotka menevät skannuksen piikkiin, esimerkiksi pieni l ja iso I menevät paikoitellen sekaisin. Joissakin fonteissa ne ovatkin kovin samannäköiset. Ä:n pilkkujen katoaminenkin voi syntyä skannerissa (toisessa "luullakseni on jotenkin näpäkässä", toisessa "luullakseni on jotenkin napakassa". Lisäksi molemmissa on havaittavissa merkkejä editoinnista, joten kumpikaan ei välttämättä vastaa painettua kirjaa täydellisesti. Voihan kirjan painoksissakin olla eroja. Kirjoitusasuja on saatettu modernisoida. Oli miten oli, Gutenberg-versiossa tuijotetaan siinä missä toisessa versiossa tuijoitellaan.

Aika rajusti merkitys muuttuu, kun Gutenbergissa Juhani toteaa "Niin, niin! ei nyt muuta tällä erällä kuin nai­maan kaikkia yhtaikaa niinkuin pojat" ja toisessa "Niin, niin! ei nyt muuta tällä erällä kuin nai­maan kaikki yhtaikaa niinkuin pojat".

Joissakin tapauksissa on helppo päätellä, kumpi versio on oikeassa. Joskus se on vaikeaa, ellei jopa mahdotonta, ellei ole painettua kirjaa käsillä. No ei ole! Jos toinen on sitä mieltä että "viimeinpä toki istuivat veljekset kotonsa avarassa tuvassa" ja toinen "viimeinpä toki istuivat veljekset kotona avarassa tuvassa", nykyihminen kallistuisi uskomaan jälkimmäistä mutta alkuperäinen versio ilmeisesti on kuitenkin se ensimmäinen.

Siitä vaan vertailemaan, jos on järkevän tekemisen puutetta!

Oma kokeilu selvitti ainakin sen, että on enimmäkseen pakko tyytyä nappailemaan noin 3 sanan pätkiä. Vaikka teoksessa on yli 80000 sanaa, niistä ei kuitenkaan löydy tarvittavia kombinaatioita pitempien AKK-sanojen tuottamiseen.
2. iso S11.6.2015 klo 18:01
Samaan syssyyn voin paljastaa, millaisella metodilla kertaalleen kokeilin Matias-Myyrän käpälänjäljissä kulkemista.

Minulla oli ennestään Excel-makro, joka poimii tekstistä sanat sanalistaksi. Se ei ole täydellinen, esimerkiksi Gutenbergin sitaattimerkkinä käyttämä » ei kuulunut sen hyväksymiin erottimiin, joten tuollaisten välissä olevat sanat tulkittiin soopaksi. Joka tapauksessa makro on sen verran momnimutkainen että parempi on käyttää Matias-Myyrän konstia. Oletetaan, että meillä on käytettävissä Excel, tuo ihmisen lähes paras ystävä, ja keinolla millä hyvänsä aikaansaatu sanalista sarakkeessa A, alkaen riviltä 1.

Nyt kirjoitetaan soluun haettava merkkijono, esimerkiksi hei (turha koettaa kovin pitkiä) ja soluun B2 kaava
=PITUUS(B1)
jolloin soluun syntyy tieto haettavien merkkien lukumäärästä.

Soluun C1 kopioidaan ensimmäisen sanan alkukirjain kaavalla
=VASEN(A1;1)
ja solusta C2 alkaen ryhdytään rakentamaan halutun mittaisia merkkijonoja kaavalla
=OIKEA(KETJUTA(C1;VASEN(A2;1));$B$2)
Tämä kaava kopioidaan solusta C3 alkaen C-sarakkeelle niin pitkälle kuin sanalistassa on sanoja. Ketjuta-funktiolla koplataan aiemmin kasattuun merkkijonoon rivillä olevan sanan alkukirjain (saadaan Vasen-funktiolla) ja Oikea-funktiolla pätkäistään halutun mittaiseksi eli ensimmäinen kirjain likvidoidaan, jos haluttu pituus on ylitetty.

Loppusilauksen valmistelemiseksi numeroidaan rivit sarakkeelle D. Tämän voi tehdä monella tavalla; yksi tapa on laittaa soluun D1 ykkönen, soluun D2 kaava =D2+1 ja kopioida tuo kaava alaspäin sanalistan pituuden mukaisesti.

Nyt päästään asiaan: esimerkiksi soluun B3 tai mihin tahansa toistaiseksi käyttämättömään paikkaan kaava
=PHAKU(B1;C:D;2;EPÄTOSI)
ja kuin ihmeen kaupalla soluun ilmestyy sen rivin numero, jossa on sarakkeessa C haluttu merkkijono (jos sellainen löytyy) tai teksti #PUUTTUU! (jos merkkijonoa ei löydy).

Esimerkkitapauksessani (hei) rivinumero on 4857 ja siltä riviltä löytyy hei. Tuon tuottavat sanat päättyvät kyseiselle riville ja ovat "hampaisinsa ellemme itsiämme" lauseesta "kruunun kone meitä vartoo ja meitä mielii temmaista hampaisinsa, ellemme itsiämme opeta kiltisti lukemaan".

Kaavat mukautuvat automaattisesti etsittävän merkkijono pituuteen. Esimerkiksi "kuka" antaa rivinumeron 1996 ja sanat "karja uhkea karja antakoon", joka ei viittaa mihinkään rikoslaissa tarkoitettuun vaan lauseeseen "Ensiksi käykäämme lannan kimppuun niinkuin sontiaiset, ja paukahtelkoon havutukki Jukolan nurkissa aamusta iltaan; karja, uhkea karja antakoon moskaa puolestansa korotteeksi myös".
3. iso S16.6.2015 klo 20:05
Gutenberg-versiosta löytyi pulska aurinko.

Lausui neito: "eikä aurinko läskeissänsä heitä niin armasta jäähyväis-silmäystä maailmallensa..."

Löysin kolmannen version.

_www.cs.helsinki.fi/u/ehjelm/cee/harkka/7.txt
Tämä lienee samaa perua kuin "eiskis", mutta kulkenut jonkun merkkimuunnoksen kautta. Skandit menneet rikki ("Jukolan talo, eteläisessä Hämeessä, seisoo erään mäen pohjoisella rinteellä, liki Toukolan kylää." ja ylimääräisiä pöpöjä ilmestynyt ("Tässä olkoon kerrottu eräs tapaus veljesten lapsuudes­ta").

Nuo kummallisuudet on tietysti mahdollista hoitaa muutamalla korvaa-tempulla (Â:t pois, ä:t ä:ksi jne.)
KOMMENTOI

Pakolliset kentät merkitty tähdellä *