# TYÖARKKI 5. # # Kaksisuuntaisen epätasapainoisen koeasetelman analyysi. # # The Independent lehti julkaisi aineiston (6.10.1991). # Siinä on eräiden parhaiten myyvien kirjojen hintoja (puntina) 5 maassa. # Sarakkeet ovat UK, Germany, France, US ja Austria. # Aineisto on tiedostossa "Bookpr". # Tässä aineistossa on puuttuvia arvoja (missing values). # NA tarkoittaa taulukossa puutuvaa arvoa. # Käytetään "na.action ..."-optiota poistamaan nämä puuttuvat arvot, jolloin # saadaa epätasapainoinen (unbalanced) asetelma. Tälla seikalla on merkittäviä # seurauksia: tietyt parametrijoukot eivät ole enää ortogonaalisia. # # #Here is the data from # # bookprices # #14.99 12.68 9.00 11.00 15.95 S.Hawking,"A brief history of time" #14.95 17.53 13.60 13.35 15.95 U.Eco,"Foucault's Pendulum" #12.95 14.01 11.60 11.60 13.60 J.Le Carre,"The Russia House" #14.95 12.00 8.45 NA NA J.Archer,"Kane & Abel" #12.95 15.90 15.10 NA 16.00 S.Rushdie,"The Satanic Verses" #12.95 13.40 12.10 11.00 13.60 J.Barnes"History of the world in ..." #17.95 30.01 NA 14.50 22.80 R.Ellman,"Oscar Wilde" #13.99 NA NA 12.50 13.60 J.Updike,"Rabbit at Rest" # 9.95 10.50 NA 9.85 NA P.Suskind,"Perfume" # 7.95 9.85 5.65 6.95 NA M.Duras,"The Lover" # #The Independent kysyy "Ovatko kirjat ulkomailla kalliinpia?" # # sink("A:\\Kurssit\\TMallit\\Rscripts\\TA5.txt") # komennolla voidaan tulostus ohjata tiedostoon # # Teksti on poistettava tiedostosta, ennen kuin se voidaan lukea scan()-#funktiolla p <- scan("A:\\Kurssit\\TMallit\\Datat\\Bookpr.txt") cou <- scan(,"") UK Ger Fra US Austria # syöttö lopetetaan tyhjällä rivillä country <- gl(5,1,50,labels=cou) author <- gl(10,5,50) author <- factor(author) lmunb <- lm(p ~ country + author, na.action=na.omit); summary(lmunb) lmunb1 <- lm(p ~ country, na.action=na.omit); summary(lmunb1) # Huomaa että "country"-parametrit malleissa lmunb ja lmunb1 poikkeavat toisistaan # resid <- lmunb$residuals resid # vähemmän kuin 50 alkiota! plot(country,resid) # Tulee varoitus, koska resid sis. vähemm. kuin 50 alkiota plot(country[!is.na(p)],resid) # ottaa huomioon puuttuvan datan ongelman unbaov <- anova(lmunb <- lm(p ~ country + author, na.action=na.omit)) summary(unbaov) lm(p ~ country + author, na.action=na.omit) # Tarkastele tätä ja seuraavia kahta anova(lm(p ~ country + author, na.action=na.omit)) # anova-tulostusta anova(lm(p ~ author, na.action=na.omit)) # Tarkastele erityisesti epätsapainoisuuden vaikutuksia parametrien # estimaatteihin. # Onko hintamuuttujan asteikko sopiva? Kokeile log-muunnosta. lp <- log(p) lmunblp <- lm(lp ~ country + author, na.action=na.omit); summary(lmunblp) qqnorm(resid(lmunb)) qqnorm(resid(lmunblp)) # Kumpi on sopivampi asteikko? # Kun selitettävänä muuttujana on hinta (raha), niin multiplikatiivinen # malli sopii sopii usein paremmin kuin additiivinen. Tarkastele tätä # väitettä lähemmin. # # Toinen aineisto # Seuraavassa toinen aineisto, joka mistuttaa rakenteeltaan "Bookpr"-aineistoa. # Aineistossa sarakkeilla on tuotteiden hintoja eri myyntipaikoissa. # Aineisto on tiedostossa "Dutyfree". # # Onko hinnoissa eroa eri paikkakuntien välillä? Analysoi aineisto. # # An ubalanced two-way array. # # Under the headline # `Afloat on a sea of alcohol, the booze cruisers bid last farewell to duty-free' # The Independent of 28 June, 1999, gives the Table below. # # `Booze and Fags: the relative cost' # 200 Benson & Hedges # special filter cigarettes 16.95 16.99 35.99 20.00 NA # 1 litre Smirnoff vodka 9.99 10.74 10.39 11.00 10.25 # 1 litre Gordon's gin 10.25 8.29 10.69 11.35 9.99 # 5 X 50 gm Golden Virginia 13.95 13.99 38.15 9.65 NA # rolling tobacco # 24 X 440 cans Stella Artois 11.95 20.80 23.96 9.25 9.67 # 24 X 440 cans Guinness 15.75 22.95 22.74 11.90 15.83 # # Here the column headings (ie place of sale) are P$\&$O Stena (on board ship), # BAA (airport duty free), Tesco (UK, high street), Eastenders (Calais, cash $\&$ carry), # and Wine $\&$ Beer Co (Calais, cash $\&$ carry).