Diskuse s wikipedistou:Nom~cswiki
Přidat témaStatistika
[editovat zdroj]
Moje postupy
[editovat zdroj]Základní charakteristiky
Nastaveni pracovního adresáře
setwd("F:/STGST_ZKOUSKA")
Nahrát data přes Import Dataset
data2 <- read.table("Adresa dat", header=T, quote="\"")
Vypočítat průměr
mean(data[,3]) // třetí sloupec
Minimum a maximum
min(data[,3]) a max(data[,3])
Rozsah = rozdíl mezi nejvyšší hodnotou a nejnižší
max(data[,3]) - min(data[,3])
Variaci=rozptyl
var(data[,2],)
Směrodatná odchylka
sd(data[,3])
Medián, prostřední hodnota v datech, ve sloupci z
median(data1[,3])
library(e1071) //sikmost spicatost
Šikmost
skewness(data[,3])
Špičatost
kurtosis(data[,3])
Celkové zhodnocení
summary(data[,3])
Kde je Min= minimum, první kvartil=3342, Střední hodnota=4647, 3 kvartil=6685
IQR (data1[,3])
IQR – 3342.254 //IQR
Iqrje důležitá součást numerických charakteristik –mír variabilit
GRAFY
Barplot- znazornuje nám velikosti jednotlivých entit(bodů- o velikosti Z, která je promítnutá na Y ose)
barplot(data[,3])
Histogram- znázorňuje výskyt dat v intervalech. Můžeme vidět, že největší výskyt je okolo hodnoty 2500 a poté klesá.
hist(z)
Boxplot-krabicový graf- znázorňuje nejnižší hodnotu spodní úsečkou ( Outliery) a nejvyšší hodnotu a graficky vizualizuje numerické data pomocí kvartilů, mezikvartilové rozpětí je 3700.
Prostřední černá úsečka nám vykresluje střední hodnotu (median)
boxplot(z)
Qqplot
zapnutí knihovny car – bez toho nelze vytvořit qq plot
qqPlot(data1[,3])
REGRESE
[editovat zdroj]Nahrajeme data2.txt
Zjistíme složení (attach(data2))
View(data2)
attach(data2)
cor(data2[,1], data2[,2])
kvm <- lm(Var1 ~ Var2 + I(Var2^2), data = data2)
kvm
summary(kvm)
plot(kvm)
plot(Var1 ~ Var2, pch = '*')
abline(kvm, col = 'red')
Var1 ~ Var2 + I(Var2^2) – regresní rovnice
Coefficients:
(Intercept) Var2 I(Var2^2)
-2.177e+00 -5.845e-01 -2.616e-05
Pi-value nám udavává že model je pravdivý <0.05. Z grafu lze vyčíst, že je zde málo extrémů, regresivní přímka nám ukazuje na vztah mezi proměnnými
KVADRATICKÁ REGRESE
View(data2)
Zjištění korelace – vzájemného vztahu
Dle korelace mají hodnoty velký záporný vztah
cor(data2[,1],data2[,2])
kvm<- lm(X ~ Y + I(Y^2), data = data2)
plot(X ~ Y, pch = '*')
abline(kvm, col = 'red')
Regresní rovnice
X ~ Y + I(Y^2)
Anova
[editovat zdroj]Vytvoříme nový sloupec a vložíme do něj číslo ve kterém se nachází
data[,5] <- 0
attach(data)
Přiřadíme podle kvadrantu
a <- quantile(x, probs = c(0.5))
b <- quantile(y, probs = c(0.6))
data[,5] <- ifelse(x < a[1], 1, ifelse(y < b[1], 2, 3))
data[,5] <- as.factor(data[,5])
table(data[,5])
anova <- aov(z~data[,5], data = data)
anova
plot(TukeyHSD(anova))
Anova nám dokázala, že je rozdíl mezi hodnotami sloupce Z v závisloti na skupinách.
Pomocí grafu Tukey HSD vykreslíme rozdíly mezi průměry v hodnotách 1-3 ve skupinách
POKUSY
Vytvorim si novy sloupec
data1[,4] <- 0
rozdelim data podle sedmého decilu osy x a podle medianu osy y
a <- quantile(X, probs = c(0.7))
b <- median(Y)
urcim si podminku a pote data nahraju jako faktor
data1[,4] <- ifelse(x < a[1]&y>b[1], 1, ifelse(x < a[1]&y<b[1], 2, 3))
data1[,4] <- ifelse(x < a[1]&y>b[1], 1, ifelse(x < a[1]&y>b[1], 2, 3))
data1[,4] <- as.factor(data1[,4])
anova <- aov(z~data1[,4], data = data1)
plot(TukeyHSD(anova))
Kriging
[editovat zdroj]Nejprve zjistím, zda mají hodnoty normální rozdělení (>0.05) (qqPlotem nebo Shapiro)
shapiro.test(data[,3])
W = 0.8415, p-value < 2.2e-16
data: log(data[, 3])
W = 0.9967, p-value = 0.4148
Data musim zlogaritmovat (protože nemaji normalni rozdeleni, p-value je mensi nez 0.05) , tak vytvorim novy sloupec s log hodnotami:
data[,4] <- log(data[,3])
Uděláme z dat Geodata musim pomoci cords.col stanovit, ze sloupec 1 a 2 jsou souradnice a x a y data.col = 4 –sloupec 4 je Z souradnice
geodata <- as.geodata(data, coords.col=1:2, data.col=4)
cpomocí coords.col stanovíme , že sloupec 1 a 2 jsou souřadnice X a Y a data.col=4 –sloupec 4 je Z souřadnice
geodata <- as.geodata(data, coords.col=1:2, data.col=4)
> plot(geodata, lowess = T)
Veškerá statistika geodat- density (dole vpravo), Grafy (nahoře vpravo a dole vlevo) ukazují, že data nejsou nijak soustředěná na žádnou světovou stranu
Vytvoříme variogram
var<-variog(geodata)
Zde můžeme vidíme několik charakteristik, které nám pomohou zpřesnit Kriging. Nugget efect=0,2 prahová hodnota je v distance=4000
var <- variog(geodata, max.dist=4000)
vario.fit <- variofit(var, cov.model = "spherical", nugget = 0.2, max.dist = 4000, fix.nugget = TRUE)
Provedeme základní charakteristiku k vytvoření rastru
summary(geodata$coords)
Min. :3727 Min. :73731
1st Qu.:4979 1st Qu.:75084 Median :6008 Median :76105 Mean :6034 Mean :76085 3rd Qu.:7067 3rd Qu.:77054 Max. :8614 Max. :78834
Podle charakteristik vytvříme rastr
Min a max X a Y, velikost pixelu 100x100
loci <- expand.grid(seq(3800,7100,b=100),seq(73800,78900,b=100))
par(mfrow = c(1,2))
kc <- krige.conv(geodata,loc=loci,krige=krige.control(obj.model=vario.fit))
krige.conv: model with constant mean
krige.conv: Kriging performed using global neighbourhood
Data musíme odlogaritmovat a zobrazit je zprávně
par(mfrow = c(1,2))
> image(kc, value = exp(kc$predict), col = terrain.colors(12))
> contour(kc,value = exp(kc$predict), nlev = 20, add=T)- vložíme vrstevnice
Shapiro test
[editovat zdroj]Zjistování zda data mají normální rozdělení shapiro.test(data1[,3]) Shapiro-Wilk normality test
data: data1[, 3] W = 0.9947, p-value = 0.7757
Dála mají normální rozdělení, p-value je vetší jak 0,05.
Váš účet bude přejmenován
[editovat zdroj]Dobrý den!
Vývojářský tým nadace Wikimedia provádí v rámci dlouhodobého úsilí o poskytování nových a lepších nástrojů pro naše uživatele (jako např. oznámení napříč projekty) jisté úpravy fungování uživatelských účtů. Tyto úpravy budou znamenat, že budete mít všude stejné uživatelské jméno. Umožní nám to přidat nové funkce, které vám pomůžou lépe editovat a diskutovat, a umožnit flexibilnější uživatelská oprávnění pro nástroje. Jedním z vedlejších následků, které to způsobí, je, že uživatelské účty budou muset být napříč všemi 900 projekty nadace Wikimedia unikátní. Více informací naleznete v oznámení.
Bohužel však někdo jiný na jiné wiki používá stejné uživatelské jméno jako vy, „Nom“. Abychom zajistili, že budete oba moci v budoucnu používat všechny projekty nadace Wikimedia, vyhradili jsme uživatelské jméno „Nom~cswiki“, které bude jen vaše. Pokud se vám líbí, nemusíte nic dělat. Pokud se vám nelíbí, můžete si zvolit jiné.
Váš účet bude fungovat jako předtím a zůstanou vám připsány vaše dosavadní editace, ale při přihlašování budete muset používat nové uživatelské jméno.
Omlouváme se za nepříjemnosti.
S pozdravem,
Keegan Peterzell
Community Liaison, Wikimedia Foundation
17. 3. 2015, 23:43 (CET)
Přejmenováno
[editovat zdroj]Tento účet byl přejmenován v rámci dokončení sjednoceného přihlašování. Pokud jste vlastníkem tohoto účtu, můžete získat více informací tím, že se přihlásíte svým předchozím uživatelským jménem a heslem. Pokud se vám nové jméno tohoto účtu nelíbí, můžete si po přihlášení vybrat vlastní na stránce Speciální:Žádost o globální přejmenování. -- Keegan (WMF) (diskuse)
19. 4. 2015, 05:12 (CEST)