Nesne

2.5: Gerileme


Metinde, üretim maliyetlerinden bir merminin yerden yüksekliğine kadar çok çeşitli gerçek dünya fenomenlerini modellemek için doğrusal ve ikinci dereceden fonksiyonların kullanıldığı örnekler gördük. Bu bölümde, doğrusal ve ikinci dereceden modeller oluşturmak için gerçek dünya verilerinde görebileceğimiz doğrusal ve ikinci dereceden eğilimleri ölçmek için istatistiksel analizden bazı temel araçları kullanıyoruz. Amacımız, okuyucuya ilgili temel süreçler hakkında bir anlayış kazandırmaktır, ancak bu materyalin tam bir açıklaması için okuyucuyu daha gelişmiş bir kursa yönlendirmek için hızlıyız. Üç veri noktası topladığımızı varsayalım: ({(1,2), (3,1), (4,3)}). Bu noktaları çizerek, aynı doğru üzerinde durmadıklarını açıkça görebiliriz. Noktalardan herhangi ikisini seçersek, her ikisini de içeren ve üçüncüyü tamamen kaçıran bir doğru bulabiliriz, ancak amacımız, hiçbirinden geçmese bile, bir anlamda tüm noktalara 'yakın' olan bir doğru bulmaktır. onlardan. Bu durumda 'yakınlığı' ölçmemizin yolu, toplam kare hatası veri noktaları ve çizgi arasında. Üç veri noktamızı ve (y=frac{1}{2}x + frac{1}{2}) doğrusunu düşünün. Veri noktalarımızın her biri için nokta ile çizgi arasındaki dikey mesafeyi buluruz. Bunu başarmak için, her veri noktasının hemen üstündeki veya altındaki çizgide bir nokta bulmamız gerekir - başka bir deyişle, veri noktamızla aynı (x)-koordinatına sahip bir nokta. Örneğin, ((1,2)'nin hemen altındaki doğru üzerindeki noktayı bulmak için, (x=1)'i (y=frac{1}{2}x + frac{1'e) ekleriz. }{2}) ve ((1,1)) noktasını alırız. Benzer şekilde, ((3,1))'nin ((3,2))'ye karşılık gelecek şekilde ve (left(4,frac{5}{2} ight)) için (( 4,3)).

Her veri noktasının (y)-koordinatlarının farklarının karelerinin ve doğru üzerindeki karşılık gelen noktasının karelerinin toplamını alarak toplam kare hatası (E) buluruz. Yukarıdaki veri ve satır için (E = (2-1)^2+(1-2)^2+left(3-frac{5}{2} ight)^2 = frac{9} {4}). Gelişmiş matematiksel makineler kullanılarak (özellikle Matematik ve Lineer Cebir) en düşük (E) değeriyle sonuçlanan doğruyu bulmak mümkündür. Bu hat denir en küçük kareler regresyon doğrusuveya bazen 'en uygun çizgi'. En iyi uyum çizgisinin formülü, Bölüm 9'a kadar sunmayacağımız notasyon gerektirir, bu yüzden onu tekrar gözden geçireceğiz. Grafik hesaplayıcı, regresyon çizgisini hesaplamak için yerleşik bir özelliğe sahip olduğundan, burada yardımımıza gelebilir. Verileri girip Linear Regresyon özelliğini gerçekleştiriyoruz ve

Hesaplayıcı bize en uygun doğrunun (y=ax+b) olduğunu söyler, burada eğim (a yaklaşık 0,214) ve (y)-kesişiminin (y)-koordinatıdır (b yaklaşık 1.428). (Yaklaşımlarımız için üç ondalık basamak kullanmaya bağlı kalacağız.) Bu satırı kullanarak, verilerimizin toplam kare hatasını (E yaklaşık 1.786) olarak hesaplıyoruz. (r) değeri, korelasyon katsayısı ve verilerin aynı satırda olmaya ne kadar yakın olduğunun bir ölçüsüdür. (|r|) (1'e ne kadar yakınsa, doğrusal uyum o kadar iyidir. (r yaklaşık 0,327) olduğundan, bu bize en uygun çizginin o kadar iyi uymadığını söyler - başka bir deyişle, veri noktalarımız doğrusal olmaya yakın değildir. (r^2) değerine determinasyon katsayısı ve aynı zamanda uyumun iyiliğinin bir ölçüsüdür.footnote{İlgili okuyucuyu (r) ve (r^2)'nin önemini araştırmak için bir İstatistik kursuna yönlendiriyoruz.} Verileri regresyonuyla birlikte çizme Aşağıdaki resimde satır sonuçları.

İlk örneğimiz, son 50 yılda ABD'deki enerji tüketimine bakıyor.

[egin{array}{|c|c|} hline mbox{Yıl} & mbox{Enerji Kullanımı,} & mbox{ Dörtlü} hline 1950 & 34.6 hline 1960 & 45.1 hline 1970 & 67.8 hline 1980 & 78.3 hline 1990 & 84.6 hline 2000 & 98.9 hline end{dizi}]

1 Dörtlü birim 1 Katrilyon = (10^{15}) BTU'dur, bu da Erie Gölü'nü kabaca yükseltmek için yeterli ısıdır (1^{circ})F}

Örnek (PageIndex{1}): Enerji Tüketimi

Yukarıda verilen enerji tüketim verilerini kullanarak,

  1. Bir grafik hesap makinesi kullanarak verileri çizin.
  2. En küçük kareler regresyon doğrusunu bulun ve uyumun iyiliği hakkında yorum yapın.
  3. En uygun çizginin eğimini yorumlayın.
  4. (2013) yılındaki yıllık ABD enerji tüketimini tahmin etmek için regresyon çizgisini kullanın.
  5. Yıllık tüketimin (120) Dörtlü'ye ne zaman ulaşacağını tahmin etmek için regresyon çizgisini kullanın.

Çözüm

  1. Verileri hesap makinesine girmek,

  1. Doğrusal bir regresyon gerçekleştirmek

Hem korelasyon katsayısından hem de grafikten regresyon çizgisinin verilere iyi uyum sağladığını söyleyebiliriz.

  1. Regresyon çizgisinin eğimi (a yaklaşık 1.287)'dir. Bunu yorumlamak için, eğimin (y)-koordinatlarının (x)-koordinatlarına göre değişim oranı olduğunu hatırlayın. (y)-koordinatları Dörtlülerdeki enerji kullanımını temsil ettiğinden ve (x)-koordinatları yılları temsil ettiğinden, pozitif bir (1.287) eğimi, yıllık enerji kullanımında ( oranında bir artışı gösterir. 1.287) Yılda dörtlü.
  2. (2013) içindeki enerji ihtiyaçlarını tahmin etmek için, (x=2013) ifadesini en uygun doğru denkleminde yerine koyarak [y = 1.287(2013)-2473.890 yaklaşık 116.841.] Tahmin edileni elde ederiz. ABD'nin (2013) cinsinden yıllık enerji kullanımı yaklaşık (116.841) Dörtlüdür.
  3. ABD'de yıllık enerji kullanımının ne zaman (120) Dörtlüye ulaşacağını tahmin etmek için, (y=120)'yi [120 = 1.287x - 2473.908" elde etmek için en uygun doğru denkleminde yerine koyarız. (x) getirisi (x yaklaşık 2015.454). Regresyon doğrusu arttığı için, bu sonucu (2015)'teki yıllık kullanımın henüz (120) Dörtlü olmayacağı, ancak (2016'daki talebin (2016)'dan daha fazla olacağı şeklinde yorumluyoruz. (120) Dörtlü.

Sıradaki örneğimiz bize verilere uyacak doğrusal olmayan bir model bulma fırsatı veriyor. Ulusal Hava Durumu Servisi'ne göre, 3 Mart 2009'da Painesville için tahmini saatlik sıcaklıklar aşağıda özetlendiği gibi verilmiştir.

[egin{array}{|c|c|} hline mbox{Zaman} & mbox{Sıcaklık, (^{circ})F} hline 10 mbox{AM} ve 17 hline 11 mbox{AM} & 19 hline 12 mbox{PM} & 21 hline 1 mbox{PM} & 23 hline 2 mbox{PM} & 24 hline 3 mbox{PM} & 24 hline 4 mbox{PM} & 23 hline end{dizi}]

Bu verileri hesap makinesine girmek için (x) değerlerini ayarlamamız gerekiyor çünkü sadece sayıları girmek kafa karışıklığına neden olabilir. (Nedenini anlıyor musunuz?) Bizim için birkaç seçeneğimiz var. Belki de en kolayı, (1) PM (13), (2) PM (14), vb. olacak şekilde saatleri 24 saatlik saate dönüştürmektir. Bu verileri girersek grafik hesap makinesine girin ve elde ettiğimiz noktaları çizin

Verilerin başlangıcı lineer görünürken, öğleden sonra saatlerinde sıcaklık düşmeye başlıyor. Bu tür bir davranış bize parabolleri hatırlatır ve elbette en uygun bir parabol bulmak da en uygun çizgiyi bulduğumuz şekilde mümkündür. süreç denir ikinci dereceden regresyon ve amacı, parabol üzerindeki karşılık gelen noktaları ile verilerin en küçük kare hatasını en aza indirmektir. Hesap makinesinin bunun için yerleşik bir özelliği vardır ve bu da

Belirleme katsayısı (R^2) (1)'e oldukça yakın görünüyor ve grafik görsel olarak uygun görünüyor. Bir sonraki örneğimizde bu modeli kullanıyoruz.

Örnek (PageIndex{2}): İkinci Dereceden Regresyon

Yukarıdaki sıcaklık verileri için ikinci dereceden modeli kullanarak günün en sıcak sıcaklığını tahmin edin. Bu ne zaman gerçekleşecek?

Çözüm

Maksimum sıcaklık, parabolün tepe noktasında oluşacaktır. Köşe Formülü, Denklem 2.4, [x = -frac{b}{2a} yaklaşık - frac{9.464}{2(-0,321)} yaklaşık 14.741.] Bu, kabaca (2 !:!45) ÖÖ. Sıcaklığı bulmak için, (y yaklaşık 23.899) veya (23.899^{circ) elde etmek için (x = 14.741)'i [y = -0.321 x^2+9.464x - 45.857] yerine koyarız })F.

Son örneğin sonuçları size regresyon modellerinin tam da bu modeller olduğunu hatırlatmalıdır. Tahmini en yüksek sıcaklığımız (23.899^{circ})F olarak bulundu, ancak verilerimiz havanın (24^{circ})F'ye kadar ısınacağını söylüyor. Trendleri gözlemlemek ve bir modelde tahminde bulunmak her şey yolunda ve iyidir, ancak daha kapsamlı bir araştırma niye ya belirli verilerin doğası gereği doğrusal veya ikinci dereceden olması gerekir - genellikle düzenlidir - ve bu çoğu zaman bilim adamlarının işidir.


Bilmeniz gereken 5 Regresyon Algoritması – Giriş Kılavuzu!

Makine Öğreniminde, makinelerin sağlanan veriler içindeki ilişkileri öğrenmesine ve veri kümesinden tanımlanan kalıplara veya kurallara dayalı olarak tahminler yapmasına izin vermek için çeşitli algoritmalar kullanırız. Dolayısıyla regresyon, modelin çıktıyı sürekli sayısal bir değer olarak öngördüğü bir makine öğrenme tekniğidir.

Regresyon analizi genellikle finans, yatırım ve diğerlerinde kullanılır ve birkaç bağımsız değişkene bağlı olan tek bir bağımlı değişken (hedef değişken) arasındaki ilişkiyi bulur. Örneğin, ev fiyatını, borsayı veya bir çalışanın maaşını vb. tahmin etmek en yaygın olanlardır.
regresyon sorunları.

Ele alacağımız algoritmalar şunlardır:

3. Vektör Regresyonunu Destekleyin

1. Doğrusal regresyon

Linear Regresyon, denetimli öğrenme için kullanılan bir ML algoritmasıdır. Doğrusal regresyon, verilen bağımsız değişken(ler)e dayalı olarak bir bağımlı değişkeni(hedefi) tahmin etme görevini gerçekleştirir. Dolayısıyla, bu regresyon tekniği, bağımlı bir değişken ile verilen diğer bağımsız değişkenler arasında doğrusal bir ilişki bulur. Dolayısıyla bu algoritmanın adı Lineer Regresyondur.

Yukarıdaki şekilde X ekseninde bağımsız değişken ve Y ekseninde çıktıdır. Regresyon çizgisi, bir model için en uygun çizgidir. Ve bu algoritmadaki temel amacımız, bu en uygun çizgiyi bulmaktır.

  • Doğrusal Regresyonun uygulanması basittir.
  • Diğer algoritmalara kıyasla daha az karmaşıklık.
  • Doğrusal Regresyon, aşırı uydurmaya yol açabilir, ancak bazı boyutsallık azaltma teknikleri, düzenlileştirme teknikleri ve çapraz doğrulama kullanılarak önlenebilir.
  • Aykırı değerler bu algoritmayı kötü etkiler.
  • Değişkenler arasında doğrusal bir ilişki olduğunu varsayarak gerçek dünya problemlerini aşırı basitleştirir, bu nedenle pratik kullanım durumları için önerilmez.

2. Karar Ağacı

Karar ağacı modelleri, sayısal özellikler ve kategorik özellikler içeren tüm verilere uygulanabilir. Karar ağaçları, özellikler ve hedef değişken arasındaki doğrusal olmayan etkileşimi yakalamada iyidir. Karar ağaçları, insan düzeyindeki düşünceyle bir şekilde eşleşir, bu nedenle verileri anlamak çok sezgiseldir.

Örneğin, bir çocuğun belirli bir havada kaç saat oynadığını sınıflandırıyorsak, karar ağacı yukarıdaki resimdeki gibi görünüyor.

Kısacası karar ağacı, her düğümün bir özelliği, her dalın bir kararı ve her yaprağın bir sonucu temsil ettiği bir ağaçtır (regresyon için sayısal değer).

  • Anlaşılması ve yorumlanması kolay, görsel olarak sezgisel.
  • Sayısal ve kategorik özelliklerle çalışabilir.
  • Çok az veri ön işleme gerektirir: tek-sıcak kodlamaya, kukla değişkenlere vb. gerek yoktur.
  • Aşırıya kaçma eğilimindedir.
  • Verilerdeki küçük bir değişiklik, ağaç yapısında büyük bir farklılığa neden olur ve bu da kararsızlığa neden olur.

3. Vektör Regresyonunu Destekleyin

SVM yani Destek Vektör Makinesi hakkında bir şeyler duymuş olmalısınız. SVR de aynı SVM fikrini kullanır ancak burada gerçek değerleri tahmin etmeye çalışır. Bu algoritma, verileri ayırmak için hiper düzlemler kullanır. Bu ayırmanın mümkün olmaması durumunda, boyutun artırıldığı çekirdek hilesini kullanır ve ardından veri noktaları bir hiperdüzlem ile ayrılabilir hale gelir.

Yukarıdaki şekilde, Mavi çizgi Hiper Düzlemdir Kırmızı Çizgi Sınır Çizgisidir

Tüm veri noktaları sınır çizgisi (Kırmızı Çizgi) içindedir. SVR'nin temel amacı, temel olarak sınır çizgisi içindeki noktaları dikkate almaktır.

  • Aykırı değerlere karşı sağlam.
  • Mükemmel genelleme yeteneği
  • Yüksek tahmin doğruluğu.
  • Büyük veri kümeleri için uygun değildir.
  • Veri seti daha fazla gürültüye sahip olduğunda çok iyi performans göstermezler.

4. Kement Regresyonu

  • LASSO, En Az Mutlak Seçimli Büzülme Operatörü anlamına gelir. Büzülme temel olarak nitelikler veya parametreler üzerindeki bir kısıtlama olarak tanımlanır.
  • Algoritma, bazı değişkenler için regresyon katsayılarının sıfıra doğru küçülmesine neden olan model öznitelikleri üzerinde bir kısıtlama bularak ve uygulayarak çalışır.
  • Regresyon katsayısı sıfır olan değişkenler modelden çıkarılır.
  • Dolayısıyla, kement regresyon analizi temelde bir küçültme ve değişken seçme yöntemidir ve hangi tahmin edicilerin en önemli olduğunu belirlemeye yardımcı olur.
  • LASSO, bir grup ilişkili özellikten yalnızca bir özellik seçecektir
  • Seçilen özellikler yüksek oranda önyargılı olabilir.

5. Rastgele Orman Regresörü

Rastgele Ormanlar, karar ağaçlarının bir topluluğudur (kombinasyonu). Sınıflandırma ve regresyon için kullanılan bir Denetimli Öğrenme algoritmasıdır. Girdi verileri çoklu karar ağaçlarından geçirilir. Eğitim zamanında farklı sayıda karar ağacı oluşturarak ve sınıfların modu (sınıflandırma için) veya bireysel ağaçların ortalama tahmini (gerileme için) olan sınıfın çıktısını alarak yürütülür.

  • Karmaşık ve doğrusal olmayan ilişkileri öğrenmede iyi
  • Yorumlanması ve anlaşılması çok kolay
  • Aşırı takılmaya eğilimlidirler
  • Daha yüksek performans elde etmek için daha büyük rastgele orman toplulukları kullanmak hızlarını yavaşlatır ve ardından daha fazla belleğe de ihtiyaç duyarlar.

2.5 - Belirleme Katsayısı, r-kare

Belirleme katsayısı araştırmamıza başlayalım, r 2 , iki farklı örneğe bakarak - yanıt arasındaki ilişkinin olduğu bir örnek y ve tahmin edici x tepkisi arasındaki ilişkinin çok zayıf olduğu ve ikinci bir örnektir. y ve tahmin edici x oldukça güçlüdür. Eğer önlemimiz iyi işleyecekse, bu çok farklı iki durumu ayırt edebilmelidir.

arasında çok zayıf bir ilişkiyi gösteren bir komplo var. y ve x. Arsa üzerinde iki çizgi vardır, ortalama yanıta yerleştirilmiş yatay bir çizgi, (ar) ve sığ-eğimli bir tahmini regresyon doğrusu, (hat). Tahmin edilen regresyon çizgisinin eğiminin çok dik olmadığına dikkat edin, bu da tahmin edici olarak x artar, ortalama tepkide çok fazla değişiklik olmaz y. Ayrıca, veri noktalarının tahmini regresyon çizgisini "sarmadığına" dikkat edin:

Grafiğin sağındaki hesaplamalar, zıt "kareler toplamı" değerlerini gösterir:

  • SSR, "karelerin regresyon toplamı"dır ve tahmini eğimli regresyon çizgisinin, (hat_i), yatay "ilişki yok satırından", örnek ortalamadan veya (ar).
  • SSE, "karelerin hata toplamıdır" ve veri noktalarının, (y_i), tahmini regresyon doğrusu, (hat) etrafında ne kadar değiştiğini ölçer._ben).
  • SSTO, "toplam kareler toplamıdır" ve veri noktalarının, (y_i) ortalamalarına göre ne kadar değiştiğini belirtir, (ar).

SSTO = SSR + SSE olduğunu unutmayın. Karelerin toplamı hikayeyi oldukça iyi anlatıyor gibi görünüyor. Bize yanıttaki çeşitliliğin çoğunun y (SSTO = 1827,6) sadece rastgele varyasyondan kaynaklanmaktadır (SSE = 1708.5), gerileme nedeniyle değil y üzerinde x (SSR = 119.1). bunu fark edebilirsin SSR bölü SSTO 119.1/1827.6 veya 0.065'tir. Bu miktarın yukarıdaki uygun çizgi grafiğinde nerede göründüğünü görüyor musunuz?

Yukarıdaki örneği, arsa arasında oldukça ikna edici bir ilişkiyi gösterdiği aşağıdaki örnekle karşılaştırın. y ve x. Tahmin edilen regresyon çizgisinin eğimi çok daha diktir, bu da tahmin edici olarak x artar, yanıtta oldukça önemli bir değişiklik (azalma) vardır. y. Ve burada, veri noktaları tahmini regresyon çizgisine "sarılır":

Bu veri kümesi için karelerin toplamı çok farklı bir hikaye anlatır, yani yanıttaki varyasyonun çoğu y (SSTO = 8487.8) regresyonundan kaynaklanmaktadır y üzerinde x (SSR = 6679.3) sadece rastgele hata nedeniyle değil (SSE = 1708.5). Ve, SSR bölü SSTO 6679.3/8487.8 veya 0.799'dur, bu da yine uygun çizgi grafiğinde görünür.

Önceki iki örnek, ölçüyü resmi olarak nasıl tanımlamamız gerektiğini önerdi. Kısaca "determinasyon katsayısı" veya "r-kare değeri"belirtilen r 2 , karelerin regresyon toplamının toplam kareler toplamına bölümüdür. Alternatif olarak, aşağıdaki ekran görüntüsünde gösterildiği gibi, çünkü SSTO = SSR + SSE, miktar r 2 ayrıca bir eksi karelerin hata toplamının toplam kareler toplamına oranıdır:

İşte önlemin bazı temel özellikleri:

  • O zamandan beri r 2 bir orantıdır, her zaman 0 ile 1 arasında bir sayıdır.
  • Eğer r 2 = 1, tüm veri noktaları mükemmel bir şekilde regresyon çizgisine düşer. tahmin edici x hesapları tüm varyasyonun y!
  • Eğer r 2 = 0, tahmini regresyon çizgisi tamamen yataydır. tahmin edici x hesapları Yok varyasyonun y!

İki kolay durumun yorumunu öğrendik - ne zaman r 2 = 0 veya r 2 = 1 — ama nasıl yorumlayacağız r 0 ile 1 arasında bir sayı olduğunda, 0.23 veya 0.57 gibi, diyelim mi? Belirleme katsayısının iki benzer, ancak biraz farklı yolu: r 2 yorumlanabilir. Biz de diyoruz ki:

"r varyasyonun yüzde 2 × 100'ü y tahmin edici dikkate alınarak azaltılır x"

"r varyasyonun yüzde 2 × 100'ü y tahmin edicideki varyasyonla "açıklanır" x."

Birçok istatistikçi ilk yorumu tercih eder. İkinciyi tercih etme eğilimindeyim. İkinci yorumu kullanmanın riski - ve bu nedenle "açıklayan" ifadesinin tırnak içinde görünmesinin nedeni, tahmin edicinin yanlış anlaşılabileceğidir. x nedenler cevaptaki değişiklik y. Dernek nedensellik değildir. Diğer bir deyişle, bir veri kümesinin büyük bir r-kare değeri, bu anlamına gelmez x nedenler değişiklikler y. Doğru anlamı aklınızda tuttuğunuz sürece, ikinci yorumu kullanmakta bir sakınca yoktur. İkinci yorumdaki bir varyasyon, "r varyasyonun yüzde 2 × 100'ü y tahmin edicideki varyasyonla açıklanır x."

Öğrenciler genellikle şunu sorarlar: "büyük olarak kabul edilen nedir? r-kare değeri mi?" Araştırma alanına göre değişir. Genellikle insan davranışındaki büyük çeşitlilik hakkında bir şeyler öğrenmeye çalışan sosyal bilimciler, bunu elde etmeyi çok zor bulacaklardır. r-kare değerleri çok daha yüksek, diyelim ki %25 veya %30. Öte yandan, daha kesin sistemleri inceleme eğiliminde olan mühendisler, muhtemelen bir r-kare değeri sadece %30 kabul edilemez. Hikayenin ahlaki, tipik olanı öğrenmek için literatürü okumaktır. r-kare değerleri araştırma alanınız içindir!

Cilt kanseri ölüm oranı örneğini (skincancer.txt) tekrar gözden geçirelim. Basit doğrusal regresyon analizi gerçekleştiren herhangi bir istatistiksel yazılım, r-sizin için kare değeri, bu durumda %67,98 veya en yakın tam sayıya %68'dir.

Enlem dikkate alındığında cilt kanseri ölüm oranındaki varyasyonun %68'inin azaldığını söyleyebiliriz. Ya da - gerçekten ne anlama geldiğini bilerek - deri kanseri mortalitesindeki varyasyonun %68'inin enlemle "açıklandığını" söyleyebiliriz.


Model 2 regresyonu

Model 1 regresyonunda, bağımsız değişkeni (x) kontrol eder ve bağımlı (yanıt) değişkeni (y) ölçersiniz. Laboratuvar deneyleri buna örnektir. Diğer durumlarda, örneğin bir kumsalda bulduğunuz istiridyelerin uzunluklarını ve genişliklerini ölçtüğünüz gibi, her iki değişkeni de kontrol edemezsiniz. Bu durumlarda, hangi değişkenin bağımsız (x) veya bağımlı (y) değişken olarak kabul edileceği açık değildir. Sıra önemlidir, çünkü y'nin x üzerindeki gerilemesi, x'in y üzerindeki gerilemesinden farklı bir doğru üretir. Değişkenlerden birini kontrol etmediğinizde, her iki değişkenin de ölçüm hatası olduğu söylenir ve bir model 2 regresyon yapmanız gerekir. Model 2 regresyonları, ilişkiyi tanımlamamıza, güven aralıkları oluşturmamıza ve bazı hipotezleri test etmemize izin verir, ancak bunlar tahmin için kullanılamazlar.

Model 2 regresyonu, her iki yöndeki hataları en aza indirerek hem x hem de y'deki belirsizliği açıklar. Bunu yapmanın birkaç yolu vardır. Büyük bir eksen regresyonunda, bir noktadan çizgiye olan dik mesafe minimize edilir. Standart ana eksen (SMA) regresyonunda (indirgenmiş ana eksen veya RMA regresyonu da denir), gözlemler ve regresyon çizgisi tarafından oluşturulan üçgenlerin alanları en aza indirilir. Standart ana eksen regresyonu özellikle yaygındır. NS eğim bir SMA regresyonunun:

İşaret, korelasyon katsayısının işaretiyle eşleşecek şekilde ayarlandığından artı veya eksi olarak listelenir. Eğim, hangisi daha uygunsa, standart sapmaların oranı veya kareler toplamının oranının karekökü olarak hesaplanabilir.

SMA y-kesişim noktası en küçük kareler regresyonu için olduğu gibi hesaplanır, yani çizgi ağırlık merkezinden geçmelidir.

SMA eğimi ve kesişimi için işlevler basittir. Eğimin işaretinin, ifelse() işleviyle korelasyon katsayısınınkiyle eşleşecek şekilde yapıldığına dikkat edin.

smaSlope <- function(x, y) <
<- ifelse(cor >= 0, 1, -1) işareti
b1 <- işareti * sd(y)/sd(x)
b1
>

smaIntercept <- function(x, y) <
b1 <- smaSlope(x, y)
b0 <- ortalama(y) - ortalama(x)*b1
b0
>

SMA eğimi, korelasyon katsayısına bölünen en küçük kareler eğimine eşittir ve bu nedenle her zaman en küçük kareler eğiminden daha diktir. Bu iki eğim arasındaki fark, korelasyon güçlendikçe azalır. İki değişken arasındaki korelasyon zayıfladıkça, bir SMA regresyonunun eğimi 1.0'a yaklaşırken, en küçük kareler regresyonunda 0'a yaklaşır.

Standart hatalar SMA eğimi ve kesişimi için mevcuttur (Kermack ve Haldane 1950, Miller ve Kahn 1962 ve aşağıdaki teşekkürlere bakınız). Bunlardan, n-2 serbestlik derecesini kullanarak eğim ve kesişim üzerindeki güven aralıklarını hesaplayabilirsiniz. Bunun nasıl yapılacağına ilişkin talimatlar için araçlar dersinin sonuna bakın.

lmodel2 paketi, çeşitli model 2 regresyonlarını çalıştırabilir, bunları çizebilir, güven aralıklarını hesaplayabilir ve istatistiksel testler gerçekleştirebilir. Bu kitaplığı yükledikten sonra, vinyet('mod2user') çalıştırıldığında, en iyi uygulamalar, özellikle de her model 2 regresyon türü için uygun koşullar hakkında olağanüstü bir pdf görüntülenecektir. Model 2 regresyonuna ihtiyacınız olabileceğini düşünüyorsanız, bu pdf'yi okuyun.


Toddler Regresyonu Neye benziyor

İlk önce oğlumun gelişimiyle ilgili endişelerim iki yaş civarında başladı. Ancak 3 yaşından beri gelişimsel olarak tamamen gerilemiştir.

Altı ay boyunca, 3 yaşındaki oğlum üç ila dört cümle konuşmaktan, neden sorular sormaktan ve yeni kelimeler öğrenmekten neredeyse HİÇBİR iletişim kurmayı başardı. Hala konuşuyor, ama söylediği hiçbir şeyi anlamıyorum!

Konuşma ve dil regresyonuna ek olarak, okul öncesi öğretmeni ayrıca yüksek seslere aşırı duyarlı olma, kendi kendine oynama, tekrarlayan oyun oynama, konuşmama ve diğer çocuklarla etkileşime girmeme konusundaki endişelerini dile getirdi.

Sadece aynı hecelerdeki anlamsız kelimeleri tekrar ediyor. Konuşması, nesnelere işaret etmek gibi sözel olmayan ipuçlarını geriletmekle kalmaz, çok nadirdir. Mesela ne istediğini söyleyemiyor ve ben istesem de bir nesneyi işaret etmiyor. Bu, ihtiyaçlarını hala çözemezsem çığlık atarak ve ağlayarak tam bir erimeye yol açar.

Son derece sinir bozucu hale geldi! Kocam ve ben şimdi daha önce hiç fark etmediğimiz başka Otizm belirtileri görüyoruz (bu belirtiler bir süredir olmasına rağmen).

Bir yandan, yürümeye başlayan çocuğumun konuşma gerilemesi için minnettarım çünkü onsuz, gösterdiği diğer Otizm belirtilerini asla tanıyamazdım. Ama aynı zamanda tamamen kalbim kırık!

Otizmli olabileceği için değil, basit ihtiyaç ve istekleri iletmek için çok uğraştığı için.

Artık oğlumuzdaki Otizm belirtilerini fark ettiğimize göre, değerlendirme sürecini başlatmak için ergoterapi ve konuşma terapisi randevuları ile ilerliyoruz.

Yürümeye başlayan çocuk, alıştığı kelimeleri söylemiyor

Gelişimsel bir gerileme sinir bozucu olsa da, umut var! Çoğu zaman gerilemenin nedeni, yürümeye başlayan çocuğa stres ve endişe veren bir yaşam olayıdır. Başka bir neden, yürümeye başlayan çocuğunuzun yeni bir dizi önemli yaşam becerisinde ustalaşmayı öğrenmesi olabilir.

Ancak bazı gerileme durumlarında Otizm ihtimaline işaret eden işaretler vardır. Biliyorum çünkü kendi oğlum bu kategoriye giriyor.

Çoğu zaman, gelişimsel gerilemenin arkasında basit bir neden vardır ve bu nedenle gerileme zamanla daha iyi olacaktır. Ancak, gelişimsel gerileme herhangi bir iyileşme belirtisi göstermeden devam ediyorsa ve çocuğunuzda başka Otizm belirtileri görüyorsanız, hemen bir çocuk doktoruna veya konuşma terapistine başvurun! Çocukları ve ergenleri gelişimsel bir gerilemeden kurtarmak ve gelişimsel olarak ilerlemelerine yardımcı olmak için erken müdahale gereklidir.


Hangi Parametreler En Önemlidir?

Hangi parametrelerin en önemli olduğunu belirlemenin bir yolu, her bir katsayının standart hatasını hesaplamaktır. Standart hata, modelin her bir katsayı hakkında ne kadar emin olduğunu belirtir ve daha büyük değerler modelin o parametreden daha az emin olduğunu gösterir. Altta yatan denklemleri görmeden bile bunu sezebiliriz. Bir terimle ilişkili hata tipik olarak yüksekse, bu, terimin modeli veri kümesiyle eşleştirme üzerinde çok güçlü bir etkisi olmadığı anlamına gelir.

Standart hatanın hesaplanması, ilgili bir istatistiksel süreçtir ve kısa bir makalede kısaca anlatılamaz. Neyse ki, bunu sizin için yapmak için kullanabileceğiniz Python paketleri var. Soru StackOverflow'ta en az bir kez sorulmuş ve cevaplanmıştır. Bu araçlar başlamanıza yardımcı olmalıdır.

Her bir katsayının standart hatasını hesapladıktan sonra, hangi katsayıların en yüksek, hangilerinin en düşük olduğunu belirlemek için sonuçları kullanabilirsiniz. Yüksek değerler, bu terimlerin modele daha az tahmin değeri kattığını gösterdiğinden, bu terimlerin tutulması en az önemli olduğunu bilebilirsiniz. Bu noktada, modelin tahmin gücünü önemli ölçüde düşürmeden denklemdeki terimlerin sayısını azaltmak için modeldeki hangi terimlerin çıkarılabileceğini seçmeye başlayabilirsiniz.

Başka bir yöntem, düzenlileştirme adı verilen bir teknik kullanmaktır. Düzenleme, çoklu regresyon denklemindeki terim sayısına dayalı hata hesaplamasına yeni bir terim ekleyerek çalışır. Denklemdeki daha fazla terim doğal olarak daha yüksek bir düzenlileştirme hatasına yol açarken, daha az terim doğal olarak daha düşük bir düzenleme hatasına yol açar. Ek olarak, düzenlileştirme denklemine terim ekleme cezası istenildiği gibi artırılabilir veya azaltılabilir. Cezayı artırmak aynı zamanda daha yüksek bir düzenlileştirme hatasına yol açarken, cezayı azaltmak daha düşük bir düzenlileştirme hatasına yol açacaktır.

Hata denklemine eklenen bir düzenlileştirme terimi ile hatayı en aza indirmek, sadece modeldeki hatayı en aza indirmek değil, aynı zamanda denklemdeki terim sayısını da en aza indirmek anlamına gelir. Bu, doğası gereği eğitim verilerine daha kötü uyan bir modele yol açacaktır, ancak aynı zamanda doğal olarak denklemde daha az terim içeren bir modele de yol açacaktır. Düzenleme hatasındaki daha yüksek ceza/vade değerleri, model üzerinde daha az terim olması için daha fazla baskı yaratır.


Herkese tavsiye için teşekkürler! Aslında birçoğunuz buna cevap verdiği için lazımlık eğitimi meselesine açıklık getirmem gerekiyor. Kesinlikle lazımlığı kullanmaya hazır. Bize gitmesi gerektiğini ama lazımlığı kullanmak istemediğini söylüyor. Bazen onu kullanır - tek başına - herhangi bir istem veya başka bir şey yok. Ama bu onun kararı olmalı. Eğer ona sorarsanız, kullanmayacaktır. İşin aslı - onu hoşuna gittiğinde kullanıyor ve işin boyutu bu. Bu kabul edilemez! Olumlu pekiştirme yolunu denedik - çıkartmalar, küçük ikramlar, büyük ikramlar, ödül çizelgeleri, DVD'ler, bebekler - temelde her şey. Ama sonuçta, o sadece olmayı seçtiğinde ödüllerle motive oluyor. Bu yüzden ona, lazımlığı kullanıp kullanmama kararının ona ait olduğunu söylüyoruz. Ancak yanlış karar verirse - o zaman Mickey Mouse Clubhouse olmaması gibi olumsuz sonuçlar olacaktır. Bunu tamamen anladı ve hatta bu sabah bana 'lazımlığın TV olmadığı anlamına geldiğini' söyledi. Sonra lazımlığı kullanmaya hazır olup olmadığını sordum ve 'henüz değil' dedi. 10 aylıkken biberonunu aldığımda bunu yaptı. 2 hafta boyunca damlatmaz bardağından süt içmeyi reddetti!! Ama sonunda pes etti. Yani gerçekten bu büyük olumsuz şey gibi değil. Olumlu pekiştirmeyi yaklaşık 6 aydır çok az başarı ile yapıyoruz, bu yüzden farklı bir şey denememiz gerekiyordu. TV'nin olmaması kuralı konusunda gerçekten üzgün bile değil çünkü bunun kendi seçimi olduğunu anlıyor gibi görünüyor. Bunu büyük bir mesele haline getirmiyoruz - TV'nin büyük kızlar için olduğu ve büyük kızların lazımlığı kullandığı bir kuraldır ve bu hikayenin sonudur. Bazı insanlar buna katılmayabilir ama herkes kendi çocukları için neyin işe yaradığını bilir. Bu yaklaşım okuldaki öğretmeni tarafından bile önerildi çünkü o da kızımın sadece canı istediğinde kullanmak konusunda son derece inatçı olduğunu görüyor. Yine de tüm tavsiyeleri takdir ediyorum ve orijinal yazımda lazımlık eğitimi konusunu gerçekten açıklamadığımı biliyorum, bu yüzden açıklığa kavuşturmak istedim!

Bunu oğlumla birlikte yaşadım ve o sadece sınırları test ediyordu. Ancak lazımlık eğitimine dirençli olduğu için istiridye ve ayrıcalıkları elinden almanın doğru cevap olduğunu düşünmüyorum. Henüz hazır olmayabilir


2.5: Gerileme

Çoklu Regresyonda Çoklu Bağlantıyı Belirleme

Tez Öğrencileri ve Araştırmacılar için İstatistik Yardımı

Çoklu Bağlantı Nasıl Belirlenir

Çoklu doğrusallığı, toleransı inceleyerek değerlendirebilirsiniz ve Varyans Şişirme Faktörü (VIF), çoklu doğrusallığı belirlemenize yardımcı olabilecek iki eş doğrusallık tanı faktörüdür. Tolerans, SPSS gibi çoğu istatistiksel program tarafından rapor edilen bir doğrusallık ölçüsüdür, değişkenin toleransı 1-R2'dir. Küçük bir tolerans değeri, söz konusu değişkenin halihazırda denklemde bulunan bağımsız değişkenlerin neredeyse mükemmel bir doğrusal kombinasyonu olduğunu ve regresyon denklemine eklenmemesi gerektiğini gösterir. Doğrusal ilişkide yer alan tüm değişkenler küçük bir toleransa sahip olacaktır. Bazıları, 0.1'den daha düşük bir tolerans değerinin daha fazla araştırılması gerektiğini öne sürüyor. Düşük bir tolerans değerine büyük standart hatalar ve anlamsızlık eşlik ediyorsa, çoklu bağlantı bir sorun olabilir.

Varyans Enflasyon Faktörü (VIF)

Varyans Enflasyon Faktörü (VIF), bir regresyon modelindeki değişkenler arasındaki doğrusallığın etkisini ölçer. Varyans Enflasyon Faktörü (VIF) 1/Tolerans'tır, her zaman 1'den büyük veya eşittir. Çoklu doğrusallığın varlığını belirlemek için resmi bir VIF değeri yoktur. 10'u aşan VIF değerleri genellikle çoklu doğrusal bağlantı olarak kabul edilir, ancak daha zayıf modellerde 2.5'in üzerindeki değerler endişe kaynağı olabilir. Birçok istatistik programında, sonuçlar hem bireysel bir R2 değeri (modelin genel R2'sinden farklı) hem de Varyans Enflasyon Faktörü (VIF) olarak gösterilir. Modelinizdeki herhangi bir değişken için bu R2 ve VIF değerleri yüksek olduğunda, çoklu bağlantı muhtemelen bir sorundur. VIF yüksek olduğunda, yüksek çoklu bağlantı ve b ve beta katsayılarının kararsızlığı vardır. Bunu çözmek çoğu zaman zordur. Bugün Araştırma ve İstatistik Yardımı İsteyin!

Regresyonda çoklu doğrusallığı aşağıdaki şekillerde de değerlendirebilirsiniz:


1. Korelasyonları inceleyin and associations (nominal variables) between independent variables to detect a high level of association. High bivariate correlations are easy to spot by running correlations among your variables. If high bivariate correlations are present, you can delete one of the two variables. However, this may not always be sufficient.

2. Regression coefficients will change dramatically according to whether other variables are included or excluded from the model. Play around with this by adding and then removing variables from your regression model.

3. The standard errors of the regression coefficients will be large if multicollinearity is an issue.

4. Predictor variables with known, strong relationships to the outcome variable will not achieve statistical significance. In this case, neither may contribute significantly to the model after the other one is included. But together they contribute a lot. If you remove both variables from the model, the fit would be much worse. So the overall model fits the data well, but neither X variable makes a significant contribution when it is added to your model last. When this happens, multicollinearity may be present.


Toddler sleep regression generally occurs between 18 months and 2 years of age, although the exact time is different for each child. If you&aposve noticed the symptoms, rest assured that most sleep regression stages last for only a few weeks at a time. Pretty soon your little one will start sleeping through the night again, and they&aposll no longer wake up crying.

Whether you&aposre dealing with 18-month-old sleep regression, 2-year-old sleep regression, or 3-year-old sleep regression, these tips can help your little one get a good night&aposs rest.

The Problem: Your Toddler Stalls Bedtime

Kids this age are learning that they have some power in the world, and they&aposll seize any opportunity to use it. So don&apost be surprised if your mini negotiator says just about anything to stall their bedtime𠅎ven if they’re about to fall asleep mid-sentence.

How to Help: Make small tweaks to your child&aposs bedtime routine. You should still stick to the basics𠅊 bath, a story, some cuddling, then lights-out𠅋ut let them make small decisions along the way, suggests Jill Spivack, co-creator of the book and DVD The Sleepeasy Solution. Your toddler may be less likely to balk at bedtime if they get to call a few of the shots. (Red or yellow pajamas? Three good-night kisses or four?)

If your toddler cries when you leave their room, explain that it&aposs time to sleep and say that you&aposll be back to check on them when they’re calm, says Brett Kuhn, PhD, a licensed psychologist at the University of Nebraska Medical Center and Children&aposs Sleep Center, in Omaha. Return, as promised, but don&apost stick around. Or try mom Gina Beltrami&aposs clever sleep strategy: After she tucked in her toddler, Sonny, she set a timer for five minutes. "I told him that I&aposd sit quietly at the foot of his bed until the timer went off, and then he had to rest by himself," says Beltrami, of Bethlehem, Pennsylvania. "Stalling problem solved!"

The Problem: Your Toddler Escapes the Bed

With no crib bars to stop them, toddlers often like to savor their newfound freedom by taking 3 a.m. jaunts to your bed.

How to Help: Carry your midnight wanderer back to their room every time they bust into yours. If you let them crash with you, you&aposre setting the stage for a never-ending bedtime battle. Consider hanging bells on your doorknob so you can hear your toddler coming that way, you can walk them back to their room before they climb into your bed and make themselves comfy.

Another way to avoid sleepless nights is to install a baby gate on your child&aposs door. "Explain that it&aposs there to keep her safe, since she could get hurt walking around the house by herself in the dark," says Spivack. Leave their bedroom door open so they don’t feel alone.

The Problem: Your Toddler is Scared of Sleeping

You know how badly you sleep when you&aposve got a lot of worries on your mind. The same goes for your toddler, though they’re panicking about monsters, not the mortgage. "This is the stage when your child&aposs imagination really takes off," says Spivack. "Even if he wasn&apost afraid of the dark before, he may start &aposseeing&apos ghosts and other eerie creatures."

How to Help: Respect your child&aposs fears. Let them know you understand how scared they feel, but beware of making their anxiety worse. Using "monster spray," for example, actually suggests that creepy creatures could be hanging out in their room, says Dr. Kuhn. Instead, reassure them that you&aposre always nearby and that monsters don&apost exist.

Look for ways to convince your toddler that their room is a safe place. Play in their bedroom more often so they associate it with good times, or "camp out" with them there for a night. You could also appoint one of your child&aposs stuffed animals the "watch pet," says Carol Ash, medical director of Sleep for Life in Hillsborough, New Jersey. "I gave my son a big bear that he could prop up on his bed all night to keep an eye on him."

The Problem: Your Toddler Refuses to Nap

Toddlers often refuse to snooze during the day𠅋lame their newfound sense of independence and changing sleep needs𠅋ut kids aren&apost truly ready to give up naps for good until around age 5. If you let your child skip theirs, they may be too overtired to sleep well at night.

How to Help: Ignore the clock. As kids get older, they might not need to catch their afternoon zzz&aposs on the same old schedule. Instead, look for clues that your toddler is getting tired. Put them down when they get clingy, spacey, hyper, or start rubbing their eyes. Making your toddler&aposs siesta seem like bedtime can help them drift off: Keep their room dark, read a story, or sing a lullaby. But if they absolutely refuse to sleep, encourage them to play quietly in their room and call it "rest time."


Simple / Linear Regression Tutorial, Examples

Regression Definition:

A regression is a statistical analysis assessing the association between two variables. In simple linear regression, a single independent variable is used to predict the value of a dependent variable.

Regression Formula:

Regression Example:

To find the Simple/Linear Regression of

To find regression equation, we will first find slope, intercept and use it to form regression equation.

Step 1:

Count the number of values. N = 5

Step 2:

Find XY, X 2 See the below table

X ValueY ValueX*YX*X
603.1 60 * 3.1 =186 60 * 60 = 3600
613.661 * 3.6 = 219.661 * 61 = 3721
623.862 * 3.8 = 235.662 * 62 = 3844
63463 * 4 = 25263 * 63 = 3969
654.165 * 4.1 = 266.565 * 65 = 4225
Step 3:

Find ΣX, ΣY, ΣXY, ΣX 2 . ΣX = 311 ΣY = 18.6 ΣXY = 1159.7 ΣX 2 = 19359

Step 4:

Substitute in the above slope formula given. Slope(b) = (NΣXY - (ΣX)(ΣY)) / (NΣX 2 - (ΣX) 2 ) = ((5)*(1159.7)-(311)*(18.6))/((5)*(19359)-(311) 2 ) = (5798.5 - 5784.6)/(96795 - 96721) = 13.9/74 = 0.18784

Step 5:

Now, again substitute in the above intercept formula given. Intercept(a) = (ΣY - b(ΣX)) / N = (18.6 - 0.18784(311))/5 = (18.6 - 58.41824)/5 = -39.81824/5 = -7.964

Step 6:

Then substitute these values in regression equation formula Regression Equation(y) = a + bx = -7.964+0.188x.
Suppose if we want to know the approximate y value for the variable x = 64. Then we can substitute the value in the above equation. Regression Equation(y) = a + bx = -7.964+0.188(64). = -7.964+12.032. = 4.068 This example will guide you to find the relationship between two variables by calculating the Regression from the above steps.


Videoyu izle: R 26Tobit Regression - การถดถอยโทบท (Aralık 2021).