สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

8
ข้อเสนอแนะใด ๆ สำหรับตำราเรียนเบื้องต้นที่ดีสำหรับสถิติ?
ฉันหวังว่าคุณจะสามารถให้คำแนะนำแก่ฉันได้ ฉันสอนในวิทยาลัยที่หลากหลาย (ทำจากชนกลุ่มน้อย) และนักเรียนส่วนใหญ่เป็นวิชาเอกจิตวิทยา นักเรียนส่วนใหญ่มีความสดใหม่จากโรงเรียนมัธยม แต่บางคนเป็นนักเรียนที่อายุมากกว่า 40 ปีขึ้นไปนักเรียนส่วนใหญ่มีปัญหาแรงจูงใจและความเกลียดชังทางคณิตศาสตร์ แต่ฉันยังคงมองหาหนังสือที่ครอบคลุมหลักสูตรพื้นฐาน: จากเชิงพรรณนาถึงการสุ่มตัวอย่างและการทดสอบไปจนถึง ANOVA และทั้งหมดในบริบทของวิธีการทดลอง แผนกต้องการให้ฉันใช้ SPSS ในชั้นเรียน แต่ฉันชอบความคิดในการสร้างการวิเคราะห์ในสเปรดชีตเช่น excel ป.ล. ครูคนอื่นใช้หนังสือที่ฉันไม่ชอบเพราะความเชื่อมั่นในสูตรการคำนวณที่กว้างขวาง ฉันพบว่าใช้สูตรคำนวณเหล่านี้ - แทนที่จะเป็นสูตรที่ใช้งานง่ายและเข้มข้นซึ่งสอดคล้องกับอัลกอริธึมเหตุผลและพื้นฐาน - ใช้งานง่ายไม่จำเป็นและสับสน นี่คือหนังสือที่ฉันอ้างถึงสิ่งจำเป็นสำหรับสถิติสำหรับพฤติกรรมศาสตร์, รุ่นที่ 7 เฟรดเดอริกเจ Gravetter มหาวิทยาลัยแห่งรัฐนิวยอร์ก, Brockport Larry B. Wallnau มหาวิทยาลัยแห่งรัฐนิวยอร์ก, Brockport ISBN-10: 049581220X ขอบคุณที่อ่าน!

3
การทดสอบ Dickey-Fuller ใดสำหรับซีรี่ส์เวลาที่มีการสกัดกั้น / ดริฟท์และแนวโน้มเชิงเส้น
เวอร์ชั่นสั้น: ฉันมีอนุกรมเวลาของข้อมูลสภาพภูมิอากาศที่ฉันกำลังทดสอบหาอยู่กับที่ จากการวิจัยก่อนหน้านี้ฉันคาดหวังรูปแบบพื้นฐาน (หรือ "การสร้าง" เพื่อที่จะพูด) ข้อมูลที่จะมีคำดักจับและแนวโน้มเวลาเชิงเส้นเชิงบวก ในการทดสอบข้อมูลเหล่านี้สำหรับความคงที่ฉันควรใช้การทดสอบ Dickey-Fuller ที่มีการสกัดกั้นและแนวโน้มเวลาเช่นสมการ # 3หรือไม่ ∇ yเสื้อ= α0+ α1t + δYt - 1+ uเสื้อ∇Yเสื้อ=α0+α1เสื้อ+δYเสื้อ-1+ยูเสื้อ\nabla y_t = \alpha_0+\alpha_1t+\delta y_{t-1}+u_t หรือฉันควรใช้การทดสอบ DF ที่มีเพียงการสกัดกั้นเพราะความแตกต่างแรกของสมการที่ฉันเชื่อว่าการจำลองนั้นมีเพียงการสกัดกั้น? รุ่นยาว: ตามที่ระบุไว้ข้างต้นฉันมีอนุกรมเวลาของข้อมูลสภาพภูมิอากาศที่ฉันกำลังทดสอบหาอยู่กับที่ จากการวิจัยก่อนหน้านี้ฉันคาดหวังว่าแบบจำลองที่อยู่ภายใต้ข้อมูลจะมีระยะเวลาการสกัดกั้นแนวโน้มเชิงเส้นเวลาเชิงบวกและคำผิดพลาดบางส่วนที่กระจายตามปกติ กล่าวอีกนัยหนึ่งฉันคาดหวังว่าแบบจำลองพื้นฐานจะมีลักษณะดังนี้: Yเสื้อ= a0+ a1t + βYt - 1+ uเสื้อYเสื้อ=a0+a1เสื้อ+βYเสื้อ-1+ยูเสื้อy_t = a_0 + a_1t + \beta y_{t-1} + u_t ที่มีการกระจายตามปกติ …

2
จะทำนายหรือขยายสายการถดถอยใน ggplot2 ได้อย่างไร?
ฉันมีกรอบข้อมูลที่มีสองชุดเวลา: วันที่และหมายเลขรุ่นของ Emacs และ Firefox ที่วางจำหน่าย การใช้หนึ่งคำสั่ง ggplot2 ทำให้ง่ายต่อการสร้างแผนภูมิที่ใช้เหลือง (ในลักษณะที่ดูน่าขบขันซึ่งฉันไม่สนใจ) เพื่อเปลี่ยนจุดให้เป็นเส้น ฉันจะขยายสายไปสู่อนาคตได้อย่างไร? ฉันต้องการตรวจสอบว่าหมายเลขรุ่น Emacs และ Firefox จะข้ามเมื่อใดและหากมีวิธีที่จะแสดงช่วงข้อผิดพลาดจะดีกว่าทั้งหมด เนื่องจาก ggplot2 กำลังพล็อตบรรทัดมันต้องมีโมเดล แต่ฉันไม่เห็นวิธีบอกให้ขยายบรรทัดหรือเพื่อเอาโมเดลออกมาและทำอะไรกับมัน > library(ggplot2) > programs <- read.csv("http://www.miskatonic.org/files/se-program-versions.csv") > programs$Date <- as.Date(programs$Date, format="%B %d, %Y") > head(programs) Program Version Date 1 Emacs 24.1 2012-06-10 2 Emacs 23.4 2012-01-29 3 Emacs 23.3 …

2
ฉันจะจัดระเบียบการนำเสนอโปสเตอร์ของฉันได้อย่างไร
ขณะนี้ฉันกำลังดำเนินการนำเสนอโปสเตอร์และต้องการคำแนะนำ (หรือการอ้างอิงถึงคำแนะนำ) เกี่ยวกับบางแง่มุมของกราฟิก สำหรับตัวอย่างโปสเตอร์ที่ฉันกำลังพูดถึงดูเนื้อหาเพิ่มเติมสำหรับบทความ ASA Data Expo ในเล่มที่ 20 ฉบับที่ 2 ของวารสารการคำนวณและสถิติแบบกราฟิก (อีกตัวอย่างอยู่ที่นี่ ( Hendrix et al., 2008 )) โปรดทราบด้วยว่าหากเป็นเรื่องสำคัญฉันจะยืนอยู่กับโปสเตอร์ที่พิมพ์ออกมาทางกายภาพมีกระดาษลงไปในรายละเอียดเพิ่มเติมเกี่ยวกับโครงการหากผู้สัญจรผ่านไปโดยร้องขอและสถานที่จะเป็นการประชุมทางวิชาการ การไหลของวัตถุควรแสดงในกราฟิกอย่างไร ผู้คนในภาษาอังกฤษมักอ่านจากซ้ายไปขวาแผงในโปสเตอร์ของฉันควรเป็นแบบเดียวกันหรือไม่ สำหรับตัวอย่าง (พิจารณาลำดับตามลำดับที่ฉันต้องการให้พาเนลถูกอ่าน) ลำดับของตารางที่ 1 จะดีกว่าในตารางที่ 2 หรือไม่? Table 1: 1 2 3 Table 2: 1 3 5 4 5 6 2 4 6 กราฟิกแต่ละตัวควรมีขนาดเล็ก / ใหญ่เท่าใด เมื่อผู้คนหยุดมองที่กราฟิกจริงบอกว่าพวกเขายังคงยืนห่างออกไป (นี่คือข้อสมมติฐานที่สมเหตุสมผลหรือไม่) …

1
การคาดคะเนหัวข้อโดยใช้การจัดสรร Dirichlet แฝง
ฉันใช้ LDA กับคลังเอกสารแล้วพบบางหัวข้อ ผลลัพธ์ของรหัสของฉันคือสองเมทริกซ์ที่มีความน่าจะเป็น ความน่าจะเป็นหัวข้อเอกสารหนึ่งรายการและความน่าจะเป็นหัวข้อคำอื่น ๆ แต่จริง ๆ แล้วฉันไม่รู้วิธีใช้ผลลัพธ์เหล่านี้เพื่อทำนายหัวข้อของเอกสารใหม่ ฉันใช้การสุ่มตัวอย่างของกิ๊บส์ ไม่มีใครรู้ได้อย่างไร ขอบคุณ

1
การส่งเสริมและห่อต้นไม้ (XGBoost, LightGBM)
มีโพสต์บล็อกมากมายวิดีโอ YouTube และอื่น ๆ เกี่ยวกับแนวคิดของการห่อ หรือ เพิ่มต้นไม้ ความเข้าใจทั่วไปของฉันคือรหัสหลอกสำหรับแต่ละคือ: บรรจุถุง: นำตัวอย่างแบบสุ่มจำนวน N% ของตัวอย่างและ y% ของฟีเจอร์ ปรับโมเดลของคุณ (เช่นแผนผังการตัดสินใจ) ในแต่ละ N ทำนายผลด้วยแต่ละ N เฉลี่ยการคาดการณ์เพื่อให้ได้คำทำนายสุดท้าย การส่งเสริมการ: ปรับโมเดลของคุณ (เช่นแผนผังการตัดสินใจ) กับข้อมูล รับส่วนที่เหลือ พอดีกับโมเดลของคุณกับของเหลือ ไปที่ 2 เพื่อเพิ่มรอบ N การทำนายขั้นสุดท้ายคือผลรวมถ่วงน้ำหนักของเครื่องทำนายลำดับ ฉันจะขอชี้แจงความเข้าใจของฉันด้านบน แต่คำถามที่ฉันตั้งใจไว้มีดังนี้: ทั้ง XGBoost และ LightGBM มี params ที่อนุญาตให้ใส่ถุงได้ แอปพลิเคชันไม่ได้บรรจุถุงหรือเพิ่มประสิทธิภาพ (ซึ่งเป็นสิ่งที่ทุกโพสต์ในบล็อกพูดถึง) แต่เป็นการบรรจุและเพิ่มประสิทธิภาพ รหัสหลอกสำหรับสถานที่และเวลาที่รวมถุงและการเพิ่มกำลังเกิดขึ้นคืออะไร? ฉันคาดว่ามันจะเป็น "ต้นไม้ที่ถูกกระตุ้นให้มีต้นไม้เพิ่มขึ้น" แต่ดูเหมือนว่ามันจะเป็น ความแตกต่างดูเหมือนมาก ต้นไม้ที่ได้รับการเสริมถุง: …

2
ความสำคัญของคุณลักษณะด้วยตัวแปรจำลอง
ฉันพยายามที่จะเข้าใจว่าฉันจะได้รับคุณลักษณะที่สำคัญของตัวแปรเด็ดขาดที่ถูกแบ่งย่อยเป็นตัวแปรจำลอง ฉันใช้ scikit เรียนรู้ซึ่งไม่ได้จัดการตัวแปรเด็ดขาดสำหรับคุณวิธี R หรือ h2o ถ้าฉันแบ่งตัวแปรเด็ดขาดลงเป็นตัวแปรดัมมี่ฉันจะได้รับคุณลักษณะที่แยกต่างหากต่อคลาสในตัวแปรนั้น คำถามของฉันคือมันเหมาะสมหรือไม่ที่จะรวมตัวกันของตัวแปรดัมมีความสำคัญเป็นค่าที่สำคัญสำหรับตัวแปรเด็ดขาดโดยการรวมเข้าด้วยกัน? จากหน้า 368 ขององค์ประกอบของการเรียนรู้ทางสถิติ: ความสำคัญของความสัมพันธ์กำลังสองของตัวแปรคือผลรวมของการปรับปรุงยกกำลังสองดังกล่าวสำหรับโหนดภายในทั้งหมดที่ถูกเลือกให้เป็นตัวแปรการแยกXℓXℓX_{ℓ} สิ่งนี้ทำให้ฉันคิดว่าเนื่องจากค่าความสำคัญถูกสร้างขึ้นแล้วโดยการรวมตัวชี้วัดที่แต่ละโหนดที่เลือกตัวแปรฉันควรจะสามารถรวมค่าความสำคัญของตัวแปรของตัวแปรจำลองเพื่อ "กู้คืน" ความสำคัญสำหรับตัวแปรหมวดหมู่ แน่นอนฉันไม่คาดหวังว่ามันจะถูกต้อง แต่ค่าเหล่านี้เป็นค่าที่แน่นอนจริง ๆ อยู่แล้วตั้งแต่พวกเขาพบผ่านกระบวนการสุ่ม ฉันได้เขียนโค้ดไพ ธ อนต่อไปนี้ (เป็นภาษาจูปีเตอร์) เป็นการสอบสวน: import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib import animation, rc from sklearn.datasets import load_diabetes from sklearn.ensemble import RandomForestClassifier …

5
อะไรคือความแตกต่างระหว่างการคาดการณ์“ ในตัวอย่าง” และ“ ไม่อยู่ในตัวอย่าง”?
ฉันไม่เข้าใจว่าอะไรคือความแตกต่างระหว่างการทำนาย "ในตัวอย่าง" และ "จากตัวอย่าง" การพยากรณ์ในตัวอย่างใช้ชุดย่อยของข้อมูลที่มีอยู่เพื่อคาดการณ์ค่านอกระยะเวลาการประมาณ การคาดการณ์นอกกลุ่มตัวอย่างใช้ข้อมูลที่มีอยู่ทั้งหมดสิ่ง เหล่านี้ถูกต้องหรือไม่ คำจำกัดความต่อไปนี้ถูกต้องมากโดยเฉพาะถูกต้องหรือไม่ การคาดการณ์ภายในตัวอย่างใช้ชุดย่อยของข้อมูลที่มีอยู่เพื่อคาดการณ์ค่าภายนอกระยะเวลาการประมาณและเปรียบเทียบกับผลลัพธ์ที่ทราบหรือเป็นจริงที่สอดคล้องกัน สิ่งนี้ทำเพื่อประเมินความสามารถของแบบจำลองเพื่อคาดการณ์ค่าที่ทราบ ตัวอย่างเช่นการคาดการณ์ตัวอย่างภายในปี 1980 ถึง 2015 อาจใช้ข้อมูลจากปี 1980 ถึง 2012 เพื่อประเมินโมเดล เมื่อใช้โมเดลนี้ผู้พยากรณ์จะทำนายค่าสำหรับ 2013-2015 และเปรียบเทียบค่าที่คาดการณ์กับค่าที่ทราบจริง การคาดการณ์ไม่อยู่ตัวอย่างจะใช้ข้อมูลที่มีอยู่ทั้งหมดในตัวอย่างเพื่อประเมินโมเดล สำหรับตัวอย่างก่อนหน้าการประมาณจะดำเนินการในช่วงปี 1980-2015 และการคาดการณ์จะเริ่มในปี 2559

2
วิธีการใช้การถดถอยโลจิสติกอันดับที่มีผลแบบสุ่ม?
ในการศึกษาของฉันฉันจะวัดปริมาณงานด้วยหลายเมตริก ด้วยความแปรปรวนของอัตราการเต้นของหัวใจ (HRV), กิจกรรมอิเล็กโทรเดอร์มัล (EDA) และสเกลอัตนัย (IWS) หลังจากการทำให้เป็นมาตรฐาน IWS มีสามค่า: ปริมาณงานต่ำกว่าปกติ ปริมาณงานโดยเฉลี่ย ปริมาณงานสูงกว่าปกติ ฉันต้องการดูว่ามาตรการทางสรีรวิทยาสามารถทำนายปริมาณงานที่กระทำได้หรือไม่ ดังนั้นฉันต้องการใช้ข้อมูลอัตราส่วนเพื่อทำนายค่าลำดับ ตาม: ฉันจะรันการวิเคราะห์การถดถอยโลจิสติกแบบ Ordinal ใน R ด้วยค่าตัวเลข / หมวดหมู่ได้อย่างไร สิ่งนี้ทำได้ง่ายโดยใช้MASS:polrฟังก์ชั่น อย่างไรก็ตามฉันต้องการบัญชีสำหรับเอฟเฟ็กต์แบบสุ่มเช่นความแตกต่างระหว่างเรื่องเพศการสูบบุหรี่ ฯลฯ เมื่อดูที่บทช่วยสอนนี้ฉันไม่เห็นว่าฉันจะเพิ่มเอฟเฟกต์แบบสุ่มMASS:polrได้อย่างไร อีกทางเลือกหนึ่งlme4:glmerจะเป็นตัวเลือก แต่ฟังก์ชั่นนี้จะช่วยให้การคาดการณ์ของข้อมูลไบนารี เป็นไปได้หรือไม่ที่จะเพิ่มเอฟเฟกต์แบบสุ่มลงในการถดถอยโลจิสติกอันดับ

2
การจำแนกประเภทด้วยการไล่ระดับสีแบบไล่ระดับ: วิธีการทำนายใน [0,1]
คำถาม ฉันกำลังดิ้นรนเพื่อทำความเข้าใจว่าการทำนายนั้นจะอยู่ในช่วง[0,1][0,1][0,1]เมื่อทำการจำแนกไบนารีด้วยการไล่ระดับสีแบบค่อยเป็นค่อยไป สมมติว่าเรากำลังทำงานกับปัญหาการจำแนกเลขฐานสองและฟังก์ชันวัตถุประสงค์ของเราคือการสูญเสียบันทึก−∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))โดยที่yyyคือตัวแปรเป้าหมาย∈{0,1}∈{0,1}\in \{0,1\}และHHHคือโมเดลปัจจุบันของเรา เมื่อการฝึกอบรมผู้เรียนที่อ่อนแอต่อไปhihih_iดังกล่าวว่ารูปแบบใหม่ของเราคือHi=Hi−1+hiHi=Hi−1+hiH_i = H_{i-1} + h_iสิ่งที่เป็นกลไกที่ควรจะให้Hi∈[0,1]Hi∈[0,1]H_i \in [0,1] ? หรืออาจเป็นคำถามที่เกี่ยวข้องมากกว่านี้มีกลไกแบบนี้หรือไม่? ข้อมูลเพิ่มเติมเกี่ยวกับสิ่งที่ฉันทำ ฉันกำลังพยายามเพิ่มการไล่ระดับสีโดยใช้ต้นไม้การถดถอย สิ่งที่ฉันทำเพื่อหลีกเลี่ยงมันคือการคูณด้วยปัจจัยc ∈ [ 0 , c max ]เช่นนี้H + c max hไม่ไปต่ำกว่าศูนย์หรือสูงกว่าหนึ่งและฉันเลือกcในช่วงนี้ที่ย่อเล็กสุด ฟังก์ชั่นการสูญเสียhihih_ic∈[0,cmax]c∈[0,cmax]c \in [0,c_{\text{max}}]H+cmaxhH+cmaxhH + c_{\text{max}}hccc นี่ทำให้เกิดปัญหาต่อไปนี้: หลังจากรอบฉันมีจุดหนึ่งที่จำแนกอย่างสมบูรณ์และแบ่งที่ดีที่สุดที่มีการผลักลักษณนามในทิศทางของการไล่ระดับสีต้องการผลักดันจุดนี้เหนือจุดหนึ่งซึ่งฉันแน่ใจว่าจะไม่เกิดขึ้นโดย การตั้งค่า 0 ดังนั้นการวนซ้ำครั้งถัดไปทั้งหมดจะเลือกการแบ่งที่เหมือนกันและc = 0 ที่เหมือนกันc=0c=0c = 0c=0c=0c = 0 ฉันลองใช้ระเบียบปฏิบัติทั่วไป …

1
วิธีค้นหา / ประมาณความหนาแน่นของความน่าจะเป็นจากฟังก์ชันความหนาแน่นใน R
สมมติว่าฉันมีตัวแปรเช่นเดียวXกับการกระจายที่ไม่รู้จัก ใน Mathematica โดยใช้SmoothKernelDensityฟังก์ชั่นที่เราสามารถมีประมาณ function.This ความหนาแน่นของฟังก์ชั่นความหนาแน่นประมาณสามารถนำมาใช้ควบคู่ไปกับPDFฟังก์ชั่นฟังก์ชั่นความหนาแน่นของการคำนวณความน่าจะเป็นของมีค่าเช่นXในรูปแบบของPDF[density,X]สมมติว่า "ความหนาแน่น" SmoothKernelDensityเป็นผลมาจาก มันจะดีถ้ามีคุณสมบัติดังกล่าวใน R นี่คือวิธีการทำงานใน Mathematica http://reference.wolfram.com/mathematica/ref/SmoothKernelDistribution.html เป็นตัวอย่าง (ขึ้นอยู่กับฟังก์ชั่น Mathematica): data = RandomVariate[NormalDistribution[], 100]; #generates 100 values from N(0,1) density= SmoothKernelDistribution[data]; #estimated density PDF[density, 2.345] returns 0.0588784 คุณสามารถหาข้อมูลเพิ่มเติมเกี่ยวกับ PDF ได้ที่นี่ http://reference.wolfram.com/mathematica/ref/PDF.html ฉันรู้ว่าฉันสามารถวางแผนฟังก์ชั่นความหนาแน่นของมันโดยใช้density(X)ใน R และโดยการใช้ecdf(X)ฉันสามารถได้รับฟังก์ชั่นการแจกแจงสะสมเชิงประจักษ์มันเป็นไปได้ที่จะทำสิ่งเดียวกันใน R ตามสิ่งที่ฉันอธิบายเกี่ยวกับ Mathematica? ความช่วยเหลือและความคิดใด ๆ ที่ชื่นชม
17 r  pdf  cdf 

3
วิธีการเลือกก่อนในการประมาณค่าพารามิเตอร์แบบเบย์
ฉันรู้ 3 วิธีในการประมาณค่าพารามิเตอร์, วิธี ML, MAP และ Bayes และสำหรับวิธี MAP และ Bayes เราต้องเลือก priors สำหรับพารามิเตอร์ใช่ไหม สมมติว่าฉันมีโมเดลนี้p(x|α,β)p(x|α,β)p(x|\alpha,\beta)ซึ่งα,βα,β\alpha,\betaเป็นพารามิเตอร์เพื่อทำการประมาณค่าโดยใช้ MAP หรือ Bayes ฉันอ่านในหนังสือที่เราควรเลือกคอนจูเกตก่อนp(α,β)p(α,β)p(\alpha,\beta)ซึ่งเป็นความน่าจะเป็นร่วมของα,βα,β\alpha,\beta , จริงไหม? ฉันมีคำถาม 2 ข้อ: เรามีทางเลือกอื่น ๆ เลือกสิ่งอื่นนอกเหนือจากคอนจูเกตนี้หรือไม่? เราสามารถเลือก Priors สำหรับαα\alphaและตามลำดับเช่นและนอกเหนือจากที่รวมไว้ในข้อต่อได้หรือไม่?ββ\betap(α)p(α)p(\alpha)p(β)p(β)p(\beta)

2
ป่าสุ่มที่มีผลผลิตหลายรายการจะเป็นไปได้ / ในทางปฏิบัติหรือไม่?
ป่าสุ่ม (RFs) เป็นการสร้างแบบจำลองข้อมูลการแข่งขัน / วิธีการขุด RF model มีหนึ่งเอาต์พุต - ตัวแปรเอาต์พุต / การทำนาย วิธีการที่ไร้เดียงสาในการสร้างแบบจำลองเอาต์พุตจำนวนมากที่มี RFs คือการสร้าง RF สำหรับตัวแปรเอาต์พุตแต่ละตัว ดังนั้นเราจึงมีโมเดลอิสระ N และที่ใดที่มีความสัมพันธ์ระหว่างตัวแปรเอาต์พุตเราจะมีโครงสร้างโมเดลซ้ำซ้อน / ซ้ำกัน นี่อาจสิ้นเปลืองอย่างมากแน่นอน นอกจากนี้ในฐานะที่เป็นกฎทั่วไปมากขึ้นตัวแปรรูปแบบหมายถึงรูปแบบ overfit มากขึ้น (การวางหลักเกณฑ์ทั่วไปน้อยกว่า) ไม่แน่ใจว่าสิ่งนี้ใช้ที่นี่ แต่อาจเป็นไปได้ โดยหลักการแล้วเราอาจมี RF ที่มีเอาต์พุตหลายตัว ตัวแปรการทำนายตอนนี้เป็นเวกเตอร์ (n-tuple) โหนดการตัดสินใจในต้นไม้การตัดสินใจแต่ละชุดจะแยกชุดของเวกเตอร์เป้าหมาย / การทำนายโดยใช้เวกเตอร์จุดเริ่มต้นฉันคิดว่าเกณฑ์นี้ถูกนำมาใช้เป็นระนาบในพื้นที่ n- มิติดังนั้นเราจึงสามารถกำหนดด้านใดของเกณฑ์ เวกเตอร์เป้าหมายแต่ละตัวเปิดอยู่ ค่าการทำนายที่เหมาะสมที่สุดสำหรับแต่ละด้านของการแยกการตัดสินใจคือค่าเฉลี่ย (centroid) ที่คำนวณสำหรับเวกเตอร์ในแต่ละด้าน การค้นหาจุดแยกที่เหมาะสมที่สุดเมื่อทำงานกับตัวแปรเดี่ยวนั้นมีความสำคัญและรวดเร็ว / มีประสิทธิภาพในการคำนวณ สำหรับ n-tuple เราไม่สามารถหาการแยกที่ดีที่สุด (หรืออย่างน้อยก็กลายเป็น …

2
วิธีจัดการกับข้อผิดพลาดเช่น“ ค่าสัมประสิทธิ์: 14 ไม่ได้ถูกนิยามเนื่องจากภาวะเอกฐาน” ใน R?
เมื่อทำ GLM และคุณได้รับข้อผิดพลาด "ไม่ได้ถูกกำหนดเนื่องจากภาวะเอกฐาน" ในผลลัพธ์ anova หนึ่งจะตอบโต้ข้อผิดพลาดนี้ได้อย่างไร บางคนบอกว่าเป็นเพราะ collinearity ระหว่าง covariates หรือว่าหนึ่งในระดับที่ไม่ได้อยู่ในชุดข้อมูล (ดู: การตีความ "ไม่ได้กำหนดไว้เพราะเอกภาวะ" ใน lm ) ถ้าผมอยากจะดูว่า "การรักษาโดยเฉพาะอย่างยิ่ง" คือการขับรถรูปแบบและฉันมี 4 ระดับของการรักษา: Treat 1, Treat 2, Treat 3และTreat 4ซึ่งได้รับการบันทึกไว้ในสเปรดชีตของฉันเป็น: เมื่อTreat 11 ส่วนที่เหลือเป็นศูนย์เมื่อTreat 21 ส่วนที่เหลือเป็นศูนย์ เป็นต้นฉันต้องทำอย่างไร

2
การทบทวนวรรณกรรมเกี่ยวกับการถดถอยแบบไม่เชิงเส้น
ไม่มีใครรู้บทความตรวจสอบที่ดีสำหรับวรรณกรรมทางสถิติเกี่ยวกับการถดถอยแบบไม่เชิงเส้นหรือไม่? ฉันสนใจหลักในผลลัพธ์ที่สอดคล้องและ asymptotics สิ่งที่น่าสนใจเป็นพิเศษคือรูปแบบ yit=m(xit,θ)+ϵit,yit=m(xit,θ)+ϵit,y_{it} = m(x_{it},\theta) + \epsilon_{it}, สำหรับข้อมูลแผง ที่น่าสนใจน้อยกว่าคือวิธีการที่ไม่ใช่พารามิเตอร์ ข้อเสนอแนะสำหรับวารสารที่มองเข้าไปก็ยินดีต้อนรับเช่นกัน ในขณะนี้ฉันกำลังอ่าน Amemiya (1983) ในคู่มือเศรษฐมิติแต่ฉันหวังว่าจะได้รับบางสิ่งที่ทันสมัยกว่านี้ Wooldridge, JM (1996) "การประมาณค่าระบบของสมการด้วยเครื่องมือต่าง ๆ สำหรับสมการที่แตกต่างกัน" ในJournal of Econometricsเป็นตัวอย่างของการมีส่วนร่วมในภายหลังกว่าการตรวจสอบข้างต้นดังนั้นจึงไม่รวม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.