สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
การทดสอบตัวผู้ใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน7 เดือนที่ผ่านมา ในการทดสอบสมมติฐานการถดถอยแบบขนานในการถดถอยโลจิสติกอันดับฉันพบว่ามีหลายวิธี ฉันใช้ทั้งวิธีกราฟิก (ตามรายละเอียดในหนังสือของ Harrell) และวิธีรายละเอียดโดยใช้ แพ็คเกจลำดับใน R อย่างไรก็ตามฉันต้องการรันการทดสอบ Brant (จาก Stata) สำหรับทั้งตัวแปรเดี่ยวและสำหรับโมเดลทั้งหมด ฉันได้ดูไปรอบ ๆ แต่ไม่พบการใช้งานใน R มีการนำการทดสอบ Brant ไปใช้ใน R หรือไม่?

3
การประมาณ
ฉันมีแบบจำลองทางเศรษฐศาสตร์เชิงทฤษฎีซึ่งมีดังต่อไปนี้ y=a+b1x1+b2x2+b3x3+uy=a+b1x1+b2x2+b3x3+u y = a + b_1x_1 + b_2x_2 + b_3x_3 + u ดังนั้นทฤษฎีบอกว่ามี , x 2และx 3ปัจจัยในการประมาณการปีx1x1x_1x2x2x_2x3x3x_3yyy ตอนนี้ผมมีข้อมูลจริงและฉันต้องการที่จะประเมิน , ข2 , B 3 ปัญหาคือชุดข้อมูลจริงมีเพียงข้อมูลสำหรับx 1และx 2เท่านั้น มีข้อมูลสำหรับการไม่มีx 3 ดังนั้นแบบจำลองที่ฉันสามารถใส่ได้คือ:b1b1b_1b2b2b_2b3b3b_3x1x1x_1x2x2x_2x3x3x_3 y=a+b1x1+b2x2+uy=a+b1x1+b2x2+uy = a + b_1x_1 + b_2x_2 + u มันโอเคที่จะประเมินโมเดลนี้หรือไม่? ฉันจะสูญเสียสิ่งที่ประเมินหรือไม่ ถ้าฉันประมาณ , b 2แล้วเทอมb 3 x 3จะไปที่ไหนb1b1b_1b2b2b_2b3x3b3x3b_3x_3 มันคิดโดยระยะผิดพลาด ?uuu …

1
ค่าประมาณของประชากร R-Square คืออะไร
ฉันสนใจที่จะประเมินค่าไม่เอนเอียงในการถดถอยเชิงเส้นแบบหลายค่าR2R2R^2 ในการไตร่ตรองฉันสามารถนึกถึงสองค่าที่ต่างกันซึ่งการประมาณค่าที่เป็นกลางของอาจพยายามเทียบR2R2R^2 จากตัวอย่าง :R2R2R^2 r-square ที่จะได้รับหากสมการถดถอยที่ได้จากตัวอย่าง (เช่น ) ถูกนำไปใช้กับข้อมูลจำนวนอนันต์ภายนอกกับตัวอย่าง แต่จากข้อมูลเดียวกัน กระบวนการสร้างβ^β^\hat{\beta} ประชากร :R2R2R^2 r-square ที่จะได้รับถ้าตัวอย่างที่ไม่มีที่สิ้นสุดได้รับและรูปแบบที่พอดีกับตัวอย่างที่ไม่มีที่สิ้นสุด (เช่น ) หรืออีกทางหนึ่งเพียงแค่ R-Square โดยนัยโดยกระบวนการสร้างข้อมูลที่รู้จักββ\beta ผมเข้าใจว่าการปรับR2R2R^2ถูกออกแบบมาเพื่อชดเชยการ overfitting สังเกตในตัวอย่าง 2 อย่างไรก็ตามมันไม่ชัดเจนว่าการปรับค่านั้นเป็นค่าประมาณที่เป็นกลางโดยประมาณของหรือไม่และหากเป็นการประมาณการที่ไม่เอนเอียงซึ่งคำจำกัดความสองประการข้างต้นของนั้นมีเป้าหมายเพื่อประเมินR2R2R^2R2R2R^2R2R2R^2R2R2R^2 ดังนั้นคำถามของฉัน: ค่าประมาณที่เป็นกลางของสิ่งที่ฉันเรียกข้างบนจากตัวอย่างR2R2R^2คืออะไร ค่าประมาณที่เป็นกลางของสิ่งที่ฉันเรียกข้างบนประชากรคืออะไร?R2R2R^2 มีการอ้างอิงใด ๆ ที่ให้การจำลองหรือหลักฐานอื่น ๆ เกี่ยวกับความเป็นกลางหรือไม่?

6
เวลาที่ใช้ในกิจกรรมเป็นตัวแปรอิสระ
ฉันต้องการรวมเวลาที่ใช้ในการทำบางสิ่ง (เช่นการให้นมลูกเป็นสัปดาห์) เป็นตัวแปรอิสระในโมเดลเชิงเส้น อย่างไรก็ตามการสังเกตบางอย่างไม่ได้มีส่วนร่วมในพฤติกรรมเลย การเข้ารหัสเป็น 0 ไม่ถูกต้องเพราะ 0 นั้นมีคุณภาพแตกต่างจากค่าใด ๆ > 0 (นั่นคือผู้หญิงที่ไม่ได้ให้นมลูกอาจแตกต่างจากผู้หญิงที่ทำเช่นนั้นแม้แต่คนที่ไม่ได้ทำมานานมาก) สิ่งที่ดีที่สุดที่ฉันสามารถทำได้คือชุดของหุ่นที่แบ่งเวลาที่ใช้ออกไป แต่นี่เป็นข้อมูลที่มีค่า บางสิ่งบางอย่างที่เหมือนกับปัวซองที่มีค่าเป็นศูนย์สูงเกินไปก็ดูเหมือนว่าเป็นไปได้ แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าจะมีลักษณะอย่างไรในบริบทนี้ ไม่มีใครมีข้อเสนอแนะใด ๆ ?

3
วิธีการทดสอบความเท่าเทียมกันพร้อมกันของสัมประสิทธิ์เลือกใน logit หรือ probit model?
วิธีการทดสอบความเท่าเทียมกันพร้อมกันของสัมประสิทธิ์เลือกใน logit หรือ probit model? วิธีมาตรฐานคืออะไรและสถานะของศิลปะคืออะไร?


1
วิธีการหาที่เหลือและพล็อตพวกเขา
ฉันได้รับข้อมูลแล้ว x = c(21,34,6,47,10,49,23,32,12,16,29,49,28,8,57,9,31,10,21,26,31,52,21,8,18,5,18,26,27,26,32,2,59,58,19,14,16,9,23,28,34,70,69,54,39,9,21,54,26) y = c(47,76,33,78,62,78,33,64,83,67,61,85,46,53,55,71,59,41,82,56,39,89,31,43,29,55, 81,82,82,85,59,74,80,88,29,58,71,60,86,91,72,89,80,84,54,71,75,84,79) ฉันจะได้รับส่วนที่เหลือและพล็อตกับอย่างไร? และฉันจะทดสอบว่าส่วนที่เหลือดูเหมือนจะเป็นปกติโดยประมาณได้อย่างไรxxx ฉันไม่แน่ใจว่าถ้าฉันทำแบบเชิงเส้นพอดีอย่างถูกต้องเมื่อฉันได้สมการแต่บันทึกการบรรยายบอกว่าเส้นการถดถอยเชิงเส้นควรอยู่ในรูปแบบy i = β 0 + β 1 x + ϵ .Y= 6.9 x - 5.5Y=6.9x-5.5y=6.9x-5.5Yผม= β0+ β1x + ϵYผม=β0+β1x+εy_i=\beta_0+\beta_1x+\epsilon
14 r  regression 

2
ประสิทธิภาพของตัวแบบในการสร้างแบบจำลองควอไทล์
ฉันใช้การถดถอยแบบควอไทล์ (เช่นผ่านgbmหรือquantregใน R) - ไม่ได้มุ่งเน้นไปที่ค่ามัธยฐาน แต่แทนที่จะเป็นควอไทล์บน (เช่น 75) มาจากพื้นหลังการสร้างแบบจำลองการคาดการณ์ฉันต้องการวัดความเหมาะสมของแบบจำลองในชุดทดสอบและสามารถอธิบายสิ่งนี้กับผู้ใช้ทางธุรกิจ คำถามของฉันเป็นอย่างไร ในการตั้งค่าทั่วไปที่มีเป้าหมายต่อเนื่องฉันสามารถทำสิ่งต่อไปนี้: คำนวณ RMSE โดยรวม จัดทำชุดข้อมูลตามค่าที่ทำนายและเปรียบเทียบค่าเฉลี่ยจริงกับค่าเฉลี่ยที่คาดการณ์ในแต่ละช่วง เป็นต้น สิ่งที่สามารถทำได้ในกรณีนี้ที่ไม่มีมูลค่าจริง (ฉันไม่คิดว่าอย่างน้อย) เพื่อเปรียบเทียบการทำนายกับ? นี่คือตัวอย่างรหัส: install.packages("quantreg") library(quantreg) install.packages("gbm") library(gbm) data("barro") trainIndx<-sample(1:nrow(barro),size=round(nrow(barro)*0.7),replace=FALSE) train<-barro[trainIndx,] valid<-barro[-trainIndx,] modGBM<-gbm(y.net~., # formula data=train, # dataset distribution=list(name="quantile",alpha=0.75), # see the help for other choices n.trees=5000, # number of trees shrinkage=0.005, # shrinkage …

1
ค่าสัมประสิทธิ์การถดถอยแนวสันที่ใหญ่กว่าค่าสัมประสิทธิ์ OLS หรือเครื่องหมายการเปลี่ยนแปลงนั้นขึ้นอยู่กับ
เมื่อเรียกใช้การถดถอยแบบสันคุณจะตีความค่าสัมประสิทธิ์ที่มีขนาดใหญ่กว่าค่าสัมประสิทธิ์ที่เกี่ยวข้องภายใต้กำลังสองน้อยที่สุด (สำหรับค่าบางค่าของ ) อย่างไร การถดถอยสันไม่ควรทำให้ค่าสัมประสิทธิ์หดตัวเป็นก้อนหรือไม่λλ\lambda ในบันทึกที่เกี่ยวข้องเราตีความค่าสัมประสิทธิ์ที่มีการเปลี่ยนแปลงเครื่องหมายระหว่างการถดถอยของสันได้อย่างไร (กล่าวคือการติดตามของสันเขาข้ามจากลบเป็นบวกกับพล็อตการติดตามสัน)

1
ใช้ LASSO บนฟอเรสต์แบบสุ่ม
ฉันต้องการสร้างฟอเรสต์แบบสุ่มโดยใช้กระบวนการต่อไปนี้: สร้างแผนภูมิบนตัวอย่างสุ่มของข้อมูลและคุณลักษณะโดยใช้การรับข้อมูลเพื่อกำหนดแยก ยุติโหนดลีฟหากมันเกินความลึกที่กำหนดไว้ล่วงหน้าหรือการแยกใด ๆ จะส่งผลให้การนับใบไม้น้อยกว่าค่าต่ำสุดที่กำหนดไว้ล่วงหน้า แทนที่จะกำหนดเลเบลคลาสสำหรับแต่ละแผนผังกำหนดสัดส่วนของคลาสในโหนดลีฟ หยุดการสร้างต้นไม้หลังจากสร้างหมายเลขที่กำหนดไว้ล่วงหน้าแล้ว สิ่งนี้ทำให้กระบวนการป่าสุ่มแบบดั้งเดิมมีสองวิธี หนึ่งจะใช้ต้นไม้ที่ถูกตัดแต่งที่กำหนดสัดส่วนมากกว่าฉลากชั้น และสองเกณฑ์หยุดคือจำนวนต้นไม้ที่กำหนดไว้ล่วงหน้าแทนที่จะเป็นค่าประมาณข้อผิดพลาดบางส่วน คำถามของฉันคือ: สำหรับกระบวนการข้างต้นที่ส่งออกต้นไม้ N แล้วฉันสามารถใส่แบบจำลองโดยใช้การถดถอยโลจิสติกพร้อมการเลือก LASSO ได้หรือไม่? ใครบ้างมีประสบการณ์ที่เหมาะสมกับตัวจําแนกฟอเรสต์แบบสุ่มและการประมวลผลหลังด้วย LASSO โลจิสติกส์หรือไม่? เฟรมเวิร์ก ISLE กล่าวถึงการใช้ LASSO เป็นขั้นตอนหลังการประมวลผลสำหรับปัญหาการถดถอย แต่ไม่ใช่ปัญหาการจำแนกประเภท นอกจากนี้ฉันไม่ได้รับผลลัพธ์ที่เป็นประโยชน์เมื่อ googling "Random forest lasso"

1
ตกลงเพื่อผสมข้อมูลเด็ดขาดและต่อเนื่องสำหรับ SVM (รองรับ Vector Machines) หรือไม่
ฉันมีชุดข้อมูลเช่น +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 | SHOP & HOUSE | …

1
วิธีการทำนายอนุกรมเวลาหนึ่งครั้งจากอนุกรมเวลาอื่นหากสัมพันธ์กัน
ฉันพยายามที่จะแก้ปัญหานี้มานานกว่าหนึ่งปีโดยไม่มีความคืบหน้ามาก มันเป็นส่วนหนึ่งของโครงการวิจัยที่ฉันทำ แต่ฉันจะแสดงให้เห็นตัวอย่างของเรื่องที่ฉันทำเพราะโดเมนที่แท้จริงของปัญหานั้นค่อนข้างสับสน (การติดตามด้วยตา) คุณเป็นเครื่องบินที่ติดตามเรือศัตรูที่เดินทางข้ามมหาสมุทรดังนั้นคุณจึงได้รวบรวมพิกัด (x, y, เวลา) พิกัดของเรือ คุณรู้ไหมว่าเรือดำน้ำที่ซ่อนอยู่เดินทางไปกับเรือเพื่อปกป้องมัน แต่ในขณะที่มีความสัมพันธ์ระหว่างตำแหน่งของพวกเขาเรือดำน้ำมักจะออกเดินทางจากเรือดังนั้นในขณะที่มันอยู่ใกล้มันบ่อยครั้ง โลกเป็นครั้งคราว คุณต้องการที่จะทำนายเส้นทางของเรือดำน้ำ แต่น่าเสียดายที่มันถูกซ่อนไว้จากคุณ แต่หนึ่งเดือนในเดือนเมษายนคุณสังเกตเห็นว่าเรือดำน้ำลืมที่จะซ่อนตัวเองดังนั้นคุณจึงมีชุดพิกัดสำหรับทั้งเรือดำน้ำและเรือตลอดการเดินทาง 1,000 ครั้ง เมื่อใช้ข้อมูลนี้คุณต้องการสร้างแบบจำลองเพื่อทำนายเส้นทางของเรือดำน้ำที่ซ่อนอยู่ซึ่งเป็นเพียงการเคลื่อนไหวของเรือ พื้นฐานที่ไร้เดียงสาคือการพูดว่า "ตำแหน่งเรือดำน้ำเดา =" ตำแหน่งปัจจุบันของเรือ "แต่จากข้อมูลเดือนเมษายนที่มองเห็นเรือดำน้ำคุณสังเกตเห็นว่ามีแนวโน้มที่เรือดำน้ำจะอยู่หน้าเรือสักหน่อยดังนั้น" ตำแหน่งเรือดำน้ำ guess = ตำแหน่งของเรือใน 1 นาที "เป็นการคาดการณ์ที่ดียิ่งขึ้นนอกจากนี้ข้อมูลเมษายนแสดงว่าเมื่อเรือหยุดในน้ำเป็นระยะเวลานานเรือดำน้ำน่าจะลาดตระเวนน่านน้ำชายฝั่งไกลออกไป แน่นอน. คุณจะสร้างโมเดลนี้อย่างไรโดยให้ข้อมูลเดือนเมษายนเป็นข้อมูลการฝึกอบรมเพื่อคาดการณ์เส้นทางของเรือดำน้ำ โซลูชันปัจจุบันของฉันคือการถดถอยเชิงเส้นแบบเฉพาะกิจซึ่งปัจจัยคือ "เวลาเดินทาง", "พิกัด x ของเรือ", "ไม่ได้ใช้งานเรือเป็นเวลา 1 วัน" ฯลฯ จากนั้นให้ R คำนวณน้ำหนักและทำการตรวจสอบข้าม . แต่ฉันชอบวิธีสร้างปัจจัยเหล่านี้โดยอัตโนมัติจากข้อมูลเดือนเมษายน นอกจากนี้รูปแบบที่ใช้ลำดับหรือเวลาจะดีเนื่องจากการถดถอยเชิงเส้นไม่ได้และฉันคิดว่ามันเกี่ยวข้อง ขอบคุณที่อ่านทั้งหมดนี้และฉันยินดีที่จะชี้แจงอะไร

1
ประสิทธิภาพการทำนายขึ้นอยู่กับความเชี่ยวชาญของนักวิเคราะห์ข้อมูลมากกว่าวิธี?
ฉันเจอข่าวลือว่าการศึกษาบางส่วนแสดงให้เห็นว่าประสิทธิภาพของแบบจำลองการทำนายขึ้นอยู่กับความเชี่ยวชาญของนักวิเคราะห์ข้อมูลด้วยวิธีที่เลือกมากกว่าวิธีการเลือก กล่าวอีกนัยหนึ่งข้อกล่าวอ้างว่ามันสำคัญกว่าที่นักวิเคราะห์ข้อมูลจะคุ้นเคยกับวิธีที่เลือกมากกว่าวิธีที่ "เหมาะสม" วิธีที่ดูเหมือนจะเป็นปัญหาจากมุมมองเชิงทฤษฎีมากกว่า สิ่งนี้ถูกกล่าวถึงในบริบทของเคมีบำบัดซึ่งโดยทั่วไปแล้วจะเกี่ยวข้องกับปัญหาของตัวแปรหลายอย่าง (100s - 1000s), collinearity หลายอันและแน่นอนว่ามีตัวอย่างน้อยเกินไป การทำนายอาจเป็นการจำแนกหรือการถดถอย ประสบการณ์ส่วนตัวของฉันแสดงให้เห็นว่าสิ่งนี้เป็นไปได้แต่มีการพูดถึงการศึกษา (ฉันถามคนที่พูดถึงเรื่องนั้นทางอีเมลหลังจากการค้นหาที่รวดเร็ว แต่ไม่สำเร็จ แต่ไม่เคยได้รับคำตอบใด ๆ ) อย่างไรก็ตามด้วยการค้นหาที่ละเอียดยิ่งขึ้นฉันก็ไม่สามารถติดตามบทความใด ๆ ได้ มีใครตระหนักถึงการค้นพบดังกล่าวหรือไม่ ถ้าไม่ใช่ประสบการณ์ส่วนตัวของ Big Guys ที่นี่พูดว่าอะไร?

2
ความสัมพันธ์เชิงพื้นที่สัมพันธ์กับความนิ่งเชิงพื้นที่
สมมติว่าเรามีจุดในพื้นที่สองมิติและเราต้องการที่จะวัดผลกระทบของคุณลักษณะแอตทริบิวต์Y แบบจำลองการถดถอยเชิงเส้นทั่วไปคือแน่นอน y = X β + ϵXXXyyyy=Xβ+ϵy=Xβ+ϵy= X\beta + \epsilon มีสองปัญหาอยู่ที่นี่: ครั้งแรกก็คือว่าแง่อาจจะมีความสัมพันธ์เชิงพื้นที่ (ละเมิดสมมติฐานข้อผิดพลาดที่เป็นอิสระและเหมือนกัน) และอย่างที่สองก็คือว่าสัมประสิทธิ์การถดถอยอาจแตกต่างกันไปทั่วพื้นที่ ปัญหาแรกสามารถแก้ไขได้ด้วยการรวมคำศัพท์เชิงพื้นที่เชิงล่าช้าเข้ากับโมเดลดังเช่นϵϵ\epsilon y=ρWy+Xβ+ϵy=ρWy+Xβ+ϵy=\rho W y + X\beta + \epsilon เรายังสามารถรวมตัวแปรที่ข้ามการข้ามค่าอัตโนมัติเชิงพื้นที่ (spatial fixed effects) กับโมเดล Durbin เชิงพื้นที่ที่อธิบายไว้ในข้อความโดย LeSage และ Pace y=ρWy+Xβ+WXλ+ϵy=ρWy+Xβ+WXλ+ϵy=\rho W y + X\beta + WX\lambda + \epsilon ρρ\rhoWWW βiβi\beta_iβ^i=(XTWiX)−1XTWiyβ^i=(XTWiX)−1XTWiy\hat{\beta}_i = (X^TW_iX)^{-1}X^T W_i yWWW XXXyyyββ\beta นี่คือความพยายามของฉันที่คำตอบแรก: …

3
การเลือกตัวแปรแบบเบย์ - ใช้งานได้จริงหรือ
ฉันคิดว่าฉันอาจเล่นกับการเลือกตัวแปรแบบเบย์บางอย่างหลังจากโพสต์บล็อกที่ดีและเอกสารที่เชื่อมโยงอยู่ในนั้น ฉันเขียนโปรแกรมในrjags (ที่ฉันค่อนข้างใหม่) และดึงข้อมูลราคาสำหรับ Exxon Mobil พร้อมกับบางสิ่งที่ไม่น่าจะอธิบายผลตอบแทน (เช่นราคาของแพลเลเดียม) และสิ่งอื่น ๆ ที่ควรมีความสัมพันธ์สูง (เช่น SP500 ) วิ่งlm()เราจะเห็นว่ามีหลักฐานที่ชัดเจนของแบบจำลองที่มีพารามิเตอร์มากเกินไป แต่แพลเลเดียมนั้นควรได้รับการยกเว้น: Call: lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + EnergyStks, data = chkr) Residuals: Min 1Q Median 3Q Max -1.663e-03 -4.419e-04 3.099e-05 3.991e-04 1.677e-03 Coefficients: Estimate Std. Error …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.