สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การทดสอบ Wald ในการถดถอย (OLS และ GLMs): t- กับการกระจาย z
ฉันเข้าใจว่าการทดสอบ Wald สำหรับสัมประสิทธิ์การถดถอยขึ้นอยู่กับคุณสมบัติต่อไปนี้ที่เก็บ asymptotically (เช่น Wasserman (2006): สถิติทั้งหมดหน้า 153, 214-215): โดยที่แสดงถึงสัมประสิทธิ์การถดถอยโดยประมาณแสดงถึงข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยและเป็นค่าที่น่าสนใจ (มักจะเป็น 0 เพื่อทดสอบว่าค่าสัมประสิทธิ์เป็นหรือไม่ แตกต่างจาก 0) ดังนั้นขนาดการทดสอบ Wald คือ: ปฏิเสธเมื่อใดβ^SE(β)β0β0αH0| W| >zα/2( β^- β0)SEˆ( β^)∼ N( 0 , 1 )(β^−β0)se^(β^)∼N(0,1) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}SEˆ( β^)se^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}| W| > zα / 2|W|>zα/2|W|> z_{\alpha/2}โดยที่ W= β^SEˆ( β^).W=β^se^(β^). W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. แต่เมื่อคุณทำการถดถอยเชิงเส้นด้วยlmใน R, -value แทน -value จะใช้ในการทดสอบว่าสัมประสิทธิ์การถดถอยแตกต่างกันอย่างมีนัยสำคัญจาก …

3
ทำไม Lars และ Glmnet จึงเสนอวิธีแก้ปัญหาต่าง ๆ สำหรับ Lasso?
ฉันต้องการเข้าใจแพ็คเกจ R Larsและดีกว่าGlmnetซึ่งใช้เพื่อแก้ปัญหา Lasso: (สำหรับตัวอย่างpตัวแปรและNดูwww.stanford.edu/~hastie/Papers/glmnet.pdfหน้า 3)m ฉันn( β0β) ∈ Rp + 1[ 12 NΣi = 1ยังไม่มีข้อความ( yผม- β0- xTผมβ)2+ λ | | β| |ล.1]ม.ผมn(β0β)∈Rพี+1[12ยังไม่มีข้อความΣผม=1ยังไม่มีข้อความ(Yผม-β0-xผมTβ)2+λ||β||ล.1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]พีพีpยังไม่มีข้อความยังไม่มีข้อความN ดังนั้นฉันจึงใช้ทั้งชุดของเล่นเดียวกัน น่าเสียดายที่ทั้งสองวิธีไม่ได้ให้วิธีแก้ไขปัญหาเดียวกันสำหรับการป้อนข้อมูลเดียวกัน ไม่มีใครมีความคิดที่แตกต่างมาจากไหน? ฉันได้ผลลัพธ์ดังนี้: หลังจากสร้างข้อมูล (8 ตัวอย่าง, 12 คุณสมบัติ, การออกแบบ Toeplitz, ทุกอย่างที่อยู่กึ่งกลาง) ฉันคำนวณเส้นทาง Lasso ทั้งหมดโดยใช้ Lars จากนั้นฉันใช้ Glmnet …

8
ดำเนินการจัดกลุ่ม K-Mean (หรือญาติสนิท) ด้วยเมทริกซ์ระยะทางไม่ใช่ข้อมูลแบบจุดต่อจุด
ฉันต้องการทำการจัดกลุ่ม K- หมายถึงการจัดกลุ่มบนวัตถุที่ฉันมี แต่วัตถุไม่ได้อธิบายว่าเป็นจุดในอวกาศเช่นobjects x featuresชุดข้อมูล อย่างไรก็ตามฉันสามารถคำนวณระยะห่างระหว่างวัตถุสองชนิดใดก็ได้ (มันขึ้นอยู่กับฟังก์ชันความคล้ายคลึงกัน) objects x objectsดังนั้นฉันจึงทิ้งของเมทริกซ์ระยะทาง ฉันเคยใช้ K-mean มาก่อน แต่นั่นก็มีจุดเข้าชุดข้อมูล; และด้วยการป้อนเมทริกซ์ระยะทางมันไม่ชัดเจนสำหรับฉันที่จะอัปเดตกลุ่มให้เป็น "ศูนย์" ของคลัสเตอร์โดยไม่ต้องใช้การแทนจุด ปกติจะทำเช่นนี้ได้อย่างไร? มีเวอร์ชั่นของ K-Mean หรือเมธอดอยู่ใกล้ไหม

4
คุณจะออกแบบระบบการเรียนรู้ของเครื่องเพื่อเล่น Angry Birds ได้อย่างไร?
หลังจากเล่น Angry Birds มากเกินไปฉันเริ่มสังเกตกลยุทธ์ของตัวเอง ปรากฎว่าฉันพัฒนาวิธีที่เฉพาะเจาะจงมากในการรับ 3 ดาวในแต่ละระดับ นั่นทำให้ฉันสงสัยเกี่ยวกับความท้าทายในการพัฒนาระบบการเรียนรู้ของเครื่องที่สามารถเล่น Angry Birds ได้ การมีปฏิสัมพันธ์กับเกมและการยิงนกเป็นเรื่องเล็กน้อย แต่คำถามหนึ่งที่ฉันมีคือเกี่ยวกับ "การสร้างบล็อค" ของระบบ ระบบการเรียนรู้ของเครื่องดูเหมือนจะทำงานกับแนวคิดที่เรียบง่ายหรือความเข้าใจเกี่ยวกับปัญหา สิ่งนี้มักถูกเข้ารหัสเป็นฟีเจอร์เช่นอินพุต ดังนั้นดูเหมือนว่าระบบจะต้องมีความสามารถในการเข้าใจแนวคิดระดับสูงบางอย่างเพื่อสร้างกลยุทธ์ มันเป็นเรื่องจริงเหรอ? นอกจากนี้ความท้าทายหรือส่วนที่ยากของการพัฒนาระบบดังกล่าวคืออะไร? แก้ไข # 1: นี่คือคำชี้แจงบางอย่าง รับ 3 ดาวเป็นปัญหายากเนื่องจากคุณต้องเพิ่มคะแนน วิธีนี้สามารถทำได้สองวิธีที่ไม่พิเศษ: 1) ลดจำนวนนกที่ใช้ (คุณจะได้รับ 10,000 คะแนนสำหรับนกที่ไม่ได้ใช้ทุกครั้ง) 2) เพิ่มการทำลายกระจกไม้และวัตถุอื่น ๆ วัตถุแต่ละชิ้นที่ถูกทำลายจะให้คะแนนกับคุณ เป็นไปได้ที่จะทำลายวัตถุมากกว่า 10,000 แต้มด้วยนกเพียงตัวเดียว ต่อไปนี้เป็นคำอธิบายเพิ่มเติมเล็กน้อยเกี่ยวกับ "แนวคิดระดับสูง" เพื่อให้ได้คะแนนสูงสุดตามที่อธิบายไว้ข้างต้นคุณต้องใช้พลังพิเศษของนกแต่ละตัว ดังนั้นนั่นหมายถึงการเปิดตัวนกที่แตกต่างกันด้วยวิถีที่แตกต่างกันขึ้นอยู่กับรูปแบบของแผนที่ และในขณะที่เล่นฉันพัฒนากลยุทธ์ที่ทำลายพื้นที่บางอย่างกับนกบางตัวในลำดับที่แน่นอน ดูเหมือนว่าหากไม่มีความเข้าใจในการใช้นกแต่ละตัวเพื่อทำลายพื้นที่เฉพาะระบบจะไม่สามารถเรียนรู้ที่จะได้รับ 3 ดาว ดังนั้นคุณจะจัดการและเข้ารหัสสิ่งเช่นนั้นได้อย่างไร คุณมั่นใจได้อย่างไรว่าระบบสามารถเรียนรู้แนวคิดระดับสูงเหล่านี้ได้?

1
ความสัมพันธ์ Intraclass (ICC) สำหรับการโต้ตอบ?
สมมติว่าฉันมีการวัดสำหรับแต่ละเรื่องในแต่ละเว็บไซต์ ตัวแปรสองตัวคือหัวเรื่องและไซต์เป็นที่สนใจในแง่ของการคำนวณค่าความสัมพันธ์ภายในเซลล์ (ICC) โดยทั่วไปฉันจะใช้ฟังก์ชั่นlmerจากแพคเกจ R lme4และเรียกใช้ lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) ค่า ICC สามารถหาได้จากผลต่างสำหรับเอฟเฟกต์แบบสุ่มในโมเดลด้านบน อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันอ่านกระดาษที่ไขปริศนาตัวฉันจริงๆ จากตัวอย่างข้างต้นผู้เขียนคำนวณค่า ICC สามค่าในกระดาษพร้อมฟังก์ชั่น lme จากแพ็คเกจ nlme: หนึ่งค่าสำหรับหัวเรื่อง, หนึ่งค่าสำหรับไซต์และค่าหนึ่งสำหรับการโต้ตอบของหัวเรื่องและไซต์ ไม่มีการให้รายละเอียดเพิ่มเติมในเอกสาร ฉันสับสนจากสองมุมมองต่อไปนี้: จะคำนวณค่า ICC ด้วย lme ได้อย่างไร? ฉันไม่รู้วิธีระบุเอฟเฟกต์สุ่มทั้งสาม (หัวเรื่องไซต์และการโต้ตอบ) ใน lme การพิจารณา ICC เป็นเรื่องที่มีความหมายจริงๆหรือไม่สำหรับการโต้ตอบของหัวเรื่องและไซต์ จากการสร้างแบบจำลองหรือมุมมองทางทฤษฎีคุณสามารถคำนวณได้ แต่ในทางแนวคิดแล้วฉันมีปัญหาในการตีความการโต้ตอบดังกล่าว

3
AIC หรือ p-value: อันไหนที่จะเลือกสำหรับการเลือกรูปแบบ?
ฉันใหม่เอี่ยมกับสิ่ง R นี้ แต่ไม่แน่ใจว่าจะเลือกรุ่นใด ฉันทำการถดถอยไปข้างหน้าทีละขั้นตอนเลือกตัวแปรแต่ละตัวตาม AIC ที่ต่ำที่สุด ฉันมากับ 3 แบบที่ฉันไม่แน่ใจซึ่งเป็น "ดีที่สุด" Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09 ฉันอยากจะไปกับ Model # 3 เพราะมันมี AIC ต่ำที่สุด (ฉันได้ยินว่าเป็นลบก็โอเค) และค่า p ยังค่อนข้างต่ำ ฉันใช้ตัวแปร …

2
เป็นไปได้หรือไม่ที่จะรวบรวมชุดของสถิติที่อธิบายตัวอย่างจำนวนมากเช่นนี้จากนั้นฉันสามารถสร้าง boxplot ได้?
ฉันต้องชี้แจงทันทีว่าฉันเป็นนักพัฒนาซอฟต์แวร์ฝึกไม่ใช่นักสถิติและชั้นเรียนสถิติของวิทยาลัยของฉันเป็นเวลานานมากแล้ว ... ที่กล่าวว่าฉันอยากจะรู้ว่ามีวิธีการสะสมชุดของสถิติเชิงพรรณนาที่สามารถนำมาใช้ในการผลิต boxplot ที่ไม่เกี่ยวข้องกับการจัดเก็บตัวอย่างแต่ละกลุ่ม? สิ่งที่ฉันพยายามทำคือสร้างสรุปกราฟิกของเวลาบริการคิวภายในกระบวนการหลายคิวที่ซับซ้อน ก่อนหน้านี้ฉันเคยใช้แพคเกจที่เรียกว่า tnftools ซึ่งอนุญาตให้กลุ่มตัวอย่างจำนวนมากสะสมและโพสต์ประมวลผลเป็นกราฟเวลาตอบสนองและค่าผิดปกติที่ดี ... แต่ tnftools ไม่พร้อมใช้งานสำหรับแพลตฟอร์มปัจจุบันของฉัน เป็นการดีที่ฉันต้องการจะสามารถรวบรวมชุดของสถิติเชิงพรรณนา "ในทันที" ในขณะที่กระบวนการทำงานแล้วดึงข้อมูลสำหรับการวิเคราะห์ตามความต้องการ แต่ฉันไม่สามารถให้กระบวนการเก็บตัวอย่างเพียงอย่างเดียวได้เนื่องจากหน่วยความจำ / IO ที่เกี่ยวข้องในการทำเช่นนั้นจะส่งผลกระทบต่อประสิทธิภาพของระบบที่ยอมรับไม่ได้

4
Shao ใช้ผลการตรวจสอบไขว้แบบลาก่อนออกเมื่อใด
ในบทความการเลือกโมเดลเชิงเส้นโดย Jun-Shao แสดงให้เห็นว่าสำหรับปัญหาของการเลือกตัวแปรในการถดถอยเชิงเส้นหลายตัวแปรวิธีของการตรวจสอบความถูกต้องแบบลาออกครั้งเดียว (LOOCV) คือ 'ไม่สอดคล้องเชิงเส้นกำกับ' ในภาษาอังกฤษธรรมดามีแนวโน้มที่จะเลือกรุ่นที่มีตัวแปรมากเกินไป ในการศึกษาแบบจำลอง Shao แสดงให้เห็นว่าแม้การสำรวจเพียง 40 ครั้งเท่านั้น LOOCV สามารถใช้เทคนิคการตรวจสอบข้ามแบบอื่นได้ต่ำกว่า บทความนี้ค่อนข้างขัดแย้งและไม่สนใจ (10 ปีหลังจากการตีพิมพ์เคมีของเพื่อนร่วมงานของฉันไม่เคยได้ยินเรื่องนี้มาก่อนและมีความสุขที่ใช้ LOOCV สำหรับการเลือกตัวแปร ... ) นอกจากนี้ยังมีความเชื่อ (ฉันมีความผิดในเรื่องนี้) ว่าผลลัพธ์ของมันขยายออกไปค่อนข้าง จำกัด ขอบเขตดั้งเดิม จากนั้นคำถาม: ผลลัพธ์เหล่านี้จะขยายไปไกลแค่ไหน? พวกเขาจะใช้กับปัญหาต่อไปนี้? การเลือกตัวแปรสำหรับการถดถอยโลจิสติก / GLM? การเลือกตัวแปรสำหรับการจำแนกประเภท Fisher LDA? การเลือกตัวแปรใช้ SVM พร้อมพื้นที่เคอร์เนล จำกัด (หรือไม่ จำกัด )? เปรียบเทียบรุ่นในการจำแนกประเภทพูดว่า SVM ใช้เมล็ดที่แตกต่างกันหรือไม่ เปรียบเทียบแบบจำลองในการถดถอยเชิงเส้นพูดเปรียบเทียบ MLR กับ Ridge Regression …

3
รูปแบบของภาพ (png, jpg, gif) มีผลต่อวิธีการฝึกอบรมการรับรู้ภาพของโครงข่ายประสาทหรือไม่?
ฉันทราบว่ามีความก้าวหน้ามากมายเกี่ยวกับการจดจำรูปภาพการจำแนกภาพและอื่น ๆ ด้วยอวนประสาทที่ซับซ้อน แต่ถ้าฉันฝึกเน็ตให้บอกว่าภาพ PNG มันจะใช้ได้กับภาพที่เข้ารหัสเท่านั้นเหรอ? คุณสมบัติรูปภาพอื่น ๆมีผลกับสิ่งนี้อย่างไร (ช่องอัลฟาการพัวพันความละเอียด ฯลฯ )

1
มีความแตกต่างระหว่าง
ค่าสัมประสิทธิ์สหสัมพันธ์มักเขียนด้วยทุนแต่บางครั้งก็ไม่ ฉันสงสัยว่ามีความแตกต่างระหว่างr 2และR 2หรือไม่? Can Rหมายถึงสิ่งอื่นมากกว่าค่าสัมประสิทธิ์สหสัมพันธ์หรือไม่?RRRr2r2r^2R2R2R^2rrr

3
ทำไมเราต้องเปลี่ยนตัวแปรหมวดหมู่ของหลอกตา
ฉันไม่แน่ใจว่าทำไมเราต้องจำลองตัวแปรโค้ดหลอกตา ตัวอย่างเช่นถ้าฉันมีตัวแปรเด็ดขาดที่มีค่าที่เป็นไปได้สี่ค่า 0,1,2,3 ฉันสามารถแทนที่ด้วยสองมิติ ถ้าตัวแปรมีค่า 0 มันจะมี 0,0 ในสองมิติถ้ามันมี 3 มันจะมี 1,1 ในสองมิติเป็นต้น ฉันไม่แน่ใจว่าทำไมเราต้องทำเช่นนี้?

5
สมมติฐานของตัวแบบเชิงเส้นและจะทำอย่างไรถ้าส่วนที่เหลือไม่ได้รับการแจกแจงแบบปกติ
ฉันสับสนเล็กน้อยว่าสมมติฐานของการถดถอยเชิงเส้นคืออะไร จนถึงตอนนี้ฉันตรวจสอบว่า: ตัวแปรอธิบายทั้งหมดมีความสัมพันธ์เชิงเส้นตรงกับตัวแปรตอบกลับ (ในกรณีนี้) มี collinearity ใด ๆ ในหมู่ตัวแปรอธิบาย (มี collinearity น้อย) ระยะทางของชุดข้อมูลของโมเดลของ Cook ต่ำกว่า 1 (ในกรณีนี้ระยะทางทั้งหมดอยู่ต่ำกว่า 0.4 ดังนั้นจึงไม่มีคะแนนอิทธิพล) ส่วนที่เหลือจะกระจายตามปกติ (อาจไม่เป็นเช่นนั้น) แต่ฉันก็อ่านต่อไปนี้: การฝ่าฝืนกฎเกณฑ์มักเกิดขึ้นเพราะ (ก) การกระจายของตัวแปรตามและ / หรือตัวแปรอิสระเป็นตัวของตัวเองอย่างมีนัยสำคัญที่ไม่ปกติและ / หรือ (ข) ข้อสมมติเชิงเส้นถูกละเมิด คำถามที่ 1 สิ่งนี้ทำให้ฟังดูเหมือนว่าตัวแปรอิสระและตัวแปรตามต้องได้รับการกระจายตามปกติ แต่เท่าที่ฉันรู้ว่านี่ไม่ใช่กรณี ตัวแปรตามของฉันเช่นเดียวกับหนึ่งในตัวแปรอิสระของฉันไม่ได้กระจายตามปกติ พวกเขาควรจะเป็นอย่างไร คำถามที่ 2 พล็อต QQ ของฉันปกติมีลักษณะดังนี้: นั่นแตกต่างจากการแจกแจงแบบปกติเล็กน้อยและshapiro.testยังปฏิเสธสมมติฐานว่าง ๆ ว่าส่วนที่เหลือมาจากการแจกแจงแบบปกติ: > shapiro.test(residuals(lmresult)) W = 0.9171, …

2
วิธีการจัดเวลาแบบกลุ่ม
ฉันมีคำถามเกี่ยวกับการวิเคราะห์กลุ่ม มี 3,000 บริษัท ที่ต้องทำคลัสเตอร์ตามการใช้พลังงานในระยะเวลา 5 ปี แต่ละ บริษัท มีค่าสำหรับทุก ๆ ชั่วโมงในช่วง 5 ปี ฉันต้องการทราบว่าบาง บริษัท มีรูปแบบการใช้พลังงานเหมือนกันในช่วงระยะเวลาหนึ่งหรือไม่ ควรใช้ผลลัพธ์เพื่อทำนายการใช้พลังงานรายวัน หากคุณมีความคิดบางอย่างเกี่ยวกับวิธีการจัดลำดับเวลาใน SPSS โปรดแบ่งปันกับฉัน

5
การสุ่มตัวอย่างสำหรับข้อมูลที่ไม่สมดุลในการถดถอย
มีคำถามที่ดีเกี่ยวกับการจัดการข้อมูลที่ไม่สมดุลในบริบทการจัดประเภทแต่ฉันสงสัยว่าคนทำเพื่อตัวอย่างสำหรับการถดถอย สมมติว่าโดเมนปัญหามีความไวต่อสัญญาณมาก แต่ค่อนข้างอ่อนไหวต่อขนาดของเป้าหมาย อย่างไรก็ตามขนาดมีความสำคัญพอที่ตัวแบบควรจะถดถอย (เป้าหมายต่อเนื่อง) ไม่ใช่การจำแนกประเภท (คลาสบวกกับคลาสลบ) และพูดในโดเมนปัญหานี้ว่าชุดข้อมูลการฝึกอบรมใด ๆ จะมีค่าลบมากกว่าเป้าหมายเชิงบวก 10 เท่า ในสถานการณ์นี้ฉันอาจสุ่มตัวอย่างตัวอย่างเป้าหมายเชิงบวกเพื่อให้ตรงกับจำนวนตัวอย่างเป้าหมายเชิงลบและจากนั้นฝึกโมเดลเพื่อแยกความแตกต่างระหว่างสองกรณี เห็นได้ชัดว่าวิธีการฝึกอบรมนั้นมีข้อมูลที่ไม่สมดุลดังนั้นฉันต้องทำการสุ่มตัวอย่างบางอย่าง อะไรจะเป็นวิธีที่ดีในการ "ยกเลิก" การสุ่มตัวอย่างนี้เมื่อทำการคาดการณ์ บางทีแปลโดย (ลบ) ค่าเฉลี่ยหรือค่ามัธยฐานของเป้าหมายของข้อมูลการฝึกอบรมตามธรรมชาติ?

6
การทดสอบภาวะปกติที่เหมาะสมสำหรับตัวอย่างขนาดเล็ก
จนถึงตอนนี้ฉันใช้สถิติของ Shapiro-Wilk เพื่อทดสอบสมมติฐานปกติในตัวอย่างเล็ก ๆ คุณช่วยแนะนำเทคนิคอื่นได้ไหม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.