สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
ทำไมเราถึงบอกว่าตัวแปรผลลัพธ์“ ถูกทำให้ถดถอย” ตัวทำนาย (s)?
มีคำอธิบายที่เข้าใจง่ายสำหรับคำศัพท์นี้หรือไม่? ทำไมจึงเป็นเช่นนี้และไม่ใช่ผู้ทำนายที่ได้ผลลัพธ์ ฉันหวังว่าคำอธิบายที่เหมาะสมว่าทำไมศัพท์นี้จึงช่วยให้นักเรียนจดจำได้และหยุดพวกเขาไม่ให้พูดผิดวิธี

3
โอกาสสูงสุดทำงานเมื่อใดและเมื่อใด
ฉันสับสนเกี่ยวกับวิธีความน่าจะเป็นสูงสุดเมื่อเปรียบเทียบกับการคำนวณค่าเฉลี่ยเลขคณิต โอกาสสูงสุดเกิดขึ้นเมื่อใดและเพราะเหตุใดประมาณการ "ดีกว่า" มากกว่าเช่นเลขคณิตหมายความว่าอย่างไร วิธีนี้พิสูจน์ได้

1
วิธีสร้างแบบจำลองข้อมูลต่อเนื่องที่ไม่เป็นศูนย์ที่ไม่ทำให้เกิดค่าลบ?
ตอนนี้ฉันกำลังพยายามใช้ตัวแบบเชิงเส้น ( family = gaussian) กับตัวบ่งชี้ความหลากหลายทางชีวภาพที่ไม่สามารถรับค่าที่ต่ำกว่าศูนย์ได้นั้นจะสูงเกินศูนย์และต่อเนื่อง ค่าตั้งแต่ 0 ถึงน้อยกว่า 0.25 ด้วยเหตุนี้จึงมีรูปแบบที่ชัดเจนในส่วนที่เหลือของแบบจำลองที่ฉันไม่ได้จัดการเพื่อกำจัด: ใครบ้างมีความคิดเกี่ยวกับวิธีการแก้ปัญหานี้?

3
การวิเคราะห์แยกแยะกับการถดถอยโลจิสติก
ฉันพบข้อดีของการวิเคราะห์ที่แยกแยะและฉันมีคำถามเกี่ยวกับพวกเขา ดังนั้น: เมื่อชั้นเรียนมีการแยกกันอย่างดีพารามิเตอร์ประมาณการสำหรับการถดถอยโลจิสติกจะไม่เสถียรอย่างน่าประหลาดใจ ค่าสัมประสิทธิ์อาจไปไม่มีที่สิ้นสุด LDA ไม่ประสบปัญหานี้ ถ้าจำนวนของคุณลักษณะมีขนาดเล็กและการแจกแจงของตัวทำนาย XXXเป็นปกติโดยประมาณในแต่ละคลาสโมเดล discriminant เชิงเส้นจะมีเสถียรภาพมากกว่าแบบจำลองการถดถอยโลจิสติกอีกครั้ง เสถียรภาพคืออะไรและทำไมจึงสำคัญ (ถ้าการถดถอยโลจิสติกส์ให้พอดีกับหน้าที่การใช้งานแล้วทำไมฉันถึงต้องสนใจเรื่องเสถียรภาพ) LDA เป็นที่นิยมเมื่อเรามีคลาสการตอบสนองมากกว่าสองคลาสเนื่องจากยังให้มุมมองข้อมูลในระดับต่ำ ฉันแค่ไม่เข้าใจสิ่งนั้น LDA ให้มุมมองแบบมิติต่ำได้อย่างไร หากคุณสามารถตั้งชื่อข้อดีหรือข้อเสียได้มากกว่านี้ก็คงจะดี


2
เส้นตรงของความแปรปรวน
ฉันคิดว่าสองสูตรต่อไปนี้เป็นจริง: Var(aX)=a2Var(X)Var(aX)=a2Var(X) \mathrm{Var}(aX)=a^2 \mathrm{Var}(X) ในขณะที่ a เป็นค่าคงตัว Var(X+Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y) \mathrm{Var}(X + Y)=\mathrm{Var}(X)+\mathrm{Var}(Y) ถ้าXXX ,YYYเป็นอิสระ อย่างไรก็ตามฉันไม่แน่ใจว่ามีอะไรผิดปกติด้านล่าง: Var(2X)=Var(X+X)=Var(X)+Var(X)Var(2X)=Var(X+X)=Var(X)+Var(X)\mathrm{Var}(2X) = \mathrm{Var}(X+X) = \mathrm{Var}(X) + \mathrm{Var}(X) ซึ่งไม่เท่ากับ22Var(X)22Var(X)2^2 \mathrm{Var}(X)คือ4Var(X)4Var(X)4\mathrm{Var}(X) ) ถ้ามันจะสันนิษฐานว่าXXXคือตัวอย่างที่นำมาจากประชากรผมคิดว่าเราสามารถสมมติXXXจะเป็นอิสระจากที่อื่น ๆXXX s ดังนั้นเกิดอะไรขึ้นกับความสับสนของฉัน

1
แพ็คเกจ R สำหรับป่าสุ่มถ่วงน้ำหนัก ตัวเลือก classwt?
ฉันพยายามใช้ Random Forest เพื่อทำนายผลลัพธ์ของชุดข้อมูลที่ไม่สมดุลอย่างยิ่ง (อัตราของชนกลุ่มน้อยอยู่ที่ประมาณ 1% หรือน้อยกว่านั้น) เนื่องจากอัลกอริทึม Random Forest แบบดั้งเดิมลดอัตราข้อผิดพลาดโดยรวมให้น้อยที่สุดแทนที่จะให้ความสนใจเป็นพิเศษกับคลาสของชนกลุ่มน้อยจึงไม่สามารถใช้กับข้อมูลที่ไม่สมดุลได้โดยตรง ดังนั้นฉันต้องการกำหนดค่าใช้จ่ายสูงให้กับการจำแนกประเภทชนกลุ่มน้อย (การเรียนรู้ที่อ่อนไหวด้านต้นทุน) ผมอ่านหลายแหล่งที่มาว่าเราสามารถใช้ตัวเลือกclasswtของrandomForestใน R แต่ผมไม่ทราบวิธีการที่จะใช้นี้ และเรามีทางเลือกอื่นให้กับrandomForestfuntion หรือไม่?
16 r  random-forest 

1
ในทฤษฎีการเรียนรู้ทางสถิติไม่มีปัญหาเรื่องการกำหนดค่าส่วนเกินในชุดทดสอบหรือไม่?
ลองพิจารณาปัญหาเกี่ยวกับการจำแนกชุดข้อมูล MNIST ตามหน้าเว็บ MNIST ของ Yann LeCun , 'Ciresan et al.' ได้รับอัตราความผิดพลาด 0.23% สำหรับชุดทดสอบ MNIST โดยใช้ Convolutional Neural Network การฝึกอบรมชุดแสดงว่า MNIST Let 's เป็น , MNIST ชุดทดสอบเป็นD ทีอีs Tสมมติฐานสุดท้ายที่พวกเขาได้ใช้D T r ฉันnเป็นเอช1และอัตราความผิดพลาดของพวกเขาใน MNIST ทดสอบตั้งค่าการใช้เอช1เป็นอีทีอีs T ( เอช1 ) = 0.0023DtrainDtrainD_{train}DtestDtestD_{test}DtrainDtrainD_{train}h1h1h_{1}h1h1h_{1}Etest(h1)=0.0023Etest(h1)=0.0023E_{test}(h_{1}) = 0.0023 ในมุมมองของพวกเขาเนื่องจากถูกสุ่มตัวอย่างชุดทดสอบจากพื้นที่อินพุตโดยไม่คำนึงถึงh 1พวกเขาสามารถยืนยันได้ว่าประสิทธิภาพข้อผิดพลาดนอกตัวอย่างของสมมติฐานสุดท้ายของพวกเขาE o u t ( h 1 …

3
การกระจายคืออะไร
ฉันรู้ความน่าจะเป็นและสถิติน้อยมากและฉันต้องการเรียนรู้ ฉันเห็นคำว่า "การกระจาย" ที่ใช้ทั่วสถานที่ในบริบทที่แตกต่างกัน ตัวอย่างเช่นตัวแปรสุ่มไม่ต่อเนื่องมี "การแจกแจงความน่าจะเป็น" ฉันรู้ว่านี่คืออะไร ตัวแปรสุ่มต่อเนื่องมีฟังก์ชั่นความหนาแน่นของความน่าจะเป็นแล้วสำหรับx∈Rx∈Rx\in\mathbb{R}ที่หนึ่งจากเพื่อของฟังก์ชั่นความหนาแน่นของความน่าจะเป็นฟังก์ชั่นการแจกแจงสะสมประเมินx−∞−∞-\inftyxxxxxx และชัดเจนเพียง "ฟังก์ชันการแจกแจง" นั้นมีความหมายเหมือนกันกับ "ฟังก์ชันการแจกแจงสะสม" อย่างน้อยเมื่อพูดถึงตัวแปรสุ่มแบบต่อเนื่อง (คำถาม: พวกมันมีความหมายเหมือนกันเสมอหรือไม่) แล้วมีการแจกแจงที่โด่งดังมากมาย กระจายการกระจาย ฯลฯ แต่อะไรคือการกระจาย ? มันเป็นฟังก์ชั่นการแจกแจงสะสมของตัวแปรสุ่มหรือไม่? หรือฟังก์ชันความหนาแน่นของความน่าจะเป็นของตัวแปรสุ่มΓΓ\Gammaχ2χ2\chi^2ΓΓ\GammaΓΓ\GammaΓΓ\Gamma แต่จากนั้นการแจกแจงความถี่ของชุดข้อมูล จำกัด จะปรากฏเป็นฮิสโตแกรม เรื่องสั้นสั้น: ในความน่าจะเป็นและสถิติความหมายของคำว่า "การกระจาย" คืออะไร? ฉันรู้คำจำกัดความของการแจกแจงในวิชาคณิตศาสตร์ (องค์ประกอบของการเว้นวรรคคู่ของการรวบรวมฟังก์ชั่นการทดสอบที่มีโทโพโลยีขีด จำกัด แบบอุปนัย) แต่ไม่ใช่ความน่าจะเป็นและสถิติ

2
การทดสอบหลังการทดสอบสำหรับการทดสอบความดีแบบไคสแควร์
ฉันทำการทดสอบความดีของพอดี (GOF) ของไคสแควร์ด้วยสามประเภทและต้องการทดสอบโมฆะโดยเฉพาะว่าสัดส่วนประชากรในแต่ละหมวดหมู่เท่ากัน (กล่าวคือสัดส่วน 1/3 ในแต่ละกลุ่ม): กลุ่ม ข้อมูล OBSERVED 1 กลุ่ม 2 กลุ่ม 3 รวม 686 928 1012 2626 ดังนั้นสำหรับการทดสอบ GOF นี้การนับที่คาดหวังคือ 2626 (1/3) = 875.333 และการทดสอบให้ค่าp - value ที่สำคัญมากที่<0.0001 ตอนนี้มันชัดเจนว่ากลุ่ม 1 แตกต่างอย่างมากจาก 2 และ 3 และไม่น่าเป็นไปได้ที่ 2 และ 3 จะแตกต่างกันอย่างมีนัยสำคัญ อย่างไรก็ตามถ้าฉันต้องการทดสอบทั้งหมดอย่างเป็นทางการและสามารถให้ค่าpสำหรับแต่ละกรณีวิธีการที่เหมาะสมจะเป็นอย่างไร ฉันค้นหาทั่วออนไลน์และดูเหมือนว่ามีความคิดเห็นที่แตกต่างกัน แต่ไม่มีเอกสารที่เป็นทางการ ฉันสงสัยว่ามีข้อความหรือเอกสารที่ผ่านการตรวจสอบโดยเพื่อนที่ระบุสิ่งนี้ สิ่งที่สมเหตุสมผลสำหรับฉันคือการทดสอบโดยรวมที่สำคัญเพื่อทดสอบzสำหรับความแตกต่างในแต่ละคู่ของสัดส่วนอาจมีการแก้ไขค่า (อาจ Bonferroni เช่น)αα\alpha

3
เหตุใดสถิติที่เพียงพอจึงมีข้อมูลทั้งหมดที่จำเป็นในการคำนวณค่าประมาณของพารามิเตอร์
ฉันเพิ่งเริ่มเรียนสถิติและไม่สามารถเข้าใจความพอเพียงได้ เพื่อให้แม่นยำยิ่งขึ้นฉันไม่เข้าใจวิธีแสดงให้เห็นว่าสองย่อหน้าต่อไปนี้เทียบเท่ากัน: โดยประมาณให้ชุด X ของข้อมูลกระจายแบบอิสระที่เหมือนกันซึ่งมีเงื่อนไขในพารามิเตอร์ที่ไม่รู้จัก stat สถิติที่เพียงพอคือฟังก์ชัน T (X) ซึ่งมีค่าประกอบด้วยข้อมูลทั้งหมดที่จำเป็นในการคำนวณการประมาณค่าพารามิเตอร์ใด ๆ สถิติ T (X) เพียงพอสำหรับพารามิเตอร์พื้นฐานθอย่างแม่นยำหากการแจกแจงความน่าจะเป็นแบบมีเงื่อนไขของข้อมูล X, เมื่อได้รับสถิติ T (X) ไม่ได้ขึ้นอยู่กับพารามิเตอร์θ (ฉันใช้คำพูดจากสถิติที่เพียงพอ ) แม้ว่าฉันจะเข้าใจข้อความที่สองและฉันสามารถใช้ทฤษฎีบทการแยกตัวประกอบเพื่อแสดงว่าสถิติที่กำหนดนั้นเพียงพอ แต่ฉันไม่สามารถเข้าใจได้ว่าทำไมสถิติที่มีคุณสมบัติเช่นนี้มีคุณสมบัติที่มัน "มีข้อมูลทั้งหมดที่จำเป็นในการคำนวณใด ๆ การประมาณของพารามิเตอร์ " ฉันไม่ได้มองหาหลักฐานที่เป็นทางการซึ่งจะช่วยแก้ไขความเข้าใจของฉันต่อไป ในการสรุปคำถามของฉันคือ: ทำไมทั้งสองข้อความจึงเทียบเท่ากัน? ใครสามารถให้คำอธิบายที่เข้าใจง่ายเพื่อความเท่าเทียมของพวกเขา

1
ทำไม“ บ่วงบาศแบบผ่อนคลาย” จึงแตกต่างจากบ่วงมาตรฐาน?
หากเราเริ่มต้นด้วยชุดข้อมูลให้ใช้ Lasso กับมันและหาทางออกเราสามารถใช้ Lasso อีกครั้งกับชุดข้อมูลโดยที่คือชุดที่ไม่ใช่ ดัชนีเป็นศูนย์ของเพื่อรับโซลูชันซึ่งเรียกว่าโซลูชัน 'relax LASSO' (แก้ไขให้ฉันถ้าฉันผิด!) วิธีการแก้ปัญหาต้องเป็นไปตามเงื่อนไขKarush – Kuhn – Tucker (KKT)สำหรับแต่เนื่องจากรูปแบบของเงื่อนไข KKT สำหรับก็ไม่เป็นไปตามนี้หรือไม่ ถ้าเป็นเช่นนั้นการทำ LASSO ครั้งที่สองคืออะไร?( X, วาย)(X,Y)(X,Y)βLβL\beta^L( XS, วาย)(XS,Y)(X_S, Y)SSSβLβL\beta^LβR LβRL\beta^{RL}βLβL\beta^L( X, วาย)(X,Y)(X,Y)( XS, วาย)(XS,Y)(X_S, Y) คำถามนี้เป็นคำถามที่ตามมา: ข้อดีของการทำ "double lasso" หรือการแสดง lasso สองครั้ง?

2
ทำไม GLM จึงแตกต่างจาก LM ด้วยตัวแปรที่ถูกแปลง
ตามที่อธิบายไว้ในเอกสารประกอบคำบรรยายนี้ (หน้า 1)โมเดลเชิงเส้นสามารถเขียนในรูปแบบ: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, โดยที่คือตัวแปรตอบกลับและ เป็นตัวแปรอธิบายyyyxixix_{i}ithithi^{th} บ่อยครั้งที่มีเป้าหมายของการทดสอบสมมติฐานการประชุมหนึ่งสามารถเปลี่ยนตัวแปรการตอบสนอง ตัวอย่างเช่นเราใช้ฟังก์ชั่นบันทึกในแต่ละy_iการแปลงตัวแปรตอบกลับไม่ถือเอาการทำ GLMyiyiy_i สามารถเขียน GLM ในแบบฟอร์มต่อไปนี้ (จากเอกสารประกอบการเรียนอีกครั้ง (หน้า 3) ) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, โดยที่uuuเป็นเพียงสัญลักษณ์อื่นสำหรับyyyดังที่ฉันเข้าใจจากหน้า 2 ในเอกสารประกอบการบรรยาย g()g()g()เรียกว่าฟังก์ชั่นลิงค์ ฉันไม่เข้าใจความแตกต่างระหว่าง GLM และ LM กับตัวแปรที่แปลงจากสไลด์ในหลักสูตร คุณช่วยฉันได้ไหม

1
อะไรคือช่วงปกติของค่าที่เป็นไปได้สำหรับพารามิเตอร์การหดตัวในการถดถอยเชิงลงโทษ
ในเชือกหรือสันเขาถดถอยหนึ่งมีการระบุพารามิเตอร์การหดตัวโดยมักจะเรียกว่าหรือ\ค่านี้มักถูกเลือกผ่านการตรวจสอบความถูกต้องของข้อมูลโดยการตรวจสอบค่าต่าง ๆ เกี่ยวกับข้อมูลการฝึกอบรมและดูว่าค่าใดให้ผลดีที่สุดเช่นจากข้อมูลการทดสอบ ช่วงหนึ่งของค่าควรตรวจสอบคืออะไร? มันเป็น ?λλ\lambdaαα\alphaR2R2R^2( 0 , 1 )(0,1)(0,1)

2
ประมาณค่าสัมประสิทธิ์ ARMA ผ่านการตรวจ ACF และ PACF
คุณประเมินแบบจำลองการพยากรณ์ที่เหมาะสมสำหรับอนุกรมเวลาอย่างไรโดยการตรวจสอบด้วยตาเปล่าของแผนการแปลง ACF และ PACF ตัวไหน (เช่น ACF หรือ PACF) บอก AR หรือ MA (หรือพวกเขาทั้งสอง)? กราฟใดที่บอกส่วนของฤดูกาลและไม่ใช่ฤดูกาลสำหรับ ARIMA ตามฤดูกาล พิจารณาฟังก์ชั่น ACF และ PCF ที่แสดงด้านล่าง พวกเขามาจากบันทึกการเปลี่ยนชุดที่ได้รับการ differenced สองแตกต่างกันอย่างใดอย่างหนึ่งที่ง่ายและฤดูกาลหนึ่ง ( ข้อมูลเดิม , บันทึกข้อมูลเปลี่ยน ) คุณจะอธิบายลักษณะของซีรี่ส์อย่างไร แบบไหนที่เหมาะกับมันที่สุด?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.