สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

8
แถบข้อผิดพลาดของความน่าจะเป็นมีความหมายใด ๆ หรือไม่?
คนมักจะพูดว่าเหตุการณ์บางอย่างมีโอกาส 50-60% ที่จะเกิดขึ้น บางครั้งฉันก็จะเห็นคนให้แถบข้อผิดพลาดอย่างชัดเจนในการมอบหมายความน่าจะเป็น ข้อความเหล่านี้มีความหมายใด ๆ หรือว่าเป็นเพียงเรื่องแปลก ๆ เกี่ยวกับความรู้สึกไม่สบายใจที่เลือกตัวเลขเฉพาะสำหรับบางสิ่งที่ไม่สามารถหยั่งรู้ได้

4
การจัดลำดับความสำคัญของตัวแปรมีประโยชน์อย่างไร
ฉันกลายเป็นผู้ทำลายล้างบ้างเมื่อพูดถึงการจัดลำดับความสำคัญที่แปรผัน (ในบริบทของแบบจำลองหลายตัวแปรทุกชนิด) บ่อยครั้งในการทำงานของฉันฉันถูกขอให้ช่วยทีมอื่นสร้างการจัดลำดับความสำคัญของตัวแปรหรือสร้างการจัดลำดับความสำคัญของตัวแปรจากงานของฉันเอง ในการตอบสนองต่อคำขอเหล่านี้ฉันถามคำถามต่อไปนี้ คุณต้องการให้อันดับความสำคัญของตัวแปรนี้คืออะไร คุณหวังว่าจะเรียนรู้อะไรจากมัน? คุณต้องการใช้การตัดสินใจประเภทใด คำตอบที่ฉันได้รับมักจะตกอยู่ในหนึ่งในสองหมวดหมู่ ฉันต้องการทราบความสำคัญของตัวแปรต่าง ๆ ในแบบจำลองของฉันในการทำนายการตอบสนอง ฉันต้องการใช้สำหรับการเลือกคุณสมบัติโดยลบตัวแปรที่มีความสำคัญต่ำ คำตอบแรกคือ tautological (ฉันต้องการอันดับความสำคัญของตัวแปรเพราะฉันต้องการอันดับความสำคัญของตัวแปร) ฉันต้องสมมติว่าการจัดอันดับเหล่านี้เติมความต้องการทางด้านจิตใจเมื่อบริโภคผลลัพธ์ของแบบจำลองหลายตัวแปร ฉันมีเวลายากที่จะเข้าใจสิ่งนี้เนื่องจากการจัดอันดับตัวแปร "ความสำคัญ" เป็นรายบุคคลดูเหมือนจะปฏิเสธธรรมชาติหลายมิติของแบบจำลองในคำถาม การตอบสนองครั้งที่สองจะลดการเลือกย้อนหลังอย่างไม่เป็นทางการซึ่งเป็นความผิดทางสถิติซึ่งได้รับการบันทึกไว้อย่างดีในส่วนอื่น ๆ ของ ฉันยังต่อสู้กับธรรมชาติของการจัดอันดับความสำคัญที่กำหนดไว้อย่างไม่ดี ดูเหมือนจะมีข้อตกลงเล็ก ๆ น้อย ๆ เกี่ยวกับแนวคิดพื้นฐานที่การจัดอันดับควรวัดผล มีหลายวิธีในการกำหนดคะแนนความสำคัญหรือการจัดอันดับและโดยทั่วไปแล้วพวกเขาต้องทนทุกข์ทรมานจากข้อบกพร่องและคำเตือน: พวกเขาสามารถขึ้นอยู่กับอัลกอริทึมสูงเช่นเดียวกับในการจัดอันดับความสำคัญในป่าสุ่มและ gbms พวกเขาสามารถมีความแปรปรวนสูงมากเปลี่ยนไปอย่างมากกับการก่อกวนข้อมูลพื้นฐาน พวกเขาสามารถทนทุกข์ทรมานอย่างมากจากความสัมพันธ์ในการทำนายอินพุต ดังนั้นทั้งหมดที่กล่าวว่าคำถามของฉันคืออะไรการใช้การจัดอันดับความสำคัญของตัวแปรที่ถูกต้องคืออะไรหรืออะไรคือข้อโต้แย้งที่น่าเชื่อถือ (สำหรับนักสถิติหรือฆราวาส) สำหรับความไร้ประโยชน์ของความปรารถนาดังกล่าว? ฉันสนใจทั้งข้อโต้แย้งเชิงทฤษฎีทั่วไปและกรณีศึกษาแล้วแต่อย่างใดจะมีประสิทธิภาพมากขึ้นในการทำให้จุด

5
อะไรคือความแตกต่างระหว่างเครือข่ายประสาทเทียมและการเรียนรู้อย่างลึกซึ้ง?
ฉันต้องการใช้การเรียนรู้อย่างลึกซึ้งในโครงการของฉัน ฉันได้อ่านบทความสองสามฉบับและมีคำถามเกิดขึ้นกับฉัน: มีความแตกต่างระหว่างโครงข่ายประสาทเทียมกับการเรียนรู้ลึกหรือไม่? สิ่งเหล่านี้เหมือนกันหรือมีความแตกต่างที่สำคัญและสิ่งใดดีกว่ากัน

2
อคติของตัวประมาณโมเมนต์ของการแจกแจงล็อก
ฉันกำลังทำการทดลองเชิงตัวเลขซึ่งประกอบด้วยการสุ่มตัวอย่างการแจกแจงแบบลอกล็อกและพยายามประเมินช่วงเวลาโดยสองวิธี:X∼LN(μ,σ)X∼LN(μ,σ)X\sim\mathcal{LN}(\mu, \sigma)E[Xn]E[Xn]\mathbb{E}[X^n] ดูค่าเฉลี่ยตัวอย่างของXnXnX^n การประมาณและโดยใช้ตัวอย่างหมายถึงแล้วใช้ความจริงที่ว่าสำหรับการแจกแจงแบบปกติเรามี2/2)μμ\muσ2σ2\sigma^2log(X),log2(X)log⁡(X),log2⁡(X)\log(X), \log^2(X)E[Xn]=exp(nμ+(nσ)2/2)E[Xn]=exp⁡(nμ+(nσ)2/2)\mathbb{E}[X^n]=\exp(n \mu + (n \sigma)^2/2) คำถามคือ : ฉันพบการทดลองว่าวิธีที่สองมีประสิทธิภาพดีกว่าวิธีแรกเมื่อฉันเก็บจำนวนตัวอย่างไว้และเพิ่มโดยปัจจัยบางตัว T มีคำอธิบายง่ายๆสำหรับข้อเท็จจริงนี้หรือไม่?μ,σ2μ,σ2\mu, \sigma^2 ฉันกำลังแนบรูปที่แกน x คือ T ในขณะที่แกน y คือค่าของเปรียบเทียบค่าที่แท้จริงของ (เส้นสีส้ม) ไปยังค่าที่ประมาณไว้ วิธีที่ 1 - จุดสีฟ้าวิธีที่ 2 - จุดสีเขียว แกน y อยู่ในระดับล็อกE [ X 2 ] = exp ( 2 μ + 2 σ 2 )E[X2]E[X2]\mathbb{E}[X^2]E[X2]=exp(2μ+2σ2)E[X2]=exp⁡(2μ+2σ2)\mathbb{E}[X^2] = \exp(2 …

2
การวินิจฉัยรุ่นเชิงเส้น (แบบผสม) ทั่วไป (ส่วนที่เหลือโดยเฉพาะ)
ฉันกำลังดิ้นรนกับการหารูปแบบที่เหมาะสมสำหรับข้อมูลการนับยาก (ตัวแปรตาม) ฉันลองรุ่นที่แตกต่างหลากหลาย (โมเดลเอฟเฟ็กต์แบบผสมมีความจำเป็นสำหรับข้อมูลชนิดของฉัน) เช่นlmerและlme4(พร้อมการแปลงล็อก) รวมถึงโมเดลเอฟเฟกต์แบบผสมเชิงเส้นทั่วไปกับครอบครัวต่างๆเช่น Gaussian หรือ Binomial เชิงลบ อย่างไรก็ตามฉันค่อนข้างไม่แน่ใจในวิธีการวินิจฉัยอย่างถูกต้องเหมาะสมกับผลลัพธ์ ฉันพบความคิดเห็นที่แตกต่างกันมากมายในหัวข้อนั้นบนเว็บ ฉันคิดว่าการวินิจฉัยการถดถอยเชิงเส้น (แบบผสม) ค่อนข้างตรงไปตรงมา คุณสามารถไปข้างหน้าและวิเคราะห์ส่วนที่เหลือ (ปกติ) รวมทั้งศึกษา heteroscedasticity โดยการวางแผนค่าติดตั้งเปรียบเทียบกับส่วนที่เหลือ อย่างไรก็ตามคุณจะทำอย่างนั้นสำหรับรุ่นทั่วไปได้อย่างไร ให้เรามุ่งเน้นการถดถอยแบบทวินามลบ (แบบผสม) ในตอนนี้ ฉันเห็นข้อความคัดค้านที่เกี่ยวข้องกับสิ่งที่เหลืออยู่ที่นี่: ในการตรวจสอบค่าคงที่สำหรับค่าปกติในโมเดลเชิงเส้นทั่วไปมันจะถูกชี้ให้เห็นในคำตอบแรกว่าส่วนที่เหลือจะไม่แจกแจงแบบปกติสำหรับ GLM; ฉันคิดว่านี่ชัดเจน อย่างไรก็ตามมันก็ชี้ให้เห็นว่าเพียร์สันและส่วนเบี่ยงเบนเบี่ยงเบนก็ไม่ควรจะเป็นปกติ กระนั้นคำตอบที่สองระบุว่าควรแจกแจกส่วนเบี่ยงเบนปกติ (รวมกับการอ้างอิง) โดยปกติแล้วความเบี่ยงเบนที่เหลืออยู่นั้นควรจะมีการบอกกล่าวไว้ในเอกสารประกอบสำหรับ? glm.diag.plots (จากbootแพ็คเกจของ R ) ในบล็อกโพสต์นี้ผู้เขียนได้ทำการศึกษาเรื่องปกติของสิ่งที่ฉันคิดว่าเป็นของเพียร์สันสำหรับแบบจำลองการถดถอยแบบผสมผลกระทบ NB ตามที่คาดไว้ (ตามความเห็นของฉัน) เศษซากไม่ได้แสดงให้เห็นว่าเป็นเรื่องปกติและผู้เขียนสันนิษฐานว่าแบบจำลองนี้ไม่เหมาะสม อย่างไรก็ตามตามที่ระบุไว้ในความคิดเห็นที่เหลือควรกระจายตามการกระจายทวินามลบ ในความคิดของฉันสิ่งนี้ใกล้เคียงกับความจริงมากที่สุดเนื่องจากส่วนที่เหลือของ GLM สามารถมีการแจกแจงแบบอื่นที่ไม่ใช่แบบปกติ ถูกต้องหรือไม่ จะตรวจสอบสิ่งต่าง ๆ เช่น heteroscedasticity …

5
การประมาณความน่าจะเป็นสูงสุด - ทำไมจึงถูกใช้แม้ว่าจะมีอคติในหลาย ๆ กรณี
การประมาณความเป็นไปได้สูงสุดมักส่งผลให้ตัวประมาณแบบเอนเอียง (เช่นการประมาณค่าความแปรปรวนตัวอย่างนั้นมีความลำเอียงสำหรับการแจกแจงแบบเกาส์) อะไรทำให้เป็นที่นิยมมาก ทำไมมันถูกใช้อย่างมาก? นอกจากนี้สิ่งใดที่ทำให้ดีกว่าวิธีอื่น - วิธีการของช่วงเวลา นอกจากนี้ฉันสังเกตเห็นว่าสำหรับเกาส์เซียนตัวประมาณค่า MLE ที่เรียบง่ายทำให้มันไม่เอนเอียง เหตุใดการปรับขนาดนี้จึงไม่ใช่ขั้นตอนมาตรฐาน ฉันหมายถึง - เพราะเหตุใดหลังจากการคำนวณ MLE จึงไม่ใช่กิจวัตรในการค้นหามาตราส่วนที่จำเป็นเพื่อทำให้ตัวประมาณมีความเป็นกลาง การปฏิบัติมาตรฐานดูเหมือนจะเป็นการคำนวณธรรมดาของการประมาณค่า MLE ยกเว้นแน่นอนสำหรับกรณี Gaussian ที่รู้จักกันดีซึ่งเป็นที่รู้จักกันดีว่าปัจจัยการปรับสเกล

1
การเรียนรู้ที่ล้ำสมัย
ฉันทำงานกับชุดข้อมูลขนาดใหญ่เมื่อเร็ว ๆ นี้และพบว่ามีเอกสารจำนวนมากเกี่ยวกับวิธีการสตรีม หากต้องการตั้งชื่อไม่กี่: Follow-the-Regularized-Leader และ Mirror Descent: Equalence Theorems และ L1 Normalization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) สตรีมการเรียนรู้: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) เพกาซัส: ซอฟท์แวร์ย่อย GrAdient โดยประมาณครั้งแรกสำหรับ SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf หรือที่นี่: SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างได้หรือไม่ สตรีมมิ่งป่าสุ่ม ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf ) อย่างไรก็ตามฉันไม่สามารถค้นหาเอกสารใด ๆ เกี่ยวกับวิธีเปรียบเทียบกับเอกสารอื่น ๆ ทุกบทความที่ฉันอ่านดูเหมือนจะทำการทดลองกับชุดข้อมูลที่แตกต่างกัน ฉันรู้เกี่ยวกับ sofia-ml, vowpal wabbit แต่ดูเหมือนว่าจะใช้วิธีการน้อยมากเมื่อเทียบกับวิธีการที่มีอยู่จำนวนมาก! อัลกอริธึมที่ใช้กันทั่วไปน้อยกว่านั้นมีประสิทธิภาพไม่เพียงพอหรือไม่? มีกระดาษพยายามทบทวนวิธีการให้มากที่สุดหรือไม่?

0
เจย์นส์
ในหนังสือของเจย์นส์'ความน่าจะเป็นทฤษฎี: ตรรกะของวิทยาศาสตร์' , เจย์นส์มีบท (CH 18) ชื่อ ' หน้าการจัดจำหน่ายและกฎของความสำเร็จ' ซึ่งเขาแนะนำความคิดของพีกระจายซึ่งเส้นทางนี้จะช่วยอธิบาย:AพีAพีA_pAพีAพีA_p [... ] เพื่อดูสิ่งนี้ลองนึกภาพผลของการรับข้อมูลใหม่ สมมติว่าเราโยนเหรียญห้าครั้งและมันจะก้อยทุกครั้ง คุณถามฉันว่าความน่าจะเป็นของฉันในการโยนครั้งต่อไปคืออะไร ฉันจะบอกว่า 1/2 แต่ถ้าคุณบอกความจริงเพิ่มเติมเกี่ยวกับดาวอังคารฉันก็พร้อมที่จะเปลี่ยนการมอบหมายความน่าจะเป็นของฉันอย่างสมบูรณ์ [ ว่าครั้งหนึ่งมีชีวิตบนดาวอังคาร ] มีบางสิ่งที่ทำให้สถานะความเชื่อของฉันเสถียรมากในกรณีของเงิน แต่มีความไม่แน่นอนในกรณีของดาวอังคาร สิ่งนี้อาจดูเหมือนเป็นการคัดค้านอย่างร้ายแรงต่อทฤษฎีความน่าจะเป็นในเชิงตรรกะ บางทีเราจำเป็นต้องเชื่อมโยงกับข้อเสนอไม่ใช่เพียงตัวเลขเดียวที่แสดงถึงความน่าเชื่อถือ แต่มีสองตัวเลข: ตัวเลขหนึ่งแสดงถึงความน่าเชื่อถือและอีกวิธีหนึ่งคือความเสถียรในการเผชิญกับหลักฐานใหม่ ทฤษฏีที่มีค่าสองชนิดจะต้องการ [ ... ] เขาก็จะแนะนำใหม่เรื่องพีดังกล่าวว่า P ( | พีอี) ≡ พีAพีAพีA_pP( A | AพีE) ≡ หน้าP(A|AพีE)≡พีP(A|A_pE) ≡ p AพีAพีA_pAพีAพีA_p ≡≡≡ ฉันพยายามที่จะเห็นความแตกต่างระหว่างความคิดสองหมายเลข("ความน่าเชื่อถือและอีกวิธีหนึ่งที่มีความเสถียรเมื่อเผชิญกับหลักฐานใหม่")โดยใช้การแจกแจงแบบเบต้าซึ่งเป็นไปตามเกณฑ์เหล่านั้น α = …

1
รายงานการเสียชีวิตของการทดสอบเสื้อได้พูดเกินจริงอย่างมากหรือไม่?
การอ่าน CV คลาสสิกตลอดเวลาฉันเจอข้อความที่ฉันต้องการชี้แจง นี่คือโพสต์และคำถามของฉันอ้างถึงคำพูดปิด: "ฉันต้องทราบว่าความรู้ทั้งหมดที่ฉันเพิ่งจะค่อนข้างล้าสมัยตอนนี้ที่เรามีคอมพิวเตอร์เราสามารถทำได้ดีกว่าการทดสอบ t - เป็น Frank บันทึกคุณ อาจต้องการใช้การทดสอบ Wilcoxon ในทุก ๆ ที่ที่คุณได้รับการสอนให้ทำการทดสอบด้วย t " การขาดความกังวลเกี่ยวกับว่ามันเป็นเสียงที่จะสมมติว่าการกระจายตัวของค่าเฉลี่ยตัวอย่างเป็นเรื่องปกติพอที่จะเรียกใช้การทดสอบ t-เห็นได้ชัดว่าเป็นข้อได้เปรียบอย่างมาก และฉันเห็นว่าคอมพิวเตอร์สามารถจัดอันดับรายการที่มีความแตกต่างยาวระหว่างสองเวกเตอร์ของข้อมูลในสายลม ... ฉันจำได้ว่าทำด้วยตนเองเมื่อหลายปีก่อน แต่ฉันเชือนแช ... ดังนั้นการทดสอบเสื้อยืดเป็นเรื่องของอดีตอย่างแท้จริงหรือไม่? การทดสอบการเรียงสับเปลี่ยน? พวกเขาเกินไปเฉพาะกิจในความรู้สึกของมักจะผูกพันเขียนไม่กี่บรรทัดของรหัส?

2
การประมาณ Satterthwaite vs. Kenward-Roger สำหรับองศาอิสระในโมเดลผสม
lmerTestแพคเกจให้anova()ฟังก์ชั่นหลากหลายรูปแบบเชิงเส้นที่มีตัวเลือกประมาณ Satterthwaite ของ (เริ่มต้น) หรือ Kenward-Roger ขององศาอิสระ (DF) ความแตกต่างระหว่างสองแนวทางนี้คืออะไร? เลือกได้เมื่อใด

4
การแสดงตัวแปรจำนวนมากในหนึ่งพล็อต
ฉันต้องการแสดงให้เห็นว่าคุณค่าของตัวแปรบางตัว (~ 15) เปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป แต่ฉันอยากจะแสดงให้เห็นว่าตัวแปรแตกต่างจากกันในแต่ละปีอย่างไร ดังนั้นฉันจึงสร้างพล็อตนี้: แต่แม้ว่าเมื่อเปลี่ยนชุดรูปแบบสีหรือเพิ่มประเภทของเส้น / รูปร่างที่แตกต่างกันก็ดูยุ่งเหยิง มีวิธีที่ดีกว่าในการมองเห็นข้อมูลประเภทนี้หรือไม่? ทดสอบข้อมูลด้วยรหัส R: structure(list(Var = structure(c(1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 6L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 8L, …

3
การตีความการทำให้เป็นสันเป็นแนวในการถดถอย
ฉันมีคำถามหลายข้อเกี่ยวกับบทลงโทษริดจ์ในบริบทกำลังสองน้อยที่สุด: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) การแสดงออกแสดงให้เห็นว่าเมทริกซ์ความแปรปรวนร่วมของ X หดตัวลงในเมทริกซ์แนวทแยงซึ่งหมายความว่า (สมมติว่าตัวแปรเป็นมาตรฐานก่อนขั้นตอน) ความสัมพันธ์ระหว่างตัวแปรอินพุตจะลดลง การตีความนี้ถูกต้องหรือไม่ 2) ถ้ามันเป็นแอพพลิเคชั่นการหดตัวทำไมมันไม่ได้ถูกกำหนดในบรรทัดของสมมติว่าเราสามารถ จำกัด แลมบ์ดาให้อยู่ในช่วง [0,1] ด้วยการทำให้เป็นมาตรฐาน .(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X) 3) อะไรที่เป็นมาตรฐานสำหรับเพื่อให้สามารถ จำกัด ช่วงมาตรฐานเช่น [0,1]λλ\lambda 4) การเพิ่มค่าคงที่ในแนวทแยงจะมีผลต่อค่าลักษณะเฉพาะทั้งหมด มันจะดีกว่าไหมถ้าจะโจมตีเฉพาะค่าเอกฐานหรือค่าเอกฐาน นี่เทียบเท่ากับการใช้ PCA กับ X และการรักษาส่วนประกอบหลักบน N ก่อนการถดถอยหรือมีชื่อแตกต่างกัน (เนื่องจากไม่ได้แก้ไขการคำนวณความแปรปรวนร่วมแบบครอส) 5) เราสามารถทำให้ค่าความแปรปรวนร่วมเป็นประจำหรือใช้อย่างใดอย่างหนึ่งหรือมีความหมายβridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) ที่ขนาดเล็กจะลดความแปรปรวนร่วม เห็นได้ชัดว่าสิ่งนี้ช่วยลด …

3
ความสัมพันธ์ระหว่างมุมฉากความสัมพันธ์และความเป็นอิสระคืออะไร?
ฉันได้อ่านบทความที่บอกว่าเมื่อใช้การเปรียบเทียบความแตกต่างที่วางแผนไว้เพื่อค้นหาวิธีการที่แตกต่างกันในการวิเคราะห์ความแปรปรวนทางเดียวคอนดิชั่นเนอร์ควรเป็นมุมฉากเพื่อไม่ให้สัมพันธ์กันและป้องกันข้อผิดพลาดประเภทที่ 1 ฉันไม่เข้าใจว่าทำไมฉากมุมฉากถึงไม่เกี่ยวข้องกันไม่ว่าในกรณีใด ๆ ฉันไม่สามารถหาคำอธิบายที่เข้าใจง่าย / เข้าใจง่ายดังนั้นฉันจึงพยายามเข้าใจบทความ / คำตอบ https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf มุมฉากมีความหมายอย่างไรในบริบทของสถิติ แต่สำหรับฉันพวกเขาขัดแย้งกัน คนแรกบอกว่าถ้าสองตัวแปร uncorrelated และ / หรือ orthogonal แล้วพวกเขาก็เป็นอิสระเป็นเส้นตรง แต่ความจริงที่ว่าพวกเขาเป็นอิสระเชิงเส้นตรงไม่ได้หมายความว่าพวกเขาจะไม่เกี่ยวข้องกันและ / หรือ orthogonal ตอนนี้ในลิงค์ที่สองมีคำตอบว่าสิ่งที่รัฐเช่น "orthogonal หมายถึง uncorrelated" และ "ถ้า X และ Y เป็นอิสระแล้วพวกเขาจะ Orthogonal แต่การสนทนาไม่เป็นความจริง" ความคิดเห็นที่น่าสนใจอีกข้อหนึ่งในการเชื่อมโยงครั้งที่สองที่สัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรสองตัวเท่ากับโคไซน์ของมุมระหว่างเวกเตอร์สองตัวที่สอดคล้องกับตัวแปรเหล่านี้ซึ่งบอกว่าเวกเตอร์มุมฉากทั้งสองนั้นไม่เกี่ยวข้องกันอย่างสมบูรณ์ การเรียกร้อง) ดังนั้นความสัมพันธ์ที่แท้จริงระหว่างอิสรภาพมุมฉากและสหสัมพันธ์คืออะไร บางทีฉันอาจจะพลาดอะไรบางอย่าง แต่ฉันไม่สามารถหาได้ว่ามันคืออะไร


5
องค์ประกอบหลักด้านบนจะรักษาพลังการคาดการณ์ของตัวแปรตาม (หรือนำไปสู่การทำนายที่ดีกว่า) ได้อย่างไร?
สมมติว่าผมทำงานถดถอย X ทำไมโดยการเลือกด้านบนkส่วนประกอบหลักการของXไม่รูปแบบการรักษาอำนาจของตนในการทำนายY ?Y∼XY∼XY \sim XkkkXXXYYY ผมเข้าใจว่าจากมิติการลดจุด / คุณลักษณะการเลือกมุมมองถ้าเป็น eigenvectors ของเมทริกซ์ความแปรปรวนของXกับด้านบนkค่าลักษณะเฉพาะแล้วX วี1 , X โวลต์ 2 . . X v kเป็นองค์ประกอบหลักkอันดับแรกที่มีความแปรปรวนสูงสุด เราสามารถลดจำนวนฟีเจอร์เป็นkและรักษาพลังการทำนายส่วนใหญ่ไว้ได้ตามที่ฉันเข้าใจv1,v2,...vkv1,v2,...vkv_1, v_2, ... v_kXXXkkkXv1,Xv2...XvkXv1,Xv2...XvkXv_1, Xv_2 ... Xv_kkkkkkk แต่ทำไมทำบนส่วนประกอบรักษาอำนาจการพยากรณ์ในY ?kkkYYY ถ้าเราพูดถึงทั่วไป OLS มีเหตุผลที่จะชี้ให้เห็นว่าถ้าไม่มีคุณลักษณะZ ฉันมีความแปรปรวนสูงสุดแล้วZ ฉันมีอำนาจมากที่สุดในการทำนายYY∼ZY∼ZY \sim ZZiZiZ_iZiZiZ_iYYY อัปเดตหลังจากเห็นความคิดเห็น:ฉันเดาว่าฉันเคยเห็นตัวอย่างของการใช้ PCA จำนวนมากเพื่อการลดขนาด ฉันได้รับการสันนิษฐานว่าหมายถึงมิติที่เราเหลืออยู่มีอำนาจการทำนายมากที่สุด มิฉะนั้นแล้วประเด็นของมิติลดลงคืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.