สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
วิธีการทดสอบความแตกต่างของความแปรปรวนร่วมกับข้อมูลวงกลม
ฉันสนใจที่จะเปรียบเทียบจำนวนความแปรปรวนภายใน 8 ตัวอย่างที่แตกต่างกัน (แต่ละอันจากประชากรที่แตกต่างกัน) ฉันทราบว่าสามารถทำได้หลายวิธีด้วยข้อมูลอัตราส่วน: ความเท่าเทียมกันของการทดสอบความแปรปรวนของ F-test, การทดสอบ Levene เป็นต้น อย่างไรก็ตามข้อมูลของฉันเป็นแบบวงกลม / ทิศทาง (เช่นข้อมูลที่แสดงช่วงเวลาเช่นทิศทางลมและข้อมูลเชิงมุมทั่วไปหรือเวลาของวัน) ฉันได้ทำการวิจัยและพบหนึ่งการทดสอบในแพ็คเกจ "CircStats" ใน R - "การทดสอบของ Watson สำหรับความเป็นเนื้อเดียวกัน" ข้อบกพร่องอย่างหนึ่งคือการทดสอบนี้เปรียบเทียบเพียงสองตัวอย่างซึ่งหมายความว่าฉันจะต้องทำการเปรียบเทียบหลายรายการกับตัวอย่าง 8 รายการของฉัน (แล้วใช้การแก้ไข Bonferonni) นี่คือคำถามของฉัน: 1) มีการทดสอบที่ดีกว่าที่ฉันสามารถใช้ได้หรือไม่? 2) ถ้าไม่สมมติฐานของการทดสอบของ Watson คืออะไร มันเป็นพารามิเตอร์ / ไม่ใช่พารามิเตอร์? 3) อัลกอริทึมที่ฉันสามารถทำการทดสอบนี้คืออะไร? ข้อมูลของฉันอยู่ใน Matlab และฉันไม่ต้องการโอนไปยัง R เพื่อทำการทดสอบ ฉันอยากเขียนฟังก์ชั่นของตัวเอง

3
การเปรียบเทียบและการตัดกันค่า p ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1
ฉันสงสัยว่าถ้าใครสามารถให้บทสรุปสั้น ๆ เกี่ยวกับคำจำกัดความและการใช้ค่า p, ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1 ฉันเข้าใจว่าค่า p ถูกกำหนดเป็น "ความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่เราสังเกตจริง" ในขณะที่ระดับนัยสำคัญเป็นเพียงค่า cutoff ตามอำเภอใจเพื่อประเมินว่าค่า p นั้นมีความสำคัญหรือไม่ . ข้อผิดพลาดประเภทที่ 1 คือข้อผิดพลาดของการปฏิเสธสมมติฐานว่างที่เป็นจริง อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับความแตกต่างระหว่างระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1 พวกเขาไม่ใช่แนวคิดเดียวกันหรือไม่ ตัวอย่างเช่นสมมติว่าการทดลองง่าย ๆ ที่ฉันพลิกเหรียญ 1,000 ครั้งและนับจำนวนครั้งที่มันตกลงบน 'หัว' สมมุติฐานว่างของฉัน, H0, นั่นคือหัว = 500 (เหรียญไม่มีอคติ) จากนั้นฉันตั้งระดับความสำคัญของฉันที่ alpha = 0.05 ฉันพลิกเหรียญ 1,000 ครั้งจากนั้นฉันคำนวณค่า p ถ้าค่า p เป็น> 0.05 จากนั้นฉันไม่สามารถปฏิเสธสมมติฐานว่างได้และถ้าค่า p เป็น <0.05 …

1
ฉันจะจัดแนว / ประสานสัญญาณสองสัญญาณได้อย่างไร
ฉันกำลังทำวิจัย แต่ติดค้างอยู่ที่ขั้นตอนการวิเคราะห์ (ควรให้ความสนใจกับการบรรยายสถิติของฉันมากขึ้น) ฉันได้รวบรวมสัญญาณสองสัญญาณพร้อมกัน: อัตราการไหลรวมเข้ากับปริมาณและการเปลี่ยนแปลงการขยายหน้าอก ฉันต้องการเปรียบเทียบสัญญาณและในที่สุดก็หวังว่าจะได้ปริมาณจากสัญญาณการขยายหน้าอก แต่ก่อนอื่นฉันต้องจัด / ประสานข้อมูลของฉัน เนื่องจากการบันทึกไม่เริ่มต้นอย่างแม่นยำในเวลาเดียวกันและการขยายหน้าอกถูกจับเป็นระยะเวลานานฉันจำเป็นต้องค้นหาข้อมูลที่สอดคล้องกับข้อมูลปริมาณของฉันภายในชุดข้อมูลการขยายหน้าอกและมีการวัดความสอดคล้องกัน ฉันไม่แน่ใจว่าจะทำอย่างไรถ้าสัญญาณสองสัญญาณไม่เริ่มต้นในเวลาเดียวกันหรือระหว่างข้อมูลในระดับต่างๆและความละเอียดที่ต่างกัน ฉันได้แนบตัวอย่างของสัญญาณสองรายการ ( https://docs.google.com/spreadsheet/ccc?key=0As4oZTKp4RZ3dFRKaktYWEhZLXlFbFVVNNllbGVXNHc ) โปรดแจ้งให้เราทราบหากมีสิ่งใดอีก

4
ความแตกต่างระหว่างการวิเคราะห์การถดถอยและการวิเคราะห์ความแปรปรวน?
คำถามนี้ถูกย้ายจาก Mathematics Stack Exchange เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 7 ปีที่ผ่านมา ฉันกำลังเรียนรู้เกี่ยวกับการวิเคราะห์การถดถอยและการวิเคราะห์ความแปรปรวน ในการวิเคราะห์การถดถอยคุณมีตัวแปรหนึ่งคงที่และคุณต้องการทราบว่าตัวแปรนั้นไปกับตัวแปรอื่นได้อย่างไร ในการวิเคราะห์ความแปรปรวนที่คุณต้องการทราบเช่น: หากอาหารสัตว์นี้มีผลต่อน้ำหนักของสัตว์ ... ดังนั้นหนึ่ง var คงที่และอิทธิพลต่อคนอื่น ... ถูกหรือผิดกรุณาช่วยด้วย ...
21 regression 

1
การวินิจฉัยที่เหลือในรูปแบบการถดถอยแบบ MCMC
ฉันเพิ่งลงมือเมื่อไม่นานมานี้ในแบบผสมการถดถอยที่เหมาะสมในกรอบ Bayesian โดยใช้อัลกอริทึม MCMC (ฟังก์ชั่น MCMCglmm ใน R จริง) ฉันเชื่อว่าฉันเข้าใจวิธีการวินิจฉัยลู่เข้าของกระบวนการประมาณ (ติดตาม, พล็อต geweke, autocorrelation, การกระจายหลัง ... ) สิ่งหนึ่งที่ทำให้ฉันตกอยู่ในกรอบการทำงานของ Bayesian คือความพยายามอย่างมากที่จะอุทิศให้กับการวินิจฉัยเหล่านั้นในขณะที่ดูเหมือนว่าจะทำได้น้อยมากในแง่ของการตรวจสอบชิ้นส่วนที่เหลือของแบบจำลองที่ติดตั้ง ยกตัวอย่างเช่นใน MCMCglmm ส่วนฟังก์ชั่น residual.mcmc () นั้นยังมีอยู่ แต่ยังไม่ได้นำไปใช้จริง (เช่นส่งกลับ: "ส่วนที่เหลือยังไม่ได้นำไปใช้กับวัตถุ MCMCglmm"; เรื่องเดียวกันสำหรับทำนาย. ดูเหมือนว่าจะขาดจากแพ็คเกจอื่น ๆ เช่นกันและโดยทั่วไปแล้วจะมีการพูดคุยกันเล็กน้อยในวรรณคดีที่ฉันพบ ใครช่วยชี้ให้ฉันถึงการอ้างอิงที่มีประโยชน์และรหัส R ที่ฉันสามารถเล่นหรือแก้ไขได้ ขอบคุณมาก.

3
เมทริกซ์ความแปรปรวนแปรปรวนเชิงบวกที่ไม่แน่นอนบอกอะไรฉันได้บ้างเกี่ยวกับข้อมูลของฉัน
ฉันมีการสังเกตหลายตัวแปรหลายครั้งและต้องการประเมินความหนาแน่นของความน่าจะเป็นของตัวแปรทั้งหมด สันนิษฐานว่าเป็นข้อมูลที่กระจายตามปกติ ที่ตัวแปรจำนวนต่ำทุกอย่างทำงานได้ตามที่คาดหวัง แต่การย้ายไปหาจำนวนที่มากขึ้นส่งผลให้เมทริกซ์ความแปรปรวนร่วมแปรเปลี่ยนเป็นค่าบวกแน่นอน ฉันได้ลดปัญหาใน Matlab ไปที่: load raw_data.mat; % matrix number-of-values x number of variables Sigma = cov(data); [R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf. หากข้อผิดพลาด> 0 แสดงว่า Sigma ไม่ใช่ค่าบวกแน่นอน มีอะไรที่ฉันสามารถทำได้เพื่อประเมินข้อมูลการทดลองของฉันในระดับที่สูงขึ้นหรือไม่ มันบอกฉันว่ามีอะไรที่เป็นประโยชน์เกี่ยวกับข้อมูลของฉันหรือไม่? ฉันค่อนข้างเป็นผู้เริ่มต้นในพื้นที่นี้ดังนั้นจึงขออภัยถ้าฉันพลาดบางสิ่งที่ชัดเจน

5
วิธีการปฏิวัติใหม่ของการขุดข้อมูล?
ข้อความที่ตัดตอนมาต่อไปนี้มาจากHedge Fund Market Wizzards ของ Schwager (พฤษภาคม 2012) สัมภาษณ์กับผู้จัดการกองทุน Hedge ที่ประสบความสำเร็จอย่างต่อเนื่อง Jaffray Woodriff: สำหรับคำถาม: "อะไรคือข้อผิดพลาดที่เลวร้ายที่สุดที่ผู้คนทำในการขุดข้อมูล?": ผู้คนจำนวนมากคิดว่าพวกเขาโอเคเพราะพวกเขาใช้ข้อมูลในตัวอย่างสำหรับการฝึกอบรมและข้อมูลนอกตัวอย่างสำหรับการทดสอบ จากนั้นพวกเขาเรียงลำดับโมเดลตามวิธีที่พวกเขาดำเนินการกับข้อมูลในตัวอย่างและเลือกคนที่ดีที่สุดในการทดสอบข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง แนวโน้มของมนุษย์คือการใช้แบบจำลองที่ยังคงทำได้ดีในข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างและเลือกแบบจำลองเหล่านั้นเพื่อการซื้อขาย กระบวนการประเภทนั้นเปลี่ยนข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างให้เป็นส่วนหนึ่งของข้อมูลการฝึกอบรมเพราะมันเลือกรูปแบบที่ทำได้ดีที่สุดในช่วงเวลาตัวอย่าง เป็นหนึ่งในข้อผิดพลาดที่พบบ่อยที่สุดที่ผู้คนทำและหนึ่งในสาเหตุที่การทำ data data เพราะโดยทั่วไปแล้วจะทำให้ได้ผลลัพธ์ที่แย่มาก ผู้สัมภาษณ์ถามมากกว่า: "คุณควรทำอะไรแทน" คุณสามารถมองหารูปแบบที่โมเดลโดยเฉลี่ยแล้วตัวอย่างทั้งหมดยังคงทำได้ดี คุณรู้ว่าคุณทำได้ดีถ้าค่าเฉลี่ยสำหรับโมเดลที่ไม่อยู่ในกลุ่มตัวอย่างนั้นเป็นเปอร์เซ็นต์ที่สำคัญของคะแนนในตัวอย่าง โดยทั่วไปแล้วคุณจะได้อยู่ที่ไหนสักแห่งจริง ๆ ถ้าผลลัพธ์นอกกลุ่มตัวอย่างมากกว่า 50 เปอร์เซ็นต์ของตัวอย่าง รูปแบบธุรกิจของ QIM จะไม่ทำงานถ้า SAS และ IBM กำลังสร้างซอฟต์แวร์การสร้างแบบจำลองการทำนายที่ยอดเยี่ยม คำถามของฉัน มันสมเหตุสมผลหรือไม่? เขาหมายถึงอะไร คุณมีเงื่อนงำหรือบางทีอาจเป็นชื่อของวิธีการที่เสนอและการอ้างอิงบางส่วน? หรือผู้ชายคนนี้พบจอกศักดิ์สิทธิ์ที่ไม่มีใครเข้าใจหรือไม่? เขายังกล่าวในการสัมภาษณ์ครั้งนี้ว่าวิธีการของเขาอาจปฏิวัติวิทยาศาสตร์ ...

3
โมเดลเรียงซ้อน / ตระการตาพร้อมคาเร็ต
ฉันมักจะพบว่าตัวเองกำลังฝึกอบรมตัวพยากรณ์ที่แตกต่างกันหลายตัวที่ใช้caretในอาร์ฉันจะฝึกพวกมันทั้งหมดในการตรวจสอบความถูกต้องไขว้แบบเดียวกันโดยใช้caret::: createFoldsแล้วเลือกโมเดลที่ดีที่สุดโดยอิงจากข้อผิดพลาดการตรวจสอบข้าม อย่างไรก็ตามการทำนายค่ามัธยฐานจากหลายรุ่นมักจะดีกว่าแบบจำลองเดี่ยวที่ดีที่สุดในชุดทดสอบอิสระ ฉันกำลังคิดว่าจะเขียนฟังก์ชั่นบางอย่างสำหรับการวางซ้อน / การวางแบบ caret ที่ได้รับการฝึกอบรมโดยใช้ cross-validation folds เช่นโดยการคาดคะเนค่ามัธยฐานจากแต่ละแบบจำลองในแต่ละครั้งหรือโดยการฝึก "meta-model" แน่นอนว่าอาจต้องใช้ลูปการตรวจสอบความถูกต้องภายนอก ไม่มีใครรู้แพคเกจที่มีอยู่ / รหัสโอเพนซอร์สที่มีอยู่สำหรับรุ่น caret ตระการตา
21 r  caret  ensemble 

3
PCA เมื่อขนาดข้อมูลมากกว่าจำนวนตัวอย่าง
ฉันเจอสถานการณ์ที่ฉันมี 10 สัญญาณ / คนสำหรับ 10 คน (ตัวอย่าง 100 ตัวอย่าง) ที่มีจุดข้อมูล 14,000 (มิติ) ที่ฉันต้องผ่านไปยังตัวจําแนก ฉันต้องการลดขนาดของข้อมูลนี้และ PCA น่าจะเป็นวิธีที่ทำได้ อย่างไรก็ตามฉันสามารถค้นหาตัวอย่างของ PCA ที่มีจำนวนตัวอย่างมากกว่าจำนวนมิติเท่านั้น ฉันใช้แอปพลิเคชัน PCA ที่ค้นหาพีซีที่ใช้ SVD เมื่อฉันผ่านชุดข้อมูล 100x14000 ชุดของฉันมี 101 ชิ้นที่ส่งคืนดังนั้นขนาดส่วนใหญ่จะถูกมองข้ามอย่างชัดเจน โปรแกรมระบุว่าพีซี 6 เครื่องแรกมีความแปรปรวน 90% เป็นสมมติฐานที่สมเหตุสมผลหรือไม่ว่าพีซี 101 เครื่องเหล่านี้มีความแปรปรวนทั้งหมดและขนาดที่เหลืออยู่นั้นไม่สามารถละเลยได้? หนึ่งในเอกสารที่ฉันได้อ่านอ้างว่าด้วยชุดข้อมูลที่คล้ายกัน (แต่คุณภาพต่ำกว่าเล็กน้อย) กว่าของฉันพวกเขาสามารถลดขนาด 4500 มิติลงเหลือ 80 เก็บข้อมูล 96% ของข้อมูลต้นฉบับ คลื่นกระดาษผ่านรายละเอียดของเทคนิค PCA ที่ใช้มีเพียง 3100 ตัวอย่างเท่านั้นและฉันมีเหตุผลที่จะเชื่อว่าตัวอย่างน้อยกว่าที่ใช้ในการปฏิบัติ …

3
ขั้นตอนแรกสำหรับข้อมูลขนาดใหญ่ ( , )
สมมติว่าคุณกำลังวิเคราะห์ชุดข้อมูลขนาดใหญ่ที่มีการสังเกตการณ์นับพันล้านครั้งต่อวันซึ่งการสังเกตแต่ละครั้งมีตัวแปรเบาบางและตัวแปรเชิงซ้อนและตัวเลขซ้ำซ้อนสองพันรายการ สมมติว่ามีปัญหาการถดถอยหนึ่งปัญหาการจำแนกเลขฐานสองที่ไม่สมดุลและอีกหนึ่งภารกิจของ "ค้นหาว่าตัวทำนายใดที่สำคัญที่สุด" ความคิดของฉันสำหรับวิธีการแก้ไขปัญหาคือ: ติดตั้งโมเดลการทำนายบางอย่างกับกลุ่มตัวอย่างย่อยที่มีขนาดใหญ่ขึ้นและใหญ่ขึ้น (สุ่ม) จนกระทั่ง: การติดตั้งและตรวจสอบความถูกต้องของโมเดลกลายเป็นเรื่องยากในการคำนวณ (เช่นการใช้แล็ปท็อปของฉันช้าไม่มีเหตุผล R ไม่มีหน่วยความจำเหลือ ฯลฯ ) หรือ การฝึกอบรมและทดสอบ RMSE หรือค่าความแม่นยำ / การเรียกคืนมีความเสถียร หากข้อผิดพลาดในการฝึกอบรมและการทดสอบไม่คงที่ (1. ) ให้ใช้โมเดลที่ง่ายกว่าและ / หรือใช้โมเดลรุ่นมัลติคอร์หรือมัลติโหนดและรีสตาร์ทตั้งแต่ต้น หากการฝึกอบรมและการทดสอบข้อผิดพลาดเสถียร (2. ): หาก (เช่นฉันยังคงสามารถเรียกใช้อัลกอริทึมบนเนื่องจากยังไม่ใหญ่เกินไป) พยายามปรับปรุงประสิทธิภาพโดยการขยายพื้นที่ของฟีเจอร์หรือใช้โมเดลที่ซับซ้อนมากขึ้นและรีสตาร์ทตั้งแต่ต้นยังไม่มีข้อความs u b s e t≪ Nยังไม่มีข้อความsยูขsอีเสื้อ«ยังไม่มีข้อความN_{subset} \ll NXs u b s e tXsยูขsอีเสื้อX_{subset} หากเป็น 'ใหญ่' และการดำเนินการวิเคราะห์เพิ่มเติมนั้นมีค่าใช้จ่ายสูงให้วิเคราะห์ความสำคัญและสิ้นสุดของตัวแปรยังไม่มีข้อความs u b s …

1
เมื่อใดที่เขตข้อมูลสุ่มของ Markov
ในตำราเรียนของพวกเขารุ่นกราฟิกครอบครัวเอกและแปรผันอนุมาน , เอ็มจอร์แดนและเอ็มเวนไรท์หารือเกี่ยวกับการเชื่อมต่อระหว่างครอบครัวเอกและมาร์คอฟทุ่งสุ่ม (ไม่มีทิศทางรูปแบบกราฟิก) ฉันพยายามเข้าใจความสัมพันธ์ที่ดีขึ้นระหว่างพวกเขาด้วยคำถามต่อไปนี้: MRF ทุกคนเป็นสมาชิกของครอบครัวผู้ชี้แจงหรือไม่ สมาชิกทุกคนในตระกูลเอ็กซ์โปเนนเชียลสามารถแสดงตนเป็น MRF ได้หรือไม่? หาก MRFs ครอบครัวชี้แจงสิ่งที่เป็นตัวอย่างที่ดีของการกระจายของประเภทหนึ่งไม่ ncluded ในอื่น ๆ ?≠≠\neq จากสิ่งที่ฉันเข้าใจในตำราเรียนของพวกเขา (บทที่ 3) จอร์แดนและเวนไรท์นำเสนอข้อโต้แย้งต่อไป: บอกว่าเรามี AA เกลา X ตัวแปรสุ่มที่ตามบางส่วนกระจายและวาดnสังเกต IID X 1 , ... X nและเราต้องการที่จะระบุPพีพีpnnnX1, … XnX1,...XnX^1, \ldots X^nพีพีp เราคำนวณความคาดหวังเชิงประจักษ์ของฟังก์ชั่นบางอย่างφαφα\phi_\alpha% สำหรับทุกอัลฟ่า∈ฉันμ^α= 1nΣni = 1φα( Xผม) ,μ^α=1nΣผม=1nφα(Xผม),\hat{\mu}_\alpha= \frac{1}{n}\sum^n_{i=1}\phi_\alpha(X^i), อัลฟ่า∈ ฉันα∈ผม\alpha \in \mathcal{I} ที่แต่ละในบางชุดฉันทำดัชนีฟังก์ชั่นϕ …

3
ตัวแปรสุ่มสองตัวมีการแจกแจงแบบเดียวกัน แต่แตกต่างกันอย่างแน่นอนหรือไม่?
เป็นไปได้ว่าตัวแปรสุ่มสองตัวมีการแจกแจงแบบเดียวกัน แต่พวกเขาก็เกือบจะแตกต่างกันแน่นอน?

2
“ ความตั้งใจของผู้ตรวจสอบ” และเกณฑ์ / p-values
ฉันกำลังอ่านสไลด์"Doing Bayesian Data Analysis"ของ John Kruschke แต่จริงๆแล้วมีคำถามเกี่ยวกับการตีความของเขาเกี่ยวกับการทดสอบ t-test และ / หรือกรอบการทดสอบนัยสำคัญเชิงสมมติฐานว่างทั้งหมด เขาระบุว่าค่า p ถูกกำหนดอย่างไม่ดีเพราะขึ้นอยู่กับความตั้งใจของผู้ตรวจสอบ โดยเฉพาะอย่างยิ่งเขาให้ตัวอย่าง (หน้า 3-6) ของห้องปฏิบัติการสองแห่งที่รวบรวมชุดข้อมูลที่เหมือนกันเปรียบเทียบการรักษาสองแบบ หนึ่งห้องปฏิบัติการมุ่งมั่นที่จะรวบรวมข้อมูลจาก 12 วิชา (6 ต่อเงื่อนไข) ในขณะที่คนอื่น ๆ รวบรวมข้อมูลสำหรับระยะเวลาคงที่ซึ่งยังเกิดขึ้นกับผลตอบแทน 12 วิชา ตามสไลด์สำคัญสำหรับแตกต่างกันระหว่างแผนการเก็บรวบรวมข้อมูลทั้งสองนี้:สำหรับอดีต แต่สำหรับหลัง !p &lt; 0.05 t crit = 2.33 t crit = 2.45เสื้อttp &lt; 0.05p&lt;0.05p<0.05เสื้อcrit= 2.33tcrit=2.33t_{\textrm{crit}}=2.33เสื้อcrit= 2.45tcrit=2.45t_{\textrm{crit}}=2.45 บล็อกโพสต์ - ซึ่งตอนนี้ฉันไม่พบ - แนะนำว่าสถานการณ์ระยะเวลาคงที่มีองศาอิสระมากขึ้นเนื่องจากพวกเขาสามารถรวบรวมข้อมูลจาก …

4
ความสำคัญของการทำนายในการถดถอยหลายครั้ง: บางส่วนกับค่าสัมประสิทธิ์มาตรฐาน
ฉันสงสัยว่าความสัมพันธ์ที่แน่นอนระหว่างบางส่วนกับสัมประสิทธิ์ในแบบจำลองเชิงเส้นคืออะไรและฉันควรใช้เพียงหนึ่งหรือทั้งสองเพื่อแสดงความสำคัญและอิทธิพลของปัจจัยต่างๆR2R2R^2 เท่าที่ฉันรู้summaryฉันได้รับการประมาณค่าสัมประสิทธิ์และanovaผลรวมของกำลังสองสำหรับแต่ละปัจจัย - สัดส่วนของผลรวมของกำลังสองของปัจจัยหนึ่งหารด้วยผลรวมของผลบวกของสี่เหลี่ยมบวกส่วนที่เหลือเป็นบางส่วน (รหัสต่อไปนี้อยู่ใน)R2R2R^2R library(car) mod&lt;-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(&gt;|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 …

2
การเปรียบเทียบการจัดกลุ่ม: ดัชนีแรนด์เทียบกับการเปลี่ยนแปลงของข้อมูล
ฉันสงสัยว่าถ้าใครมีความเข้าใจหรือสัญชาตญาณหลังความแตกต่างระหว่างการเปลี่ยนแปลงของข้อมูลและดัชนีแรนด์สำหรับการเปรียบเทียบการจัดกลุ่ม ฉันได้อ่านบทความ "การเปรียบเทียบคลัสเตอร์ - ระยะทางจากข้อมูล " โดย Marina Melia (วารสารการวิเคราะห์หลายตัวแปร 2007) แต่นอกเหนือจากการสังเกตความแตกต่างในคำจำกัดความฉันไม่เข้าใจว่าการเปลี่ยนแปลงของข้อมูลคืออะไร จับภาพที่ดัชนีแรนด์ไม่ได้จับ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.