สถิติและข้อมูลขนาดใหญ่

4

เหตุใดการรวมละติจูดและลองจิจูดในบัญชี GAM สำหรับความสัมพันธ์เชิงพื้นที่อัตโนมัติ

ฉันสร้างแบบจำลองสารเติมแต่งทั่วไปสำหรับการตัดไม้ทำลายป่า เพื่ออธิบายความสัมพันธ์เชิงพื้นที่ฉันได้รวมละติจูดและลองจิจูดไว้ในรูปแบบการโต้ตอบที่ราบรื่น (เช่น s (x, y)) ฉันใช้การอ่านบทความจำนวนมากซึ่งผู้เขียนบอกว่า 'เพื่ออธิบายความสัมพันธ์เชิงพื้นที่โดยอัตโนมัติพิกัดของจุดถูกรวมไว้ในรูปแบบที่ราบรื่น' แต่สิ่งเหล่านี้ไม่เคยอธิบายว่าทำไมสิ่งนี้ถึงเกิดขึ้นจริง มันค่อนข้างน่าผิดหวัง ฉันได้อ่านหนังสือทั้งหมดที่ฉันสามารถหาได้ใน GAM โดยหวังว่าจะได้คำตอบ แต่ส่วนใหญ่ (เช่นโมเดลเสริมทั่วไป, บทนำด้วย R, SN Wood) เพียงแค่สัมผัสกับเรื่องโดยไม่อธิบาย ฉันจะซาบซึ้งจริง ๆ ถ้ามีใครสามารถอธิบายได้ว่าทำไมการรวมบัญชีละติจูดและลองจิจูดสำหรับการเปลี่ยนแปลงเชิงพื้นที่และสิ่งที่ 'การบัญชี' สำหรับมันหมายถึงจริงๆ - เป็นเพียงพอที่จะรวมไว้ในรูปแบบหรือถ้าคุณเปรียบเทียบแบบจำลองด้วย s (x, y) และโมเดลที่ไม่มี? และความเบี่ยงเบนที่อธิบายโดยคำนี้ระบุขอบเขตของความสัมพันธ์เชิงพื้นที่อัตโนมัติหรือไม่?

60 r modeling spatial autocorrelation gam

11

มุมฉากมีความหมายอย่างไรในบริบทของสถิติ

ในบริบทอื่นหมายถึงมุมฉาก "ที่มุมฉาก" หรือ "ตั้งฉาก" มุมฉากหมายถึงอะไรในบริบททางสถิติ? ขอบคุณสำหรับคำอธิบายใด ๆ

60 descriptive-statistics

8

ฉันจะช่วยให้มั่นใจได้อย่างไรว่าข้อมูลการทดสอบไม่รั่วไหลไปสู่ข้อมูลการฝึกอบรม?

สมมติว่าเรามีใครบางคนกำลังสร้างแบบจำลองการทำนาย แต่บางคนไม่จำเป็นต้องมีความรอบรู้ในหลักการทางสถิติหรือการเรียนรู้ของเครื่องที่เหมาะสม บางทีเราอาจช่วยคน ๆ นั้นขณะที่พวกเขากำลังเรียนรู้หรือบางทีคนนั้นก็กำลังใช้แพคเกจซอฟต์แวร์บางประเภทที่ต้องการความรู้น้อยที่สุดในการใช้งาน ตอนนี้บุคคลนี้อาจจำได้ดีว่าการทดสอบจริงมาจากความถูกต้อง (หรืออะไรก็ตามที่วัดอื่น ๆ ) จากข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง อย่างไรก็ตามความกังวลของฉันคือมีจำนวนมากรายละเอียดย่อยที่ต้องกังวลเกี่ยวกับ ในกรณีที่ง่ายพวกเขาสร้างแบบจำลองของพวกเขาและประเมินบนข้อมูลการฝึกอบรมและประเมินบนข้อมูลการทดสอบที่จัดขึ้น น่าเสียดายที่บางครั้งมันง่ายเกินไปที่จะย้อนกลับไปและปรับแต่งพารามิเตอร์การสร้างแบบจำลองและตรวจสอบผลลัพธ์ในข้อมูล "การทดสอบ" เดียวกันนั้น ณ จุดนี้ข้อมูลไม่ได้เป็นข้อมูลนอกตัวอย่างที่แท้จริงอีกต่อไปและการมีน้ำหนักเกินอาจกลายเป็นปัญหาได้ วิธีหนึ่งที่เป็นไปได้ในการแก้ไขปัญหานี้คือการแนะนำให้สร้างชุดข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างจำนวนมากซึ่งชุดทดสอบแต่ละชุดสามารถถูกทิ้งหลังการใช้งานและไม่ได้นำมาใช้ซ้ำเลย วิธีนี้ต้องใช้การจัดการข้อมูลจำนวนมากโดยเฉพาะอย่างยิ่งการแยกที่ต้องทำก่อนการวิเคราะห์ (ดังนั้นคุณจะต้องรู้จำนวนการแยกก่อนล่วงหน้า) บางทีวิธีการทั่วไปที่มากขึ้นก็คือการตรวจสอบความถูกต้องด้วย k-fold อย่างไรก็ตามในบางแง่ที่สูญเสียความแตกต่างระหว่างชุดข้อมูล "การฝึกอบรม" และ "การทดสอบ" ที่ฉันคิดว่าจะมีประโยชน์โดยเฉพาะอย่างยิ่งกับผู้ที่ยังคงเรียนรู้ นอกจากนี้ฉันไม่มั่นใจว่าสิ่งนี้เหมาะสมสำหรับแบบจำลองการทำนายทุกประเภท มีวิธีที่ฉันมองข้ามเพื่อช่วยเอาชนะปัญหาการ overfitting และการทดสอบการรั่วไหลในขณะที่ยังคงค่อนข้างชัดเจนกับผู้ใช้ที่ไม่มีประสบการณ์?

60 machine-learning classification predictive-models cross-validation out-of-sample

9

อะไรคือข้อเสียของการใช้เชือกสำหรับการเลือกตัวแปรสำหรับการถดถอย

จากสิ่งที่ฉันรู้การใช้ lasso สำหรับการเลือกตัวแปรช่วยจัดการปัญหาของอินพุตที่สัมพันธ์กัน นอกจากนี้เนื่องจากมันเทียบเท่ากับ Least Angle Regression มันจึงไม่คำนวณช้า อย่างไรก็ตามหลายคน (ตัวอย่างเช่นคนที่ฉันรู้ว่าทำสถิติไบโอ) ยังดูเหมือนว่าจะชอบการเลือกตัวแปรขั้นตอน มีข้อเสียในทางปฏิบัติของการใช้บ่วงบาศที่ทำให้เสียเปรียบหรือไม่?

60 regression feature-selection lasso

9

ทำอย่างไรจึงจะเห็นภาพว่า ANOVA ทำอะไร

มีวิธีอะไร (วิธี?) ที่จะอธิบายด้วยสายตาว่า ANOVA คืออะไร? จะมีการอ้างอิงลิงค์ลิงค์ (R packages) ใด ๆ

60 data-visualization anova teaching

5

ความสัมพันธ์ระหว่าง k-หมายถึงการจัดกลุ่มและ PCA คืออะไร?

มันเป็นเรื่องธรรมดาที่จะใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) ก่อนอัลกอริทึมการจัดกลุ่ม (เช่น k-mean) เชื่อว่าช่วยปรับปรุงผลการจัดกลุ่มในทางปฏิบัติ (ลดเสียงรบกวน) อย่างไรก็ตามฉันสนใจที่จะศึกษาเชิงเปรียบเทียบและเชิงลึกเกี่ยวกับความสัมพันธ์ระหว่าง PCA และ k-mean ตัวอย่างเช่น Chris Ding และ Xiaofeng He, 2004, K- หมายถึงการทำคลัสเตอร์ผ่านการวิเคราะห์องค์ประกอบหลักแสดงให้เห็นว่า "ส่วนประกอบหลักเป็นวิธีการแก้ปัญหาอย่างต่อเนื่องสำหรับตัวบ่งชี้การเป็นสมาชิกคลัสเตอร์แบบไม่ต่อเนื่องสำหรับการจัดกลุ่ม K-mean" แต่ผมมีช่วงเวลาที่ยากในการทำความเข้าใจกระดาษนี้และวิกิพีเดียจริงอ้างว่ามันเป็นความผิด นอกจากนี้ผลลัพธ์ของทั้งสองวิธียังค่อนข้างแตกต่างกันในแง่ที่ PCA ช่วยลดจำนวนของ "คุณสมบัติ" ในขณะที่รักษาความแปรปรวนขณะที่การจัดกลุ่มจะลดจำนวนของ "ข้อมูล - คะแนน" โดยสรุปหลายจุดตามความคาดหวัง / หมายถึง (ในกรณีของ k- หมายถึง) ดังนั้นหากชุดข้อมูลที่ประกอบด้วยในจุดที่มีให้บริการแต่ละ PCA มีจุดมุ่งหมายที่การบีบอัดคุณสมบัติในขณะที่การจัดกลุ่มมีจุดมุ่งหมายในการบีบอัดข้อมูลจุดNNNTTTTTTNNN ฉันกำลังมองหาคำอธิบายของคนธรรมดาของความสัมพันธ์ระหว่างสองเทคนิคนี้ + เอกสารทางเทคนิคเพิ่มเติมบางส่วนที่เกี่ยวข้องกับทั้งสองเทคนิค

60 clustering pca k-means

7

การปรับให้เหมาะสมเมื่อฟังก์ชันต้นทุนช้าเพื่อประเมิน

การไล่ระดับสีแบบลาดลงและวิธีอื่น ๆ มีประโยชน์สำหรับการค้นหาค่าต่ำสุดท้องถิ่นในฟังก์ชันต้นทุน พวกเขาสามารถมีประสิทธิภาพเมื่อฟังก์ชันต้นทุนสามารถประเมินได้อย่างรวดเร็วในแต่ละจุดไม่ว่าจะเป็นตัวเลขหรือเชิงวิเคราะห์ ฉันมีสิ่งที่ดูเหมือนจะเป็นสถานการณ์ที่ผิดปกติ การประเมินฟังก์ชั่นค่าใช้จ่ายของฉันแต่ละครั้งมีราคาแพง ฉันกำลังพยายามค้นหาชุดของพารามิเตอร์ที่ย่อเล็กสุดพื้นผิว 3 มิติกับพื้นผิวจริงพื้นดิน เมื่อใดก็ตามที่ฉันเปลี่ยนพารามิเตอร์ฉันต้องเรียกใช้อัลกอริทึมกับกลุ่มตัวอย่างทั้งหมดเพื่อวัดผลของมัน ในการคำนวณการไล่ระดับสีฉันต้องเปลี่ยนพารามิเตอร์ทั้ง 15 อย่างอิสระซึ่งหมายความว่าฉันต้องสร้างพื้นผิวทั้งหมดใหม่และเปรียบเทียบกับวิธีการสุ่มตัวอย่างกลุ่มตัวอย่างหลายครั้งเกินไปต่อการไล่ระดับสี ฉันได้พัฒนาวิธีการที่จะหลีกเลี่ยงปัญหานี้และขณะนี้กำลังประเมินอยู่ แต่ฉันประหลาดใจที่ฉันไม่ได้พบมากในวรรณกรรมเกี่ยวกับการประเมินฟังก์ชั่นราคาแพง นี่ทำให้ฉันสงสัยว่าฉันกำลังทำให้ปัญหาหนักขึ้นกว่าที่เป็นอยู่หรือไม่และอาจมีวิธีที่ดีกว่าที่มีอยู่แล้ว ดังนั้นคำถามของฉันจึงเป็นแบบนี้: ไม่มีใครรู้วิธีการเพิ่มประสิทธิภาพฟังก์ชั่นค่าใช้จ่ายนูนหรือไม่เมื่อการประเมินผลช้า? หรือฉันกำลังทำอะไรโง่ ๆ ในตอนแรกโดยทำขั้นตอนวิธีใหม่และเปรียบเทียบกับกลุ่มตัวอย่างหลาย ๆ ครั้ง?

59 gradient-descent optimization bayesian-optimization

3

ทำไมสันถึงประเมินได้ดีกว่า OLS ด้วยการเพิ่มค่าคงที่ในแนวทแยง

ฉันเข้าใจว่าการประเมินการถดถอยของสันเขาเป็นที่ลดผลรวมที่เหลือของสแควร์และลดขนาดของββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] แต่ผมไม่เข้าใจความสำคัญของความจริงที่ว่าβridgeβridge\beta_\text{ridge}แตกต่างจากβOLSβOLS\beta_\text{OLS}โดยเฉพาะการเพิ่มค่าคงที่ขนาดเล็กเพื่อเส้นทแยงมุมของX'XX′XX′XX'Xอันที่จริง βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y หนังสือของฉันกล่าวว่าสิ่งนี้ทำให้การประมาณมีเสถียรภาพมากขึ้นเชิงตัวเลข - เพราะเหตุใด ความเสถียรเชิงตัวเลขเกี่ยวข้องกับการหดตัวต่อ 0 ของการประมาณสันหรือไม่หรือเป็นแค่เรื่องบังเอิญ?

59 regression least-squares ridge-regression shrinkage

13

ถ้าเราล้มเหลวในการปฏิเสธสมมติฐานว่างในการศึกษาขนาดใหญ่มันไม่ได้เป็นหลักฐานสำหรับโมฆะ?

ข้อ จำกัด พื้นฐานของการทดสอบนัยสำคัญสมมุติฐานว่างคือมันไม่อนุญาตให้นักวิจัยรวบรวมหลักฐานเพื่อสนับสนุน null ( แหล่งที่มา ) ฉันเห็นการอ้างสิทธิ์นี้ซ้ำหลายครั้ง แต่ฉันไม่สามารถหาเหตุผลได้ หากเราทำการศึกษาขนาดใหญ่และเราไม่พบหลักฐานที่มีนัยสำคัญทางสถิติต่อสมมติฐานว่างเปล่านั่นไม่ใช่หลักฐานสำหรับสมมติฐานว่างหรือไม่

59 hypothesis-testing

12

การทดสอบสองด้าน…ฉันไม่มั่นใจ ประเด็นคืออะไร?

ข้อความที่ตัดตอนมาต่อไปนี้มาจากการเข้า, อะไรคือความแตกต่างระหว่างการทดสอบแบบด้านเดียวและแบบสองด้าน? บนเว็บไซต์ช่วยเหลือสถิติของ UCLA ... พิจารณาถึงผลที่จะตามมาจากการขาดหายไปในทิศทางอื่น ลองนึกภาพคุณได้พัฒนายาใหม่ที่คุณเชื่อว่าเป็นการพัฒนายาที่มีอยู่เดิม คุณต้องการเพิ่มความสามารถในการตรวจจับการปรับปรุงให้สูงสุดเพื่อที่คุณจะได้เลือกการทดสอบแบบด้านเดียว ในการทำเช่นนี้คุณไม่สามารถทดสอบความเป็นไปได้ที่ยาใหม่จะมีประสิทธิภาพน้อยกว่ายาที่มีอยู่เดิม หลังจากเรียนรู้พื้นฐานที่แน่นอนของการทดสอบสมมติฐานและไปที่ส่วนเกี่ยวกับการทดสอบแบบเทลด์ vs การทดสอบสองแบบ ... ฉันเข้าใจคณิตศาสตร์พื้นฐานและความสามารถในการตรวจจับที่เพิ่มขึ้นของการทดสอบแบบเทลด์หนึ่งการทดสอบ ฯลฯ ... แต่ฉันไม่สามารถพันรอบศีรษะ รอบ ๆ สิ่งหนึ่ง ... ประเด็นคืออะไร? ฉันล้มเหลวที่จะเข้าใจว่าทำไมคุณควรแยกอัลฟ่าของคุณระหว่างสุดขั้วทั้งสองเมื่อผลลัพธ์ตัวอย่างของคุณสามารถเป็นหนึ่งหรืออย่างอื่นหรือทั้งสองอย่าง ใช้สถานการณ์ตัวอย่างจากข้อความที่ยกมาด้านบน คุณอาจจะ "ล้มเหลวในการทดสอบ" สำหรับผลลัพธ์ในทิศทางตรงกันข้ามได้อย่างไร? คุณมีค่าเฉลี่ยตัวอย่าง คุณมีค่าเฉลี่ยประชากรของคุณ เลขคณิตอย่างง่ายจะบอกให้คุณทราบว่าอะไรสูงกว่า มีการทดสอบอะไรหรือล้มเหลวในการทดสอบในทิศทางตรงกันข้าม สิ่งที่หยุดคุณเพิ่งเริ่มต้นจากศูนย์ด้วยสมมติฐานตรงกันข้ามถ้าคุณเห็นชัดเจนว่าค่าเฉลี่ยตัวอย่างจะไปในทิศทางอื่น? อ้างจากหน้าเดียวกันอีก: การเลือกการทดสอบแบบหนึ่งด้านหลังจากรันการทดสอบแบบสองด้านที่ล้มเหลวในการปฏิเสธสมมติฐานว่างไม่เหมาะสมไม่ว่า "ปิด" ถึงการทดสอบแบบสองด้านนั้นมีนัยสำคัญก็ตาม ฉันคิดว่าสิ่งนี้ยังใช้กับการสลับขั้วของการทดสอบแบบด้านเดียว แต่วิธีนี้ "หมอ" ส่งผลให้ถูกต้องน้อยกว่าถ้าคุณเพียงแค่เลือกการทดสอบหนึ่งด้านที่ถูกต้องในตอนแรก? เห็นได้ชัดว่าฉันพลาดภาพส่วนใหญ่ที่นี่ ทุกอย่างดูเหมือนจะไม่เจาะจงเกินไป ซึ่งก็คือฉันคิดว่าในแง่ที่สิ่งที่หมายถึง "นัยสำคัญทางสถิติ" - 95%, 99%, 99.9% ... โดยพลการเริ่มต้นด้วย

59 hypothesis-testing statistical-significance inference

3

อธิบายการ์ตูน xkcd jelly bean: อะไรทำให้ตลก?

ฉันเห็นว่าหนึ่งครั้งจากการทดสอบทั้งหมดยี่สิบครั้งที่พวกเขารันดังนั้นพวกเขาจึงคิดผิด ๆ ว่าในช่วงหนึ่งของการทดสอบยี่สิบครั้งผลลัพธ์จะมีนัยสำคัญ ( )0.05 = 1 / 20p < 0.05p<0.05p < 0.050.05 = 1 / 200.05=1/200.05 = 1/20 xkcd jelly bean comic - "สำคัญ" หัวข้อ: สำคัญ ข้อความโฉบ: "'งั้นเอ่อเราได้ทำการศึกษาสีเขียวอีกครั้งและไม่มีการเชื่อมโยงมันอาจเป็น -' 'การวิจัยมีความขัดแย้งกับการเชื่อมโยงสีเขียวของถั่วเขียว / สิว;

59 hypothesis-testing statistical-significance confidence-interval p-value humor

6

การโต้วาทีแบบ Bayesian เกิดขึ้นที่ไหน

โลกของสถิติถูกแบ่งระหว่างผู้ใช้บ่อยและเบย์ วันนี้ดูเหมือนว่าทุกคนทำทั้งสองอย่าง สิ่งนี้จะเป็นอย่างไร หากวิธีการที่แตกต่างกันเหมาะสำหรับปัญหาที่แตกต่างกันเหตุใดบรรพบุรุษของผู้ก่อตั้งสถิติจึงไม่เห็นสิ่งนี้ อีกทางเลือกหนึ่งการถกเถียงกันได้รับรางวัลจากการถกเถียงกันบ่อยครั้งและ Bayesians ส่วนตัวที่แท้จริงย้ายไปอยู่กับทฤษฎีการตัดสินใจ?

59 bayesian frequentist history philosophical

2

อะไรคือความแตกต่างระหว่าง ZCA กับไวท์เทนนิ่ง PCA?

ฉันสับสนเกี่ยวกับการฟอกสีฟันแบบ ZCA และการฟอกสีฟันปกติ (ซึ่งได้มาจากการหารส่วนประกอบหลักด้วยค่ารากที่สองของค่าลักษณะ PCA) เท่าที่ฉันรู้, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},ที่เป็น PCA eigenvectorsUU\mathbf U ZCA Whitening มีประโยชน์อะไรบ้าง? อะไรคือความแตกต่างระหว่างการฟอกสีฟันปกติและการฟอกสีฟันแบบ ZCA?

59 pca dimensionality-reduction image-processing

4

คำอธิบายที่เข้าใจง่ายของ Fisher Information และ Cramer-Rao

ฉันไม่พอใจกับข้อมูลฟิชเชอร์มาตรการและวิธีการที่เป็นประโยชน์ นอกจากนี้ความสัมพันธ์กับขอบเขตแครมเมอร์ - ราวไม่ชัดเจนสำหรับฉัน ใครสามารถช่วยอธิบายแนวคิดเหล่านี้ได้ด้วยตนเอง?

59 estimation intuition fisher-information

6

วิธีหลักในการยุบตัวแปรเด็ดขาดที่มีหลายระดับ?

เทคนิคใดบ้างที่มีให้สำหรับการยุบ (หรือรวมกำไร) หลายหมวดหมู่ถึงสองสามเพื่อจุดประสงค์ในการใช้พวกมันเป็นอินพุท (ตัวทำนาย) ในแบบจำลองทางสถิติ พิจารณาตัวแปรเช่นนักศึกษาวิทยาลัยที่สำคัญ (วินัยที่เลือกโดยนักศึกษาระดับปริญญาตรี) มันไม่มีการเรียงลำดับและจัดหมวดหมู่ แต่อาจมีหลายระดับที่แตกต่างกัน สมมติว่าฉันต้องการใช้วิชาเอกเป็นตัวทำนายในตัวแบบการถดถอย การใช้ระดับเหล่านี้ตามที่เป็นอยู่สำหรับการสร้างแบบจำลองจะนำไปสู่ปัญหาทุกประเภทเพราะมีจำนวนมาก ความแม่นยำทางสถิติจำนวนมากจะถูกนำไปใช้และผลลัพธ์นั้นยากต่อการตีความ เราไม่ค่อยสนใจวิชาเอกที่เฉพาะเจาะจง - เรามีแนวโน้มที่จะสนใจในหมวดหมู่กว้าง ๆ (กลุ่มย่อย) ของวิชาเอก แต่มันก็ไม่ชัดเจนเสมอไปว่าจะแบ่งระดับออกเป็นหมวดหมู่ระดับสูงกว่านี้ได้อย่างไรหรือแม้กระทั่งจำนวนหมวดหมู่ระดับสูงที่จะใช้ สำหรับข้อมูลทั่วไปฉันยินดีที่จะใช้การวิเคราะห์ปัจจัยเมทริกซ์ตัวประกอบหรือเทคนิคการสร้างแบบจำลองที่ไม่ต่อเนื่องแฝง แต่วิชาเอกเป็นหมวดหมู่พิเศษร่วมกันดังนั้นฉันลังเลที่จะใช้ประโยชน์จากความแปรปรวนร่วมของพวกเขาเพื่ออะไร นอกจากนี้ฉันไม่สนใจหมวดหมู่ที่สำคัญด้วยตัวเอง ฉันดูแลเกี่ยวกับการผลิตประเภทระดับสูงที่มีความเชื่อมโยงกันด้วยความเคารพต่อผลการถดถอยของฉัน ในกรณีผลไบนารีที่แนะนำให้ฉันบางสิ่งบางอย่างเช่นการวิเคราะห์ discriminant เชิงเส้น (LDA) เพื่อสร้างหมวดหมู่ระดับที่สูงขึ้นที่เพิ่มประสิทธิภาพการเลือกปฏิบัติสูงสุด แต่ LDA เป็นเทคนิคที่ จำกัด และรู้สึกเหมือนถูกขุดลอกข้อมูลสกปรกให้ฉัน ยิ่งกว่านั้นการแก้ปัญหาแบบต่อเนื่องใด ๆ ก็ยากที่จะตีความ ในขณะเดียวกันบางสิ่งที่อยู่บนพื้นฐานของความแปรปรวนร่วมเช่นการวิเคราะห์การติดต่อหลายทาง (MCA) ดูเหมือนว่าฉันสงสัยในกรณีนี้เพราะการพึ่งพาอาศัยกันของตัวแปรหุ่นที่ไม่เหมือนใคร ตัวแปรเดียวกัน แก้ไข : เพื่อให้ชัดเจนนี่คือการยุบหมวดหมู่ (ไม่ได้เลือกหมวดหมู่) และหมวดหมู่เป็นตัวทำนายหรือตัวแปรอิสระ ในการเข้าใจถึงปัญหาย้อนหลังปัญหานี้ดูเหมือนจะเป็นเวลาที่เหมาะสมในการ "ทำให้เป็นปกติ" ทั้งหมดและปล่อยให้พระเจ้าจัดเรียง 'em out …

58 regression categorical-data dimensionality-reduction feature-construction many-categories