สถิติและข้อมูลขนาดใหญ่ mixed-type-data

6

การวิเคราะห์องค์ประกอบหลักสามารถนำไปใช้กับชุดข้อมูลที่มีการผสมผสานของตัวแปรแบบต่อเนื่องและหมวดหมู่ได้หรือไม่?

ฉันมีชุดข้อมูลที่มีทั้งข้อมูลแบบต่อเนื่องและหมวดหมู่ ฉันกำลังวิเคราะห์โดยใช้ PCA และฉันสงสัยว่ามันดีที่จะรวมตัวแปรเด็ดขาดเป็นส่วนหนึ่งของการวิเคราะห์ ความเข้าใจของฉันคือ PCA สามารถใช้ได้กับตัวแปรต่อเนื่องเท่านั้น ถูกต้องไหม หากไม่สามารถใช้กับข้อมูลที่เป็นหมวดหมู่ได้มีทางเลือกอะไรบ้างในการวิเคราะห์?

147 categorical-data pca correspondence-analysis mixed-type-data

6

ความสัมพันธ์กับตัวแปรหมวดหมู่ที่ไม่ได้เรียงลำดับ

ฉันมีชื่อไฟล์ที่มีข้อสังเกตและตัวแปรมากมาย บางส่วนมีการจัดหมวดหมู่ (ไม่เรียงลำดับ) และอื่น ๆ เป็นตัวเลข ฉันกำลังมองหาความสัมพันธ์ระหว่างตัวแปรเหล่านี้ ฉันสามารถคำนวณสหสัมพันธ์ของตัวแปรเชิงตัวเลข (Spearman's correlation) ได้ แต่: ฉันไม่ทราบวิธีการวัดความสัมพันธ์ระหว่างตัวแปรเด็ดขาดที่ไม่เรียงลำดับ ฉันไม่รู้วิธีวัดความสัมพันธ์ระหว่างตัวแปรเด็ดขาดที่ไม่เรียงลำดับกับตัวแปรตัวเลข ไม่มีใครรู้ว่าสิ่งนี้สามารถทำได้? ถ้าเป็นเช่นนั้นมีฟังก์ชั่น R ที่ใช้วิธีการเหล่านี้หรือไม่?

123 r correlation categorical-data continuous-data mixed-type-data

2

การจัดกลุ่มตามลำดับชั้นด้วยข้อมูลชนิดผสม - มีระยะทาง / ความคล้ายคลึงกันในการใช้งานอย่างไร

ในชุดข้อมูลของฉันเรามีทั้งตัวแปรต่อเนื่องและไม่ต่อเนื่องตามธรรมชาติ ฉันต้องการทราบว่าเราสามารถทำการจัดกลุ่มแบบลำดับชั้นโดยใช้ตัวแปรทั้งสองประเภทได้หรือไม่ และถ้าใช่มีการวัดระยะทางที่เหมาะสม?

34 clustering similarities distance-functions mixed-type-data

2

วิธีการใช้ทั้งไบนารีและตัวแปรต่อเนื่องร่วมกันในการจัดกลุ่ม?

ฉันต้องการใช้ตัวแปรไบนารี (ค่า 0 & 1) ใน k-mean แต่ k-mean ใช้งานได้กับตัวแปรต่อเนื่องเท่านั้น ฉันรู้ว่าบางคนยังคงใช้ตัวแปรไบนารีเหล่านี้ใน k-mean โดยไม่สนใจข้อเท็จจริงที่ว่า k-หมายความว่าถูกออกแบบมาสำหรับตัวแปรต่อเนื่องเท่านั้น นี่เป็นสิ่งที่ฉันยอมรับไม่ได้ คำถาม: ดังนั้นวิธีที่ถูกต้องทางสถิติ / ทางคณิตศาสตร์ของการใช้ตัวแปรไบนารีในการจัดกลุ่ม k- หมายถึง / ลำดับชั้นคืออะไร? วิธีการนำโซลูชันไปใช้ใน SAS / R

27 r clustering binary-data k-means mixed-type-data

4

เหตุใดข้อมูลที่หลากหลายจึงเป็นปัญหาสำหรับอัลกอริธึมการจัดกลุ่มแบบอิงยูคลิด

อัลกอริธึมการจัดกลุ่มและการลดขนาดแบบคลาสสิกส่วนใหญ่ (การจัดกลุ่มแบบลำดับชั้นการวิเคราะห์องค์ประกอบหลัก, k-mean, การจัดระเบียบแผนที่เอง ... ) ได้รับการออกแบบมาโดยเฉพาะสำหรับข้อมูลตัวเลขและข้อมูลอินพุตของพวกเขาถูกมองว่าเป็นจุด นี่เป็นปัญหาแน่นอนเนื่องจากคำถามในโลกแห่งความเป็นจริงนั้นเกี่ยวข้องกับข้อมูลที่หลากหลาย: ตัวอย่างเช่นหากเราศึกษารถเมล์ความสูงและความยาวและขนาดมอเตอร์จะเป็นตัวเลข แต่เราอาจสนใจสีด้วย (ตัวแปรเด็ดขาด: สีน้ำเงิน / แดง / เขียว ... ) และคลาสความจุ (ตัวแปรที่สั่ง: ความจุขนาดเล็ก / กลาง / ใหญ่) โดยเฉพาะเราอาจต้องการศึกษาตัวแปรประเภทต่าง ๆ เหล่านี้พร้อมกัน มีวิธีการหลายวิธีในการขยาย algos การจัดกลุ่มแบบคลาสสิกเป็นข้อมูลแบบผสมเช่นการใช้ Gower dissimilarity เพื่อเชื่อมต่อเข้ากับการจัดกลุ่มแบบลำดับชั้นหรือการปรับขนาดแบบหลายมิติหรือวิธีการอื่นที่ใช้เมทริกซ์ระยะทางเป็นอินพุต หรือเช่นวิธีการนี้เป็นส่วนเสริมของ SOM เพื่อผสมข้อมูล คำถามของฉันคือทำไมเราไม่สามารถใช้ระยะทางแบบยุคลิดในตัวแปรผสมได้ หรือเพราะเหตุใดจึงไม่ดีที่จะทำเช่นนั้น? ทำไมเราไม่จำลองหุ่นตัวแปรที่เป็นหมวดหมู่ทำให้ตัวแปรทั้งหมดเป็นปกติเพื่อให้พวกมันมีน้ำหนักใกล้เคียงกันระหว่างการสังเกตและเรียกใช้ algos ปกติบนเมทริกซ์เหล่านี้ มันง่ายมากและไม่เคยทำเลยดังนั้นฉันคิดว่ามันผิดมาก แต่ทุกคนสามารถบอกฉันได้ว่าทำไม และ / หรือให้ฉันอ้างอิงบางอย่าง? ขอบคุณ

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

8

การจัดกลุ่มข้อมูลชนิดผสมด้วย R

ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันสงสัยว่าเป็นไปได้หรือไม่ที่จะดำเนินการภายใน R การจัดกลุ่มข้อมูลที่มีตัวแปรข้อมูลแบบผสม กล่าวอีกนัยหนึ่งฉันมีชุดข้อมูลที่ประกอบด้วยตัวแปรตัวเลขและหมวดหมู่ภายในและฉันกำลังค้นหาวิธีที่ดีที่สุดในการจัดกลุ่มพวกเขา ใน SPSS ฉันจะใช้คลัสเตอร์สองขั้นตอน ฉันสงสัยว่าใน R ฉันสามารถหาเทคนิคที่คล้ายกันได้หรือไม่ ฉันได้รับแจ้งเกี่ยวกับแพคเกจ poLCA แต่ฉันไม่แน่ใจ ...

19 r clustering mixed-type-data

1

ตกลงเพื่อผสมข้อมูลเด็ดขาดและต่อเนื่องสำหรับ SVM (รองรับ Vector Machines) หรือไม่

ฉันมีชุดข้อมูลเช่น +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 | SHOP & HOUSE | …

14 categorical-data svm mixed-type-data

2

ระยะห่างของโกเวอร์คำนวณความแตกต่างระหว่างตัวแปรไบนารีอย่างไร

ฉันมี 17 ตัวเลขและ 5 ไบนารี (0-1) ตัวแปรโดยมี 73 ตัวอย่างในชุดข้อมูลของฉัน ฉันต้องการเรียกใช้การวิเคราะห์คลัสเตอร์ ฉันรู้ว่าระยะทางของโกเวอร์เป็นตัวชี้วัดที่ดีสำหรับชุดข้อมูลที่มีตัวแปรแบบผสม อย่างไรก็ตามฉันไม่เข้าใจว่าระยะทางของโกเวอร์คำนวณความแตกต่างระหว่างตัวแปรไบนารีได้อย่างไร สำหรับฉันดูเหมือนว่ามันไม่แตกต่างจากระยะทางแบบยุคลิด

13 clustering distance mixed-type-data

1

วิธีคลัสเตอร์ที่แข็งแกร่งสำหรับข้อมูลแบบผสมใน R

ฉันต้องการจัดกลุ่มชุดข้อมูลขนาดเล็ก (การสังเกต 64 ครั้งของตัวแปรช่วงเวลา 4 ตัวและตัวแปรหมวดหมู่สามปัจจัยเดียว) ตอนนี้ฉันค่อนข้างใหม่ในการวิเคราะห์กลุ่ม แต่ฉันรู้ว่ามีความคืบหน้าอย่างมากตั้งแต่วันที่การจัดกลุ่มแบบลำดับชั้นหรือ k-mean เป็นตัวเลือกที่ใช้ได้เท่านั้น โดยเฉพาะอย่างยิ่งดูเหมือนว่าวิธีการใหม่ของการจัดกลุ่มตามโมเดลนั้นมีอยู่ซึ่งชี้ให้เห็นโดย chlให้เปิดใช้งาน "ดัชนีความดี - พอดีพอดีในการตัดสินใจเกี่ยวกับจำนวนของกลุ่มหรือคลาส" อย่างไรก็ตามแพคเกจ R มาตรฐานสำหรับการจัดกลุ่มตามแบบจำลองmclustจะไม่เหมาะกับรุ่นที่มีชนิดข้อมูลแบบผสม fpcรุ่นจะ แต่มีปัญหาในการกระชับรูปแบบที่ฉันสงสัยว่าเพราะธรรมชาติไม่ใช่เกาส์ของตัวแปรอย่างต่อเนื่อง ฉันควรจะทำตามแนวทางของแบบจำลองต่อไปหรือไม่? ฉันต้องการใช้ R ต่อไปถ้าเป็นไปได้ เท่าที่ฉันเห็นฉันมีตัวเลือกน้อย: mclustแปลงตัวแปรเด็ดขาดสามระดับเป็นสองตัวแปรหุ่นและการใช้งาน ฉันไม่แน่ใจว่านี่จะทำให้เกิดผลลัพธ์หรือไม่ แต่ถ้าไม่ใช่นี่คือตัวเลือกที่ฉันต้องการ แปลงตัวแปรอย่างต่อเนื่องและใช้fpcแพ็คเกจ ใช้แพ็คเกจ R อื่นที่ฉันยังไม่เคยพบมาก่อน สร้างเมทริกซ์ที่แตกต่างกันโดยใช้การวัดของโกเวอร์และใช้เทคนิคแบบลำดับชั้นหรือการย้ายฐานแบบดั้งเดิม stats.se hivemind มีคำแนะนำใด ๆ หรือไม่

12 clustering model-based-clustering mixed-type-data

1

t-SNE พร้อมตัวแปรแบบต่อเนื่องและไบนารีแบบผสม

ฉันกำลังตรวจสอบการสร้างภาพข้อมูลมิติสูงโดยใช้ t-SNE ฉันมีข้อมูลบางส่วนที่มีไบนารีผสมและตัวแปรต่อเนื่องและข้อมูลดูเหมือนว่าจะจัดกลุ่มข้อมูลไบนารีได้อย่างง่ายดายเกินไป แน่นอนว่าสิ่งนี้คาดว่าจะเป็นข้อมูลสเกล (ระหว่าง 0 ถึง 1): ระยะ Euclidian จะยิ่งใหญ่ที่สุด / เล็กที่สุดระหว่างตัวแปรไบนารี เราควรจัดการกับชุดข้อมูลไบนารี / ต่อเนื่องผสมโดยใช้ t-SNE อย่างไร เราควรดร็อปคอลัมน์ไบนารีหรือไม่ มันมีความแตกต่างที่metricเราสามารถใช้? เป็นตัวอย่างให้พิจารณารหัสหลามนี้: x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph ดังนั้นข้อมูลดิบของฉันคือ: …

10 python dimensionality-reduction unsupervised-learning tsne mixed-type-data

1

ข้อมูลไม่ต่อเนื่องและทางเลือกในการ PCA

ฉันมีชุดข้อมูลของตัวแปรที่ไม่ต่อเนื่อง (ลำดับ, meristic, และชื่อ) ที่อธิบายถึงลักษณะปีกของสัณฐานวิทยาของแมลงหลายชนิดที่เกี่ยวข้องอย่างใกล้ชิด สิ่งที่ฉันต้องการทำคือทำการวิเคราะห์บางอย่างที่จะทำให้ฉันเห็นภาพของความคล้ายคลึงกันของสปีชีส์ต่าง ๆ ตามลักษณะทางสัณฐานวิทยา สิ่งแรกที่โผล่เข้ามาในหัวของฉันคือ PCA (นี่คือประเภทของการสร้างภาพข้อมูลที่ฉันต้องการสร้าง) แต่หลังจากตรวจสอบแล้ว (โดยเฉพาะคำถามอื่น ๆ เช่น: การวิเคราะห์องค์ประกอบหลักสามารถนำไปใช้กับชุดข้อมูลที่มีการผสมผสานอย่างต่อเนื่อง และตัวแปรเด็ดขาด?) ดูเหมือนว่า PCA อาจไม่เหมาะสมสำหรับข้อมูลที่ไม่ต่อเนื่อง (PCA ใช้ในการศึกษาประเภทนี้ในวรรณคดี แต่มักจะมีข้อมูลต่อเนื่องอยู่เสมอ) ไม่สนใจภูมิหลังทางสถิติว่าเพราะเหตุใดข้อมูลนี้จึงไม่เหมาะสม PCA ให้ผลลัพธ์ที่สมบูรณ์แบบสำหรับคำถามทางชีววิทยาของฉัน (กลุ่มลูกผสมที่น่าสนใจตกอยู่ตรงกลางกลุ่มพ่อ) ฉันได้ลองวิเคราะห์การติดต่อหลายครั้งเพื่อเอาใจสถิติ (อย่างน้อยที่สุดเท่าที่ความเข้าใจของฉันไป) แต่ฉันไม่สามารถรับพล็อตที่คล้ายกับที่ฉันจะได้รับจาก PCA ที่การสังเกตของฉัน (บุคคลทางชีววิทยา) มีการแยกคำพูดด้วยสีเพื่อแสดงการจัดกลุ่มที่แตกต่างกัน (สปีชีส์ต่างกัน, การพูดทางชีววิทยา) ดูเหมือนว่าการวิเคราะห์นี้มีวัตถุประสงค์เพื่ออธิบายว่าตัวแปร (ที่นี่ลักษณะทางสัณฐานวิทยาของฉัน) มีความเกี่ยวข้องกันอย่างไรไม่ใช่การสังเกตของแต่ละบุคคล และเมื่อฉันพล็อตข้อสังเกตเป็นสีกลุ่มฉันจะได้รับค่าเดียวเท่านั้น (อาจเป็นค่าเฉลี่ย) ที่อธิบายกลุ่มบุคคลทั้งหมด ฉันได้ทำการวิเคราะห์ใน R ดังนั้นบางทีฉันก็ไม่ได้ขยันพอที่จะทำให้แนวคิดของฉันทำงาน ฉันถูกต้องในการลองวิเคราะห์เช่นนี้กับข้อมูลของฉันหรือฉันออกนอกเส้นทาง? หากคุณไม่สามารถบอกได้ว่าความเชี่ยวชาญทางสถิติของฉันมี จำกัด ดังนั้นสมการที่เกิดขึ้นภายใต้การวิเคราะห์เหล่านี้จะอยู่เหนือหัวของฉัน ฉันพยายามทำการวิเคราะห์นี้อย่างสมบูรณ์แบบเชิงพรรณนา …

9 pca discrete-data correspondence-analysis mixed-type-data

คำถามติดแท็ก mixed-type-data