ข้อมูลไม่ต่อเนื่องและทางเลือกในการ PCA


9

ฉันมีชุดข้อมูลของตัวแปรที่ไม่ต่อเนื่อง (ลำดับ, meristic, และชื่อ) ที่อธิบายถึงลักษณะปีกของสัณฐานวิทยาของแมลงหลายชนิดที่เกี่ยวข้องอย่างใกล้ชิด สิ่งที่ฉันต้องการทำคือทำการวิเคราะห์บางอย่างที่จะทำให้ฉันเห็นภาพของความคล้ายคลึงกันของสปีชีส์ต่าง ๆ ตามลักษณะทางสัณฐานวิทยา สิ่งแรกที่โผล่เข้ามาในหัวของฉันคือ PCA (นี่คือประเภทของการสร้างภาพข้อมูลที่ฉันต้องการสร้าง) แต่หลังจากตรวจสอบแล้ว (โดยเฉพาะคำถามอื่น ๆ เช่น: การวิเคราะห์องค์ประกอบหลักสามารถนำไปใช้กับชุดข้อมูลที่มีการผสมผสานอย่างต่อเนื่อง และตัวแปรเด็ดขาด?) ดูเหมือนว่า PCA อาจไม่เหมาะสมสำหรับข้อมูลที่ไม่ต่อเนื่อง (PCA ใช้ในการศึกษาประเภทนี้ในวรรณคดี แต่มักจะมีข้อมูลต่อเนื่องอยู่เสมอ) ไม่สนใจภูมิหลังทางสถิติว่าเพราะเหตุใดข้อมูลนี้จึงไม่เหมาะสม PCA ให้ผลลัพธ์ที่สมบูรณ์แบบสำหรับคำถามทางชีววิทยาของฉัน (กลุ่มลูกผสมที่น่าสนใจตกอยู่ตรงกลางกลุ่มพ่อ)

ฉันได้ลองวิเคราะห์การติดต่อหลายครั้งเพื่อเอาใจสถิติ (อย่างน้อยที่สุดเท่าที่ความเข้าใจของฉันไป) แต่ฉันไม่สามารถรับพล็อตที่คล้ายกับที่ฉันจะได้รับจาก PCA ที่การสังเกตของฉัน (บุคคลทางชีววิทยา) มีการแยกคำพูดด้วยสีเพื่อแสดงการจัดกลุ่มที่แตกต่างกัน (สปีชีส์ต่างกัน, การพูดทางชีววิทยา) ดูเหมือนว่าการวิเคราะห์นี้มีวัตถุประสงค์เพื่ออธิบายว่าตัวแปร (ที่นี่ลักษณะทางสัณฐานวิทยาของฉัน) มีความเกี่ยวข้องกันอย่างไรไม่ใช่การสังเกตของแต่ละบุคคล และเมื่อฉันพล็อตข้อสังเกตเป็นสีกลุ่มฉันจะได้รับค่าเดียวเท่านั้น (อาจเป็นค่าเฉลี่ย) ที่อธิบายกลุ่มบุคคลทั้งหมด ฉันได้ทำการวิเคราะห์ใน R ดังนั้นบางทีฉันก็ไม่ได้ขยันพอที่จะทำให้แนวคิดของฉันทำงาน

ฉันถูกต้องในการลองวิเคราะห์เช่นนี้กับข้อมูลของฉันหรือฉันออกนอกเส้นทาง? หากคุณไม่สามารถบอกได้ว่าความเชี่ยวชาญทางสถิติของฉันมี จำกัด ดังนั้นสมการที่เกิดขึ้นภายใต้การวิเคราะห์เหล่านี้จะอยู่เหนือหัวของฉัน ฉันพยายามทำการวิเคราะห์นี้อย่างสมบูรณ์แบบเชิงพรรณนา (ฉันไม่จำเป็นต้องทำตัวเลขดาวน์สตรีมเพิ่มเติมอีก) และฉันได้อ่านว่าหากเป็นกรณีนี้ PCA จะพอเพียง แต่ต้องการให้แน่ใจว่าฉันไม่ ละเมิดสมมติฐานทางสถิติมากเกินไป


1
คุณควรจะได้รับพล็อตชนิดที่คุณต้องการด้วยการวิเคราะห์การโต้ตอบที่หลากหลาย หากคุณสามารถให้ลิงค์กับข้อมูลของคุณเราจะได้ดู การปรับสเกลหลายมิติเป็นความเป็นไปได้อีกอย่างหนึ่ง แต่ MCA สามารถมองได้ว่าเป็นการปรับสเกลหลายมิติ
kjetil b halvorsen

การจัดกลุ่มคลาสแฝงเป็นอีกวิธีการหนึ่งในตัวเลือก โดยทั่วไป LCA จะสร้าง 'รุ่น' ความแตกต่างในส่วนที่เหลือซึ่งใช้ในการทำคลัสเตอร์ ในอดีตมีงานวิจัย 2 งานในวงกว้างทั้งในด้านสังคมวิทยา LCA ดั้งเดิมวันที่กลับไปที่ Lazarsfeld ที่ Columbia ในยุค 50 ไม่ได้รับการดูแลและใช้ข้อมูลที่เป็นหมวดหมู่ -LC ของ poLCA เป็นตัวอย่างของสิ่งนี้ เมื่อไม่นานมานี้ได้มีการพัฒนาแบบจำลองส่วนผสมไฟไนต์ภายใต้การดูแลสำหรับ LCA ฉันไม่ทราบเกี่ยวกับโมดูล R แต่มีซอฟต์แวร์เชิงพาณิชย์ราคาถูกที่ทำ ( Latent Gold ) เว็บไซต์ LG มีเอกสารที่ดีเกี่ยวกับ LCA
Mike Hunter

คำตอบ:


1

มันขึ้นอยู่กับจุดประสงค์ของคุณเล็กน้อย แต่ถ้าคุณใช้เครื่องมือสร้างภาพหลังจากนั้นก็มีกลอุบายในการใช้การปรับขนาดหลายมิติกับผลลัพธ์ของป่าใกล้เคียงแบบสุ่มซึ่งสามารถสร้างภาพสวย ๆ ที่นี่คุณจะจำแนกสายพันธุ์ตามตัวทำนายของคุณ แต่ - และมันเป็นข้อแม้ที่ยิ่งใหญ่ - ฉันไม่รู้ว่าถ้าใครรู้จริง ๆ ว่าผลลัพธ์ของการสร้างภาพข้อมูลเหล่านี้หมายถึงอะไร

อีกทางเลือกหนึ่งอาจใช้การปรับสเกลหลายมิติกับสิ่งที่คล้ายคลึงกันของโกเวอร์

มีคำถามที่แขวนอยู่ - วัตถุประสงค์สูงสุดของคุณคืออะไร? คุณต้องการตอบคำถามอะไร ฉันชอบเทคนิคเหล่านี้เป็นเครื่องมือสำรวจอาจนำคุณไปถามคำถามที่มากขึ้น แต่ฉันไม่แน่ใจว่าสิ่งที่พวกเขาอธิบายหรือบอกคุณด้วยตนเอง

บางทีฉันกำลังอ่านคำถามของคุณมากเกินไป แต่ถ้าคุณต้องการสำรวจตัวแปรตัวทำนายที่มีค่าสำหรับลูกผสมระหว่างสองสายพันธุ์บริสุทธิ์คุณอาจสร้างแบบจำลองเพื่อประเมินค่าสำหรับตัวแปรตัวทำนายที่นำไปสู่ กับสายพันธุ์และลูกผสมโดยตรง หากคุณต้องการวัดว่าตัวแปรเกี่ยวข้องกันอย่างไรบางทีอาจสร้างเมทริกซ์สหสัมพันธ์ - และมีการสร้างภาพข้อมูลให้เป็นระเบียบมากมายสำหรับเรื่องนี้


ขอบคุณสำหรับการป้อนข้อมูล ในที่สุดสิ่งที่ฉันต้องการจากการวิเคราะห์นี้คือการวัดเชิงปริมาณของความคล้ายคลึงกันของสปีชีส์บางอย่างเมื่อเทียบกับสปีชีส์อื่น (ฉันมีสปีชีส์สองที่เพิ่งขึ้นอยู่กับรูปลักษณ์ของ gestalt แนะนำการผสมพันธุ์แบบโบราณ) ประเด็นหลักของคำถามการวิจัยนี้คือการตรวจสอบพันธุศาสตร์ของกลุ่มและการวิเคราะห์ทางสัณฐานวิทยานี้จะเพิ่มไปยังเรื่องราวทางชีวภาพทั้งหมด มาตราส่วนหลายมิตินี้จะนำไปสู่การสร้างภาพข้อมูลเหมือนกับ PCA หรือไม่
JD

คุณได้รับการสร้างภาพข้อมูลที่คล้ายกัน แนวคิด / สัญชาตญาณของ MDS คือการสร้างการแมปจากพื้นที่มิติสูง (สำหรับคุณในพื้นที่ของลักษณะทางสัณฐานวิทยา) ไปยังพื้นที่มิติต่ำ (เช่นระนาบแบน 2D) ซึ่งระยะทางในพื้นที่มิติสูงนั้น "ค่อนข้างมาก เดียวกัน "เป็นพื้นที่มิติต่ำ จากนั้นคุณสามารถลงจุดระนาบแบน 2D แต่มันขึ้นอยู่กับการได้รับการวัดระยะทางสำหรับพื้นที่มิติสูงจากที่อื่น
Patrick Caldon
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.