PCA มีจำนวนความแปรปรวนที่ต้องจับเพื่อทำการวิเคราะห์ในภายหลังหรือไม่?


15

ฉันมีชุดข้อมูลที่มี 11 ตัวแปรและ PCA (orthogonal) ทำเพื่อลดข้อมูล การตัดสินใจเกี่ยวกับจำนวนส่วนประกอบเพื่อให้เห็นได้ชัดจากความรู้ของฉันเกี่ยวกับเรื่องและพล็อตหินกรวด (ดูด้านล่าง) ว่าสององค์ประกอบหลัก (พีซี) เพียงพอที่จะอธิบายข้อมูลและส่วนประกอบที่เหลือมีเพียงข้อมูลน้อย

ป้อนคำอธิบายรูปภาพที่นี่
พล็อตหินกรวดที่มีการวิเคราะห์แบบขนาน: ค่าลักษณะเฉพาะ (สีเขียว) และค่าลักษณะเฉพาะที่จำลองตามการจำลอง 100 แบบ (สีแดง) พล็อต Scree แนะนำพีซี 3 เครื่องในขณะที่การทดสอบแบบขนานจะแนะนำพีซีสองเครื่องแรกเท่านั้น

ป้อนคำอธิบายรูปภาพที่นี่

อย่างที่คุณเห็นเพียง48%ของความแปรปรวนที่สามารถจับได้โดยพีซีสองเครื่องแรก

การพล็อตการสำรวจบนระนาบแรกที่ทำโดยพีซี 2 เครื่องแรกเปิดเผยกลุ่มที่แตกต่างกันสามกลุ่มโดยใช้การจัดกลุ่มแบบลำดับชั้น agglomerative (HAC) และการจัดกลุ่ม K-mean ทั้ง 3 กลุ่มนี้มีความเกี่ยวข้องกับปัญหาที่เกิดขึ้นและสอดคล้องกับข้อค้นพบอื่น ๆ เช่นกัน ดังนั้นยกเว้นความจริงที่ว่ามีเพียง 48% ของความแปรปรวนที่ถูกจับได้ทุกอย่างอื่นก็ดีมาก

ผู้ตรวจสอบคนหนึ่งในสองคนของฉันพูดว่า: ไม่สามารถเชื่อถือได้มากจากการค้นพบนี้เนื่องจากสามารถอธิบายความแปรปรวนเพียง 48% และน้อยกว่าที่ต้องการ

คำถาม
มีค่าที่ต้องใช้ในการคำนวณความแปรปรวนของ PCA ที่จะใช้งานได้หรือไม่ มันไม่ได้ขึ้นอยู่กับความรู้และวิธีการใช้งานโดเมนหรือไม่? ใครสามารถตัดสินข้อดีของการวิเคราะห์ทั้งหมดเพียงแค่ขึ้นอยู่กับมูลค่าของความแปรปรวนที่อธิบายไว้เท่านั้น

หมายเหตุ

  • ข้อมูลเป็นตัวแปร 11 ตัวของยีนที่วัดโดยวิธีการที่ละเอียดอ่อนมากในชีววิทยาโมเลกุลที่เรียกว่าปฏิกิริยาลูกโซ่โพลีเมอเรสเชิงปริมาณแบบเรียลไทม์ (RT-qPCR)
  • ทำการวิเคราะห์โดยใช้ R
  • คำตอบจากนักวิเคราะห์ข้อมูลจากประสบการณ์ส่วนตัวของพวกเขาที่ทำงานเกี่ยวกับปัญหาในชีวิตจริงในด้านการวิเคราะห์ microarray, เคมี, การวิเคราะห์เชิงสเปกโทรสโกปีหรือเหมือนกัน
  • โปรดพิจารณาสนับสนุนคำตอบของคุณด้วยการอ้างอิงให้มากที่สุด

การกระจายตัวของค่าลักษณะเฉพาะนั้นค่อนข้างสำคัญสำหรับทฤษฎีเมทริกซ์แบบสุ่ม การแจกจ่าย Marcenko-Pastur บางครั้งใช้สำหรับแอปพลิเคชันที่คล้ายกัน
John

สีเขียวและเส้นสีส้ม / น้ำตาลแสดงอะไร มีเฉพาะในแกน
usεr11852พูดว่า Reinstate Monic

@ usεr11852โปรดดูคำบรรยายภาพที่อัพเดท
ปริญญาเอก

คำตอบ:


8

เกี่ยวกับคำถามเฉพาะของคุณ:

PCA มีค่าใดบ้างที่ต้องมีการแปรผันของความแปรปรวนที่จะใช้งานได้หรือไม่?

ไม่ไม่มี (ความรู้ที่ดีที่สุดของฉัน) ฉันเชื่อมั่นว่าไม่มีค่าใดที่คุณสามารถใช้ได้ ไม่มีเกณฑ์มายากลของเปอร์เซ็นต์ความแปรปรวนที่ถูกจับ บทความของ Cangelosi และ Goriely: การเก็บรักษาส่วนประกอบในการวิเคราะห์องค์ประกอบหลักด้วยการประยุกต์ใช้กับข้อมูล microDay cDNAให้ภาพรวมที่ค่อนข้างดีของกฎครึ่งมาตรฐานโหลของนิ้วหัวแม่มือในการตรวจสอบจำนวนขององค์ประกอบในการศึกษา (พล็อต Scree สัดส่วนสัดส่วนของความแปรปรวนทั้งหมดอธิบายกฎค่าลักษณะเฉพาะเฉลี่ยไดอะแกรมบันทึกค่าคุณลักษณะเฉพาะ ฯลฯ ) ตามกฎของหัวแม่มือฉันจะไม่พึ่งพาพวกเขาอย่างมาก

มันไม่ได้ขึ้นอยู่กับความรู้และวิธีการใช้งานโดเมนหรือไม่?

เป็นการดีที่มัน ควรขึ้นอยู่กับ แต่คุณต้องระวังว่าคุณใช้คำอย่างไรและสิ่งที่คุณหมายถึง

ตัวอย่างเช่น: ในวิชาอะคูสติกมีความคิดที่แตกต่างอย่างเห็นได้ชัด ( JND ) สมมติว่าคุณกำลังวิเคราะห์ตัวอย่างเสียงและพีซีโดยเฉพาะมีความแปรปรวนทางกายภาพในระดับต่ำกว่าเกณฑ์ JND ไม่มีใครสามารถโต้เถียงได้ว่าสำหรับแอปพลิเคชันอะคูสติกคุณควรรวมพีซีนั้นไว้ด้วย คุณจะวิเคราะห์เสียงที่ไม่ได้ยิน อาจมีเหตุผลบางอย่างที่จะรวมพีซีนี้ แต่ด้วยเหตุผลเหล่านี้จำเป็นต้องนำเสนอไม่ใช่วิธีอื่น ๆ แนวคิดเหล่านี้คล้ายกับ JND สำหรับการวิเคราะห์ RT-qPCR หรือไม่

ในทำนองเดียวกันถ้าส่วนประกอบดูเหมือนพหุนาม Legendre ลำดับที่ 9 และคุณมีหลักฐานที่ชัดเจนว่าตัวอย่างของคุณประกอบด้วยการกระแทกแบบเกาส์เดียวคุณมีเหตุผลที่ดีที่จะเชื่อว่าคุณกำลังสร้างแบบจำลองที่ไม่เกี่ยวข้องอีกครั้ง อะไรคือโหมดการเปลี่ยนแปลงมุมฉากเหล่านี้ที่แสดง? ยกตัวอย่างเช่น "ผิด" กับพีซีเครื่องที่ 3 ในกรณีของคุณ?

ความจริงที่ว่าคุณพูดว่า " ทั้งสามกลุ่มนี้มีความเกี่ยวข้องกับปัญหาที่เป็นปัญหา " ไม่ใช่ข้อโต้แย้งที่แข็งแกร่ง คุณอาจขุดข้อมูลง่าย ๆ(ซึ่งเป็นสิ่งที่ไม่ดี ) มีเทคนิคอื่น ๆ เช่น Isomapsและการฝังเชิงเส้นในพื้นที่ซึ่งค่อนข้างเท่ห์เช่นกันทำไมไม่ใช้มัน? ทำไมคุณถึงเลือก PCA โดยเฉพาะ

ความสอดคล้องของการค้นพบของคุณกับการค้นพบอื่นนั้นสำคัญกว่าโดยเฉพาะอย่างยิ่งหากการค้นพบเหล่านี้ถือว่าเป็นที่ยอมรับ ขุดลึกลงไปในเรื่องนี้ ลองดูว่าผลลัพธ์ของคุณเห็นด้วยกับการค้นพบ PCA จากการศึกษาอื่น ๆ หรือไม่

ใครสามารถตัดสินข้อดีของการวิเคราะห์ทั้งหมดได้เพียงแค่ขึ้นอยู่กับมูลค่าของความแปรปรวนที่อธิบายไว้เท่านั้น

โดยทั่วไปไม่ควรทำเช่นนั้น อย่าคิดว่าผู้วิจารณ์ของคุณเป็นคนนอกรีตหรืออะไรทำนองนั้น 48% ย่อมเป็นเพียงไม่กี่เปอร์เซ็นต์ที่จะรักษาไว้โดยไม่แสดงเหตุผลที่สมเหตุสมผล


ขอบคุณสำหรับคำตอบ. ไม่มีอะไรพิเศษเกี่ยวกับ RT-qPCR เหมือนกับ JND ในความเป็นจริง RT-qPCR เป็นเพียงเทคนิคที่เราวัดตัวแปรยีนเอง ส่วนใหญ่คุณอาจหมายถึงพีซีซึ่งเป็นตัวแปรใหม่ที่สร้างขึ้นจากการรวมกันเชิงเส้นของทั้งหมด 11 เมื่อพิจารณาจากตัวแปรเชิงพรรณนาอื่น ๆ พีซี 2 เครื่องแรกนั้นมีความสัมพันธ์กับเซลล์ของการตอบสนองทางภูมิคุ้มกัน มิฉะนั้นจะไม่มีอะไรผิดปกติสำหรับพีซีเครื่องที่ 3
ปริญญาเอก

ฉันจะดูเทคนิคการขุดข้อมูลและเรียนรู้เพิ่มเติมเกี่ยวกับพวกเขา แต่คุณรู้หรือไม่ว่าสิ่งนี้ได้ถูกนำไปใช้กับ R-package หรือไม่?
ปริญญาเอก

1
@Doctorate: ความคิดทั้งหมดคือการหลีกเลี่ยงการขุดลอกข้อมูล ฉันขอโทษ แต่ฉันไม่รู้จักแพ็คเกจใด ๆ ที่ทดสอบอย่างชัดเจน
usεr11852พูดว่า Reinstate Monic

1
+1 แต่ประโยคของคุณเกี่ยวกับการขุดลอกข้อมูล ("คุณอาจขุดลอกข้อมูลอย่างง่าย") ไม่ชัดเจนมากและนั่นอาจเป็นสาเหตุที่ @Doctorate สับสน ในความเป็นจริงฉันพบว่าทั้งย่อหน้าไม่ชัดเจน: Isomap และ LLE เกี่ยวข้องกับการขุดลอกข้อมูลอย่างไร ขุดลอกข้อมูลดีหรือไม่ดี บทความ wiki ที่คุณเชื่อมโยงกับเริ่มต้นด้วยการอธิบายว่าดี บางทีคุณสามารถแก้ไขให้ชัดเจนขึ้นในย่อหน้านั้นหรือไม่
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.