เทคนิคการลดข้อมูลเพื่อระบุประเภทของประเทศ


11

ฉันสอนวิชาภูมิศาสตร์เศรษฐศาสตร์เบื้องต้น เพื่อช่วยให้นักเรียนของฉันพัฒนาความเข้าใจที่ดีขึ้นเกี่ยวกับประเภทของประเทศที่พบในเศรษฐกิจโลกร่วมสมัยและการชื่นชมเทคนิคการลดข้อมูลฉันต้องการสร้างงานที่ทำให้เกิดความแตกต่างของประเทศต่างๆ (เช่นรายได้สูง - มูลค่าเพิ่ม mfg อายุการใช้งานยาวนานรายได้สูงผู้ส่งออกทรัพยากรธรรมชาติอายุขัยกลางถึงสูงโดยเยอรมนีเป็นองค์ประกอบของประเภทแรกและเยเมนเป็นตัวอย่างของประเภทที่สอง) สิ่งนี้จะใช้ข้อมูล UNDP ที่เปิดเผยต่อสาธารณชน (ซึ่งหากฉันจำได้อย่างถูกต้องว่ามีข้อมูลทางสังคมและเศรษฐกิจในน้อยกว่า 200 ประเทศขออภัยด้วยไม่มีข้อมูลภูมิภาค)

ก่อนที่จะมีการมอบหมายนี้จะเป็นอีกสิ่งหนึ่งที่ขอให้พวกเขา (ใช้ --- ส่วนใหญ่ช่วงเวลาหรือระดับอัตราส่วน --- ข้อมูล) เพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรเดียวกันเหล่านี้

ความหวังของฉันคือพวกเขาจะพัฒนาสัญชาตญาณสำหรับชนิดของความสัมพันธ์ระหว่างตัวแปรต่าง ๆ (เช่นความสัมพันธ์เชิงบวกระหว่างอายุขัยและ [ตัวบ่งชี้ต่าง ๆ ของความมั่งคั่ง] ความสัมพันธ์เชิงบวกระหว่างความมั่งคั่งและความหลากหลายในการส่งออก) จากนั้นเมื่อใช้เทคนิคการลดข้อมูลส่วนประกอบหรือปัจจัยจะทำให้เกิดความรู้สึกหยั่งรู้ (เช่นปัจจัย / องค์ประกอบที่ 1 ให้ความสำคัญกับความมั่งคั่ง; ปัจจัย / องค์ประกอบที่ 2 ให้ความสำคัญกับการศึกษา)

ระบุว่าสิ่งเหล่านี้เป็นนักเรียนปีที่สองถึงสี่ซึ่งบ่อยครั้งที่มีการเปิดรับความคิดในการวิเคราะห์มากกว่าปกติคุณจะแนะนำเทคนิคการลดข้อมูลใดที่เหมาะสมที่สุดสำหรับการมอบหมายครั้งที่สอง นี่คือข้อมูลประชากรสถิติเชิงอนุมาน (p-vlaues ฯลฯ ) จึงไม่จำเป็นจริงๆ

คำตอบ:


10

ในฐานะวิธีการสำรวจ PCA เป็นตัวเลือกแรกที่ดีสำหรับการกำหนดเช่น IMO นี้ มันจะเป็นการดีสำหรับพวกเขาที่จะได้สัมผัสกับมัน ดูเหมือนว่าหลายคนจะไม่เคยเห็นส่วนประกอบหลักมาก่อน

ในแง่ของข้อมูลที่ฉันยังต้องการชี้ให้คุณโลกชี้วัดธนาคารซึ่งมีความสมบูรณ์อย่างน่าทึ่ง: http://data.worldbank.org/indicator


5

ฉันเห็นด้วยกับ JMS และ PCA ดูเหมือนจะเป็นความคิดที่ดีหลังจากตรวจสอบความสัมพันธ์เริ่มต้นและการกระจายระหว่างตัวแปรสำหรับแต่ละเขต หัวข้อนี้มีคำแนะนำที่เป็นประโยชน์เพื่อแนะนำ PCA ในแง่ที่ไม่ใช่ทางคณิตศาสตร์

ฉันขอแนะนำให้ใช้หลายแผนที่ขนาดเล็กเพื่อให้เห็นภาพการกระจายตัวของตัวแปรแต่ละตัว (และมีตัวอย่างที่ดีในคำถามนี้ในเว็บไซต์ gis.se) ฉันคิดว่ามันใช้งานได้ดีโดยเฉพาะถ้าคุณมีหน่วยความจำที่ จำกัด ในการเปรียบเทียบและคุณใช้โทนสีที่ดี (เช่นตัวอย่างในบล็อกของ Andrew Gelman)

น่าเสียดายที่ธรรมชาติของชุดข้อมูล "ประเทศโลก" ใด ๆ ที่ฉันสงสัยว่าจะส่งผลให้เกิดข้อมูลที่กระจัดกระจาย แต่เทคนิคการสร้างภาพข้อมูลนั้นน่าจะมีประโยชน์ในสถานการณ์อื่นเช่นกันสำหรับหลักสูตรของคุณ


+1, การอ้างอิงที่ดี การเปรียบเทียบแผนที่ของตัวแปรกับแผนที่ของคะแนน PCA ก็น่าสนใจเช่นกัน
JMS

ลิงก์ไปยังบทนำ PCA ในแง่ที่ไม่ใช่ทางคณิตศาสตร์มีประโยชน์เพราะช่วยให้ฉันรู้สึกถึงความแตกต่างเล็กน้อยระหว่าง PCA และการวิเคราะห์ปัจจัย คำแนะนำการใช้ GIS / การแมปนั้นมีประโยชน์เช่นกันเพราะฉันไม่เคยนึกถึงการมองเห็นการกระจายตัวเชิงพื้นที่ของตัวแปร สำหรับประชากรของนักเรียนมันจะช่วยให้พวกเขาเข้าใจโครงสร้างพื้นฐานของเศรษฐกิจโลกในแบบที่ blah blah blah ของฉันจะไม่ทำ
rabidotter

1
แปลงที่ดีมักจะชนะ blah blah blah :)
JMS

4

หมายเหตุเพิ่มเติมอย่างรวดเร็ว: ไม่ว่าคุณจะใช้เทคนิคใดด้านบนคุณจะต้องตรวจสอบการกระจายตัวของตัวแปรก่อนเพราะหลาย ๆ ตัวจะต้อง "ต้อง" ก่อนที่คุณจะทำการแปลงโดยใช้ลอการิทึม การทำเช่นนี้จะเปิดเผยความสัมพันธ์ที่ดีกว่าการใช้ตัวแปรดั้งเดิม


3
+1 โดยปกติคำตอบเช่นนี้ควรโพสต์เป็นความคิดเห็น แต่คำแนะนำนั้นสำคัญมากที่นี่เป็นประโยชน์จากการเน้นย้ำทุกประการ โดยเฉพาะอย่างยิ่งผลลัพธ์ PCA จะไม่เป็นไปตามปกติจนกว่าตัวแปรจะถูกแสดงอีกครั้งอย่างเหมาะสม
whuber

2

คุณสามารถใช้การสลายตัว CUR เป็นทางเลือกแทน PCA สำหรับการแยกย่อยของ CUR คุณอาจอ้างถึง [1] หรือ [2] ในการแยกย่อย CUR, C หมายถึงคอลัมน์ที่เลือก R หมายถึงแถวที่เลือกและ U คือเมทริกซ์การเชื่อมโยง ผมขอถอดความสัญชาตญาณที่อยู่เบื้องหลังการสลายตัวของ CUR ตามที่กำหนดใน [1];

ยูผมโวลต์ผม

[(1/2)age − (1/ √2)height + (1/2)income]

การเป็นหนึ่งใน“ ปัจจัย” หรือ“ คุณสมบัติ” ที่ไม่เกี่ยวข้องซึ่งสำคัญจากชุดข้อมูลของคุณลักษณะของผู้คนไม่ได้ให้ข้อมูลหรือมีความหมายโดยเฉพาะ

สิ่งที่ดีเกี่ยวกับ CUR คือคอลัมน์พื้นฐานคือคอลัมน์จริง (หรือแถว) และดีกว่าที่จะตีความเมื่อเทียบกับ PCA (ซึ่งใช้ SVD ที่ผ่านการรับรอง)

อัลกอริทึมที่ให้ไว้ใน [1] นั้นง่ายต่อการติดตั้งและคุณสามารถเล่นกับมันได้โดยเปลี่ยนขีด จำกัด ข้อผิดพลาดและรับจำนวนฐานที่แตกต่างกัน

[1] MW Mahoney และ P. Drineas,“ การสลายตัวของเมทริกซ์ CUR สำหรับการวิเคราะห์ข้อมูลที่ได้รับการปรับปรุง,” การดำเนินการของ National Academy of Sciences แห่งสหรัฐอเมริกา, ฉบับที่, 106, มกราคม 2009, pp. 697-702

[2] J. Sun, Y. Xie, H. Zhang, และ C. Faloutsos,“ Less is more: Compact matrix decomposition สำหรับกราฟขนาดใหญ่กระจัดกระจาย” การดำเนินการของการประชุมนานาชาติ SIAM ครั้งที่เจ็ดเรื่องการขุดข้อมูล, Citeseer, 2007, p . 366


2

ขึ้นอยู่กับวัตถุประสงค์ของคุณการจำแนกประเภทของการลงทะเบียนในกลุ่มอาจทำได้ดีที่สุดโดยวิธีการจัดกลุ่มบางอย่าง สำหรับกรณีจำนวนน้อยที่มักจะเหมาะกับการจัดกลุ่มแบบลำดับชั้นอย่างน้อยที่สุดในขั้นตอนการสำรวจในขณะที่การแก้ปัญหาที่ขัดมากขึ้นคุณอาจมองไปที่กระบวนการวนซ้ำเช่น K-mean ตามซอฟต์แวร์ที่คุณใช้เป็นไปได้ที่จะใช้กระบวนการซึ่งอยู่ใน SPSS แต่ฉันไม่รู้ว่าที่ใดที่เรียกว่าการจัดกลุ่มแบบสองขั้นตอนซึ่งรวดเร็วแม้ว่าจะทึบและดูเหมือนจะให้ผลลัพธ์ที่ดี

การวิเคราะห์กลุ่มทำให้เกิดโซลูชั่นการจัดหมวดหมู่ที่เพิ่มความแปรปรวนระหว่างกลุ่มสูงสุดในขณะที่ลดความแปรปรวนภายในกลุ่มดังกล่าว นอกจากนี้ยังมีแนวโน้มที่จะให้ผลลัพธ์ที่ง่ายต่อการตีความ



1

อีกตัวเลือกหนึ่งคือการใช้แผนที่ที่จัดระเบียบตัวเอง (SOM's) มีความคิดใดเกี่ยวกับซอฟต์แวร์ที่นักเรียนจะใช้? ฉันรู้ว่าตัวอย่างเช่น R มีการใช้งาน SOM สองสามอย่าง อย่างไรก็ตาม SOM อาจล้มเหลวในการทดสอบ "องค์ประกอบองค์ประกอบที่ใช้งานง่าย" (ไม่จำเป็นต้องเป็นจริงกับ PCA เช่นกัน ... )


ขออภัยในความล่าช้าในการตอบกลับ นักเรียนจะใช้ Minitab 16 ซึ่งมีเทคนิคการลดข้อมูลแบบดั้งเดิมที่กล่าวมาข้างต้น ฉันจะตรวจสอบแผนที่ที่จัดระเบียบตัวเอง แต่ฉันสงสัยว่ามันจะเหมาะสมกับนักเรียนประเภทที่ฉันเข้าเรียนในหลักสูตรระดับปริญญาตรีปีที่สองหรือไม่
rabidotter
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.