การจัดกลุ่มข้อมูลชนิดผสมด้วย R


19

ฉันสงสัยว่าเป็นไปได้หรือไม่ที่จะดำเนินการภายใน R การจัดกลุ่มข้อมูลที่มีตัวแปรข้อมูลแบบผสม กล่าวอีกนัยหนึ่งฉันมีชุดข้อมูลที่ประกอบด้วยตัวแปรตัวเลขและหมวดหมู่ภายในและฉันกำลังค้นหาวิธีที่ดีที่สุดในการจัดกลุ่มพวกเขา ใน SPSS ฉันจะใช้คลัสเตอร์สองขั้นตอน ฉันสงสัยว่าใน R ฉันสามารถหาเทคนิคที่คล้ายกันได้หรือไม่ ฉันได้รับแจ้งเกี่ยวกับแพคเกจ poLCA แต่ฉันไม่แน่ใจ ...


1
SPSS TwoStepไม่ได้ออกแบบมาสำหรับการจัดการชุดข้อมูลขนาดใหญ่หรือไม่ (ฉันให้คำตอบสำหรับคำถามที่เกี่ยวข้องที่นี่ ) มิฉะนั้นคำตอบของฉันที่จะวิเคราะห์องค์ประกอบหลักสามารถนำไปใช้กับชุดข้อมูลที่มีการผสมผสานของตัวแปรต่อเนื่องและหมวดหมู่ได้หรือไม่? มีความช่วยเหลือไหม?
chl

ภายในกลุ่มแพ็กเกจ R มีเดซี่ซึ่งจะสร้างเมทริกซ์ที่แตกต่างกันสำหรับข้อมูลแบบผสม (ค่าสัมประสิทธิ์ความคล้ายคลึงกันของโกเวอร์) จากนั้นคุณสามารถใช้? agnesหรือฟังก์ชั่นการจัดกลุ่มอื่น ๆ
rhonda

1
อย่าสับสนกับวิธีการใช้งาน ขั้นแรกให้มองหาอัลกอริทึมการจัดกลุ่มที่เหมาะสม จากนั้นมองหาแพ็กเกจ R ที่ใช้งาน
shadowtalker


@ gung เพิ่งปิดคำถามที่คล้ายกันมากที่ฉันถาม ฉันถูกบอกว่าคำถามของฉันอยู่นอกหัวข้อเพราะเป็นเรื่องเกี่ยวกับซอฟต์แวร์ สิ่งนี้ดูเหมือนจะคล้ายกับซอฟต์แวร์ ฉันสนใจมากที่จะรู้ว่าทำไมกฎที่นี่จึงถูกบังคับใช้อย่างไม่สอดคล้องกัน ในใจคุณฉันคิดว่าคำถามนี้เป็นข้อมูล แต่กฎควรเป็นกฎ
Weiwen Ng

คำตอบ:


8

สิ่งนี้อาจมาช้า แต่ลอง klaR ( http://cran.r-project.org/web/packages/klaR/index.html )

install.packages("klar")

มันใช้อัลกอริธึมที่ไม่เป็นลำดับชั้น k- โหมดซึ่งขึ้นอยู่กับการจับคู่ที่เรียบง่ายเป็นฟังก์ชั่นระยะทางดังนั้นระยะทางδระหว่างตัวแปรmของจุดข้อมูลสองจุดxและyได้รับจาก

δ(xม.,Yม.)={1xม.Yม.,0มิฉะนั้น

มีข้อบกพร่องกับแพคเกจนั่นคือถ้าจุดข้อมูลสองจุดมีระยะห่างจากจุดศูนย์กลางคลัสเตอร์เดียวกันจุดแรกในข้อมูลของคุณจะถูกเลือกเมื่อเทียบกับจุดสุ่ม แต่คุณสามารถปรับเปลี่ยนบิตในรหัสได้อย่างง่ายดาย

เพื่อรองรับการทำคลัสเตอร์ตัวแปรผสมคุณจะต้องเข้าไปในรหัสและแก้ไขฟังก์ชันระยะทางเพื่อระบุโหมดและตัวแปรที่เป็นตัวเลขและไม่ใช่ตัวเลข


7

อีกวิธีหนึ่งที่น่าสนใจของการจัดการตัวแปรประเภทผสมคือการใช้เมทริกซ์ proximy / คล้ายคลึงกันจากการสุ่มป่า: http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf สิ่งนี้จะช่วยให้วิธีการรวมตัวแปรทุกตัวเท่าเทียมกันอย่างเท่าเทียมกัน (อย่างไรก็ตามโปรดระวังปัญหาการเลือกตัวแปร) ในทางกลับกันก็ไม่มีวิธีสากลทองคำในการกำหนดระยะทางสำหรับตัวแปรประเภทผสม ทุกอย่างขึ้นอยู่กับบริบทของแอปพลิเคชัน


4

คุณอาจใช้การวิเคราะห์การติดต่อหลายรายการเพื่อสร้างมิติต่อเนื่องจากตัวแปรหมวดหมู่และใช้กับตัวแปรตัวเลขในขั้นตอนที่สอง


1
คุณจะจัดการกับตัวแปรตัวเลขใน MCA อย่างไร ใช้ discretization หรือไม่
chl

มีส่วนขยายของ MCA ซึ่งสามารถรวมตัวแปรต่อเนื่องดูตัวอย่าง homogeneity analysis homals
kjetil b halvorsen

3

แน่นอนคุณสามารถ โดยการทำตัวแปรเด็ดขาดให้เป็นตัวเลขปลอม ๆ หรือการใช้การจัดกลุ่มตามระยะทางเมทริกซ์ (fpc อาจทำเช่นนั้น) คำถามแรกที่คุณควรลองตอบคือจริง ๆ แล้วมันสมเหตุสมผลไหม


3

คุณสามารถใช้สัมประสิทธิ์ความเหมือนสากลของโกเวอร์ (ดู Sneath & Sokal 1973, pp 135-136) ซึ่งสำหรับสองตัวและคือ สำหรับตัวละครทุกตัวฉันk S G = n i = 1 w i , j , k s i , j , kJk i

SG=Σผม=1nWผม,J,ksผม,J,kΣผม=1nWผม,J,k
ผม

น้ำหนักเป็น 1 หรือ 0 ขึ้นอยู่กับว่าการเปรียบเทียบนั้นถูกต้องหรือไม่ (ข้อมูลขาดหายไปไม่มีตัวอักษรไบนารีใน OTU ทั้งสอง) มีการเผยแพร่แผนการชั่งน้ำหนักที่ซับซ้อนมากขึ้นWผม,J,k

sผม,J,kจะถูกคำนวณสำหรับ

  • ตัวแปรไบนารี: 1 สำหรับความสอดคล้อง, 0 สำหรับความไม่ลงรอยกัน (เทียบเท่ากับค่าสัมประสิทธิ์ของ Jaccard หากถูกตั้งค่าเป็น 0 สำหรับการขาดที่สอดคล้องกัน)Wผม,J,k

  • ตัวละครหลายตัว (ระบุหรือลำดับ): 1 เพื่อความเท่าเทียมกัน 0 อื่น (เทียบเท่ากับค่าสัมประสิทธิ์การจับคู่ที่เรียบง่าย)

  • ตัวละครสำคัญ:ด้วยช่วงของอักขระ (ทั้งในประชากรหรือใน ตัวอย่าง).sผม,J,k=1-|Xผม,J-Xผม,k|RผมRผมผม

สิ่งที่ดีเกี่ยวกับคือมันไม่เพียง แต่สามารถจัดการกับข้อมูลทุกประเภท แต่ยังมีประสิทธิภาพต่อข้อมูลที่หายไป นอกจากนี้ยังส่งผลให้มีการฝึกอบรมความคล้ายคลึงกันกึ่งบวกแน่นอนเช่น OTUs จะถูกแทนด้วยจุดในพื้นที่ Euklidian (อย่างน้อยถ้าไม่มีข้อมูลมากเกินไปจะหายไป)SG

ระยะทางระหว่าง OTUs สามารถแสดงได้โดย1-SG


คุณช่วยกำหนดว่า "ตัวละคร" (และ "ตัวละครสำคัญ") ในคำตอบของคุณคืออะไร? ทำตามที่คุณหมายถึงตัวแปร / คุณลักษณะ / คุณสมบัติ? นอกจากนี้ฉันอาจเพิ่มว่าโกเวอร์สามารถคำนวณได้สำหรับตัวแปรลำดับโดยไม่ต้องรักษาพวกเขาเป็นเล็กน้อย ( "multistate") เห็น
ttnphns

Caracter ตัวแปรคุณสมบัติเป็นคำพ้องความหมายทั้งหมด พระคาร์ดินัลหมายถึงช่วงเวลาหรือระดับเหตุผล
Engelbert Buxbaum

ขอบคุณสำหรับคำใบ้ ฉันเพิ่งถามเพราะคำศัพท์ของคุณไม่ธรรมดามากในสถิติหรือการเรียนรู้ของเครื่อง: "ตัวอักษร" ผิดปกติและสิ่งที่คุณเรียกว่า "ตัวแปร" เป็นประเภทที่รู้จักกันโดยทั่วไปว่าเป็นตัวแปร "มาตราส่วน" หรือที่รู้จักกันในชื่อ .
ttnphns

1

หากค่าที่เป็นไปได้ของตัวแปรเด็ดขาดไม่มากเกินไปคุณอาจคิดว่าสร้างตัวแปรไบนารีจากค่าเหล่านั้น คุณสามารถใช้ตัวแปรไบนารีเหล่านี้เป็นตัวแปรตัวเลขและเรียกใช้การทำคลัสเตอร์ของคุณ นั่นคือสิ่งที่ฉันทำสำหรับโครงการของฉัน



0

VarSelLCM ข้อเสนอแพคเกจ

การเลือกตัวแปรสำหรับการทำคลัสเตอร์ตามโมเดลของชุดข้อมูลชนิดผสมที่มีค่าที่ขาดหายไป

เมื่อวันที่CRANและอธิบายเพิ่มเติมในกระดาษ

ข้อได้เปรียบเหนือวิธีการก่อนหน้านี้บางวิธีคือให้ความช่วยเหลือในการเลือกจำนวนกลุ่มและจัดการข้อมูลที่หายไป แอพพลิเคชั่นที่เป็นมันวาวที่ดีนั้นไม่ได้ถูกทำให้ขมวดคิ้ว

ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.