อะไรคือ“ ให้ข้อมูลพูดเพื่อตัวเอง”


10

ในการอ่านกระดาษต่อไปนี้ฉันเจอคำสั่งต่อไปนี้:

ดังที่กล่าวมามักจะถูกนำเสนอโดยไม่มีการอ้างอิงถึงโมเดลความน่าจะเป็นซึ่งสอดคล้องกับแนวคิดของ Benzecri [1973] ในการ "ให้ข้อมูลพูดด้วยตนเอง"

(การอ้างอิงมาจาก JP Benzécriber. L'analyse des données. Tome II: การติดต่อ L'analyse des. Dunod, 1973. )

จากวิธีการที่ฉันกำลังอ่านบทความนี้ดูเหมือน "ให้ข้อมูลที่พูดให้ตัวเอง" หมายถึงสิ่งที่ตามสายในการพิจารณามาตรการต่างๆทั่วข้อมูลโดยไม่คำนึงถึงฟังก์ชั่นความน่าจะเป็นหรือก่อให้เกิดการประมวลผลข้อมูล

ในขณะที่ฉันได้ยินคำพูด "ให้ข้อมูลพูดเพื่อตัวเอง" ก่อนหน้านี้ฉันไม่ได้ให้ความคิดอย่างหนักกับสิ่งที่บอกเป็นนัย การตีความข้างต้นของฉันมีความหมายตามที่บัญญัติไว้ในที่นี้หรือไม่


9
ปล่อยให้คำพูดพูดเพื่อตัวเอง
Mark L. Stone

@ MarkL.Stone: เหมือนกับข้อมูลมีความเข้าใจในเครื่องหมายคำพูดมากขึ้นด้วยบริบท
Cliff AB

คำตอบ:


8

การตีความขึ้นอยู่กับบริบท แต่มีบางบริบททั่วไปที่สิ่งนี้เกิดขึ้น คำแถลงมักใช้ในการวิเคราะห์แบบเบย์เพื่อเน้นความจริงที่ว่าเราต้องการให้การกระจายหลังในการวิเคราะห์มีความทนทานต่อสมมติฐานก่อนหน้าดังนั้นผลกระทบของข้อมูล "ครอบงำ" ด้านหลัง โดยทั่วไปแล้วคำพูดมักจะหมายถึงว่าเราต้องการให้แบบจำลองทางสถิติของเราสอดคล้องกับโครงสร้างของข้อมูลแทนที่จะบังคับให้ข้อมูลเข้าสู่การตีความซึ่งเป็นข้อสมมติฐานเชิงโครงสร้างที่ไม่สามารถตรวจสอบได้ของแบบจำลอง

คำพูดเฉพาะที่คุณอ้างถึงนั้นเพิ่มเติมด้วยคำพูดเพิ่มเติม: "แบบจำลองต้องเป็นไปตามข้อมูลไม่ใช่วิธีอื่น" (แปลจากBenzécri J (1973) L'Analyse des Données) Tome II: L'Analyse des Correspondances . Dunod, p. 6) Benzécriแย้งว่าแบบจำลองทางสถิติควรดึงโครงสร้างออกจากข้อมูลแทนที่จะเป็นโครงสร้างที่น่าประทับใจ เขามองว่าการใช้วิธีการแบบกราฟิกเชิงสำรวจเป็นสิ่งสำคัญมากเพื่อให้นักวิเคราะห์สามารถ "ปล่อยให้ข้อมูลพูดได้"


(+1) โดยที่ในใจฉันคิดว่าคำพูดในกระดาษเชื่อมโยงแรกหมายถึงหมายความว่าวิธีการเหล่านี้มองไปที่โครงสร้างความแปรปรวนร่วมเชิงประจักษ์มากกว่ารูปแบบโครงสร้างพึ่งพาอาศัย
หน้าผา AB

1
ใช่ฉันคิดว่าถูกต้อง เป็นที่น่าสังเกตว่าBenzécriอ้างว่าการวิเคราะห์ข้อมูลนั้นเทียบเท่ากับการสลายตัวของไอจีอีใน PCA เขาอ้างว่า "ทั้งหมดทำการวิเคราะห์ข้อมูลในคณิตศาสตร์ดีเพียงค้นหา eigenvectors; วิทยาศาสตร์ (หรือศิลปะ) ของมันคือการหาเมทริกซ์ที่เหมาะสมในแนวทแยง" (ดูHusson et al 2016 , p. 2)
Ben - Reinstate Monica

2
ฮ่านั่นเป็นข้อเรียกร้องที่น่าสนใจมากสำหรับเขาที่จะทำ บริบทนั้นทำให้คำพูดในกระดาษทำให้รู้สึกมากขึ้น
หน้าผา AB

ใช่มันสุดยอดมาก!
เบ็น - คืนสถานะโมนิก้า

(+1) ในขณะที่ในตอนแรกใบเสนอราคาดูเหมือนยากที่จะไม่เห็นด้วย (ทำไมจะ "จัดเก็บ" บางสิ่งเป็นสิ่งที่ดีหลังจากทั้งหมด?) คำสาปของมิติในสถิติที่ไม่ใช่พารามิเตอร์เช่นแสดงให้เห็นว่ามันเป็นดังนั้น ง่ายต่อการฟังข้อมูลที่พูดด้วยตัวเองเมื่อเราฟังผ่านโมเดลพาราเมตริก
Christoph Hanck

1

ย้อนกลับไปเมื่อประมาณปี 2548 เมื่อ "Data Mining" เป็นภัยคุกคามต่ออาชีพทางสถิติล่าสุดฉันจำได้ว่าเห็นโปสเตอร์ที่มี "Data Mining Principles" หนึ่งในนั้นคือ "ให้ข้อมูลพูด" (จำไม่ได้ว่า "สำหรับตัวเอง" รวมอยู่ด้วย) หากคุณคิดเกี่ยวกับอัลกอริทึมที่อาจถือได้ว่า "Data Mining" apriori และการแบ่งพาร์ติชันแบบซ้ำเกิดขึ้นในใจอัลกอริทึมสองอย่างที่สามารถสร้างแรงบันดาลใจได้โดยไม่ต้องตั้งสมมติฐานทางสถิติและสรุปผลเบื้องต้นของชุดข้อมูล

@Ben เข้าใจประวัติของวลีมากขึ้น แต่ฉันก็คิดถึงการอ้างอิงตามที่อ้างในเอกสาร:

MCA สามารถถูกมองว่าเป็นคู่ของ PCA สำหรับข้อมูลที่เป็นหมวดหมู่และเกี่ยวข้องกับการลดมิติข้อมูลเพื่อให้พื้นที่ย่อยที่แสดงข้อมูลได้ดีที่สุดในแง่ของการเพิ่มความแปรปรวนของจุดที่คาดการณ์ไว้ให้มากที่สุด ดังที่ได้กล่าวมามักจะถูกนำเสนอโดยไม่มีการอ้างอิงถึงโมเดลความน่าจะเป็นซึ่งสอดคล้องกับแนวคิดของ Benz´ecri [1973] ในการ "ให้ข้อมูลพูดด้วยตนเอง"

สำหรับฉันแล้วดูเหมือนว่ากระบวนการของ MCA จะคล้ายกับ apriori หรือการแบ่งพาร์ติชันแบบเรียกซ้ำ (หรือนรกเลขคณิตค่าเฉลี่ยสำหรับเรื่องนั้น) ซึ่งสามารถกระตุ้นได้โดยไม่ต้องสร้างแบบจำลองใด ๆ เลยและเป็นการดำเนินการเชิงกลบนชุดข้อมูลที่เหมาะสม ในหลักการแรกบางอย่าง

มีคลื่นความถี่ในการให้ข้อมูลพูด แบบจำลอง Bayesian ทั้งหมดพร้อมด้วยนักบวชที่แข็งแกร่งจะอยู่ที่ปลายด้านหนึ่ง โมเดลที่ไม่ใช่พารามิเตอร์ของผู้ใช้บ่อยจะใกล้เคียงกับส่วนอื่น ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.