ขั้นตอนอัตโนมัติสำหรับการเลือกชุดย่อยของจุดข้อมูลที่มีความสัมพันธ์มากที่สุด?


15

มีขั้นตอนมาตรฐานบางอย่าง (ซึ่งอาจอ้างอิงถึงการอ้างอิง) สำหรับการเลือกเซ็ตย่อยของจุดข้อมูลจากพูลขนาดใหญ่ที่มีความสัมพันธ์ที่แข็งแกร่งที่สุด (ตามสองมิติ)?

ตัวอย่างเช่นสมมติว่าคุณมี 100 จุดข้อมูล คุณต้องการเซตย่อย 40 คะแนนโดยมีความสัมพันธ์ที่แข็งแกร่งที่สุดเท่าที่เป็นไปได้ในมิติ X และ Y

ฉันรู้ว่าการเขียนโค้ดเพื่อทำสิ่งนี้จะค่อนข้างตรงไปตรงมา แต่ฉันสงสัยว่ามีแหล่งอ้างอิงใดหรือไม่


3
"ฉันรู้ว่าการเขียนโค้ดเพื่อทำสิ่งนี้จะค่อนข้างตรงไปตรงมา" อา? แล้วคุณจะทำอย่างไร
user603

3
ฉันคิดว่าเธอหมายถึงบางสิ่งบางอย่างเช่น "ความสัมพันธ์ย่อยที่ดีที่สุด"; เลือกส่วนย่อยของk ( k=40ในตัวอย่างของเธอ) จุดข้อมูลออกจากของคุณยังไม่มีข้อความ( ยังไม่มีข้อความ=100ในตัวอย่างของเธอ) และคำนวณการประมาณค่าสหสัมพันธ์ρ(X,Y) (สมมติว่าเธอหมายถึงรู้เซตย่อยของคะแนน ด้วยความสัมพันธ์เชิงเส้นที่ดีที่สุด) อย่างไรก็ตามกระบวนการนี้ดูเหมือนว่ามีราคาแพงสำหรับขนาดใหญ่ยังไม่มีข้อความเนื่องจากคุณต้องคำนวณสัมประสิทธิ์ (ยังไม่มีข้อความk)
Néstor

1
หากคุณยินดีที่จะดูชุดค่าผสมเชิงเส้นของตัวแปรความสัมพันธ์แบบบัญญัติเป็นสิ่งที่คุณต้องการ มิฉะนั้นการเลือกคุณสมบัติที่เกี่ยวข้องอาจเป็นที่สนใจ X
MånsT

ฉันคิดว่าบางคนอาจเข้าใจฉันผิด @ Néstorดูเหมือนว่าจะถูกต้อง มี 100 รายการแต่ละรายการมีค่า X และค่า Y ฉันต้องการค้นหาชุดย่อยของ 40 ที่มีความสัมพันธ์ที่แข็งแกร่งที่สุดที่เป็นไปได้ (w / การถดถอยเชิงเส้น) ระหว่างค่า X และ Y ฉันสามารถเขียนโค้ดเพื่อสำรวจพื้นที่การค้นหาทั้งหมด แต่ฉันจะอ้างอิงอะไรเพื่อสนับสนุนวิธีการดังกล่าว อะไรคือสิ่งที่ถูกเรียกให้ค้นหาความสัมพันธ์ที่ดีที่สุดในกลุ่มย่อยที่เป็นไปได้ทั้งหมด?
Julie

1
คุณสนใจที่จะเพิ่มความสัมพันธ์หรือรับแนวการถดถอยที่เหมาะสมที่สุดตัวอย่างเช่นวัดจากความแปรปรวนที่เหลือน้อยที่สุดหรือไม่? ทั้งสองไม่เหมือนกันเมื่อคุณเลือกจุดข้อมูลของคุณ
jbowman

คำตอบ:


17

ฉันจะบอกว่าวิธีการของคุณเหมาะกับหมวดหมู่ทั่วไปที่อธิบายไว้ในบทความวิกิพีเดียซึ่งมีการอ้างอิงอื่น ๆ หากคุณต้องการอะไรมากกว่าวิกิพีเดีย ลิงก์บางส่วนภายในบทความนั้นจะมีผลบังคับใช้ด้วย

คำอื่น ๆ ที่สามารถนำไปใช้ (ถ้าคุณต้องการทำการค้นหาเพิ่มเติม) รวมถึง "การขุดลอกข้อมูล" และ "การทรมานข้อมูลจนกว่าจะมีการสารภาพ"

โปรดทราบว่าคุณสามารถรับค่าสหสัมพันธ์ 1 ได้เสมอหากคุณเลือก 2 คะแนนที่ไม่มีค่า x หรือ y เหมือนกัน มีบทความในนิตยสาร Chance เมื่อไม่กี่ปีที่ผ่านมาซึ่งแสดงให้เห็นเมื่อคุณมีตัวแปร x และ y ที่ไม่มีความสัมพันธ์กันคุณสามารถหาวิธีที่จะทิ้งขยะ x และค่าเฉลี่ยของ y ในถังขยะเพื่อแสดงแนวโน้มที่เพิ่มขึ้นหรือลดลง ( โอกาส 2549 การเปิดเผยด้วยสายตา: การค้นหาสิ่งที่ไม่มีอยู่ในผลลัพธ์อันน่าเศร้า: ผลเมนเดล, หน้า 49-52) นอกจากนี้ยังมีชุดข้อมูลแบบเต็มที่แสดงความสัมพันธ์เชิงบวกในระดับปานกลางจึงเป็นไปได้ที่จะเลือกชุดย่อยที่แสดงความสัมพันธ์เชิงลบ เมื่อพิจารณาถึงสิ่งเหล่านี้แม้ว่าคุณจะมีเหตุผลที่ถูกต้องสำหรับการทำสิ่งที่คุณเสนอก็ตาม


อะไรคือชื่อของบทความจากสถิติอเมริกัน
สันนิษฐานว่าปกติ

1
ฉันพิมพ์ผิดที่ฉันเห็นบทความนี้เป็นจริงในนิตยสารโอกาสมากกว่านักสถิติชาวอเมริกัน ฉันได้แก้ไขที่ด้านบนและรวมปีชื่อและหมายเลขหน้าเพื่อให้ผู้ที่สนใจสามารถค้นหาสำเนาได้ง่าย
เกร็กสโนว์

4

อัลกอริทึม RANSAC ดูเหมือนสิ่งที่คุณต้องการ โดยทั่วไปถือว่าข้อมูลของคุณประกอบด้วยชุดค่าผสมและค่าผิดพลาดและพยายามระบุค่า inliers ด้วยการสุ่มตัวอย่างชุดย่อยของข้อมูลซ้ำ ๆ ปรับรูปแบบให้เหมาะสมจากนั้นลองปรับจุดข้อมูลให้ตรงกับแบบจำลอง นี่คือบทความวิกิพีเดียเกี่ยวกับเรื่องนี้

ในกรณีของคุณคุณสามารถทำซ้ำอัลกอริทึมซ้ำในขณะที่บันทึกรุ่นที่ดีที่สุดในปัจจุบันที่เหมาะสมอย่างน้อย 40 คะแนนดังนั้นมันจะไม่รับประกันความสัมพันธ์ที่ดีที่สุดแน่นอน แต่ควรเข้าใกล้


1

ฉันมีช่วงเวลาที่ยากลำบากในการจินตนาการถึงบริบทที่จะเป็นการปฏิบัติที่ดี แต่ลองสมมติว่าคุณมีเหตุผลที่ดีในการทำสิ่งนี้

อัลกอริทึมกำลังดุร้ายอาจเป็นดังนี้:

  1. คุณคำนวณตัวอย่างย่อยที่เป็นไปได้ทั้งหมดของ n จากตัวอย่างโดยรวมของคุณของ N แพ็คเกจทางสถิติส่วนใหญ่มีฟังก์ชั่นสำหรับการคำนวณชุดค่าผสมโดยไม่มีการแทนที่ที่จะทำสิ่งนี้ให้คุณ

  2. คุณประมาณค่าสหสัมพันธ์ระหว่าง x และ y สำหรับแต่ละตัวอย่างย่อยและเลือกค่าสูงสุดของชุดนั้น

ฉันเพิ่งเห็นความคิดเห็นของผู้โพสต์ดั้งเดิมเกี่ยวกับการอ้างอิงสำหรับกระบวนการนี้ ฉันไม่แน่ใจว่ามีใครบางคนมีชื่อเฉพาะสำหรับขั้นตอนนี้หลังจากทั้งหมดที่คุณเพียงแค่สร้างการกระจายเชิงประจักษ์ของความสัมพันธ์ที่เป็นไปได้ทั้งหมดในชุดข้อมูลของคุณและเลือกสูงสุด วิธีการที่คล้ายกันถูกนำมาใช้เมื่อทำการ bootstraping แต่ในกรณีนั้นคุณมีความสนใจในความแปรปรวนเชิงประจักษ์คุณไม่ได้ใช้วิธีนี้ในการเลือกตัวอย่างย่อยเฉพาะที่เกี่ยวข้องกับค่าสูงสุด


2
1032ยังไม่มีข้อความ=100n=40

ไม่จำเป็นต้องมีการต่อว่าต่อขาน :-p จุดยุติธรรม
David

ขออภัย ... ฉันชอบตัวเลขเหล่านั้นเพราะพวกเขาให้เรามีพื้นที่มากสำหรับอัลกอริทึมที่ปรับปรุง :-)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.