วิธีการพูดคุยเกี่ยวกับ scatterplot กับหลายบรรทัดที่เกิดขึ้นใหม่?


11

เราวัดตัวแปรได้สองตัวและ scatterplot ดูเหมือนว่าจะแนะนำโมเดล "เชิงเส้น" หลายอัน มีวิธีการกลั่นโมเดลเหล่านี้หรือไม่? การระบุตัวแปรอิสระอื่น ๆ กลายเป็นเรื่องยาก

Scatterplot ของสองตัวแปร

ตัวแปรทั้งสองมีความเบ้ซ้ายอย่างหนัก (ต่อจำนวนน้อย) นี่เป็นการกระจายที่คาดหวังในโดเมนของเรา ความเข้มของจุดหมายถึงจำนวนเงินของจุดข้อมูล (บนขนาด) นี้y> < x , y >log10<x,y>

อีกวิธีหนึ่งมีวิธีการจัดกลุ่มคะแนนหรือไม่

ในสาขาของเรามันจะอ้างว่าตัวแปรทั้งสองเหล่านี้มีความสัมพันธ์เชิงเส้น เราพยายามที่จะเข้าใจ / อธิบายว่าทำไมข้อมูลของเราถึงไม่เป็นเช่นนั้น

(หมายเหตุเรามี 17M data points)

ปรับปรุง:ขอบคุณสำหรับคำตอบทั้งหมดต่อไปนี้เป็นคำชี้แจงที่ขอ:

  • ตัวแปรทั้งสองเป็นจำนวนเต็มเท่านั้นซึ่งจะอธิบายรูปแบบบางอย่างใน scatterplot ของบันทึก
  • โชคดีที่ตามนิยามแล้วค่าต่ำสุดของตัวแปรทั้งสองคือ 1
  • คะแนน 7M อยู่ที่ ("อธิบาย" โดยความเบ้ซ้ายของข้อมูล)<3,1>

นี่คือแปลงที่ร้องขอ:

บันทึกการกระจายล็อก: Scatterplot ในบันทึกการทำงาน

(ช่องว่างเกิดจากค่าจำนวนเต็ม)

ขั้วโลกล็อก - ล็อก: พิกัดเชิงขั้ว θ=y

ฮิสโตแกรมของอัตราส่วน: ฮิสโตแกรมของอัตราส่วน

ความถี่อยู่ในระดับล็อกเนื่องจากแถบคือ 7M จุดและจะซ่อนแถบอื่น1/3


2
อะไรนี้ดูพล็อตเหมือนในพิกัดเชิงขั้ว ? (มันอาจจะแนะนำให้เลือกแรกที่จะใช้ลอการิทึมของและ (บวกถ้าจำเป็นเริ่มต้นเล็ก ๆ เพื่อชดเชยศูนย์หลีกเลี่ยง).) เนื่องจากทุกสายดูเหมือนจะแผ่ออกมาจากจุดเริ่มต้นแล้วน่ากลัว - โดยเฉพาะอย่างยิ่งถ้ารูปแบบ รอบ ๆ เส้นจะปรากฏเป็นเนื้อเดียวกันจากนั้นทั้งหมดที่คุณต้องทำคือจัดกลุ่มจุดในมิติ(r,θ)XYθθ
whuber

มีอัตราส่วนเกี่ยวข้องกับการได้รับ Y และ X หรือไม่? ตัวแปรที่ใช้ค่าที่ไม่ต่อเนื่องเกี่ยวข้องเท่านั้นหรือไม่? มันดูเป็นพล็อตบันทึกการทำงานอย่างไร
Glen_b -Reinstate Monica

1
@whuber & Glen_b ฉันได้เพิ่มแปลงที่มีการแปลงเหล่านั้นแล้ว
Davy Landman

ขอบคุณเดวี่ ฉันควรจะชัดเจนเกี่ยวกับจุดที่ใช้พิกัดเชิงขั้ว: โดยการพล็อตบนแกนนอนและบนแกนแนวตั้งเส้นรัศมีใด ๆ บนพล็อตดั้งเดิมจะปรากฏเป็นเส้นแนวนอนอย่างสมบูรณ์ ไม่เพียง แต่จะสามารถตรวจจับได้อย่างง่ายดายด้วยสายตา (ดวงตาของเรามีการประมวลผลในตัวเพื่อรับรู้คุณสมบัติเชิงเส้นแนวนอน) เมื่อตรวจพบแล้วพวกเขาสามารถประมวลผลด้วยการวิเคราะห์กลุ่มตามเท่านั้น พล็อต "บันทึกล็อกขั้วโลก" ของคุณโดยใช้การแปลงแบบไม่เชิงเส้นกับพิกัด (โดยเฉพาะ ) จะทำลายคุณสมบัติที่ดีเหล่านี้ rθθθ
whuber

@ เมื่อฉันได้อัปเดตพล็อตใส่ theta ลงบน y นี่คือบรรทัดที่คุณหมายถึงหรือไม่
Davy Landman

คำตอบ:


7

คุณอาจมีสิ่งประดิษฐ์เกิดขึ้นจากข้อ จำกัด เกี่ยวกับสิ่งที่เป็นไปได้ทางร่างกายหรือสิ่งที่บันทึกไว้ (ที่ง่ายที่สุดเป็นจำนวนเต็มเท่านั้น) และไม่ระบุชื่ออย่างสมบูรณ์ไม่แนะนำให้คาดเดาความมั่นใจใด ๆ เกี่ยวกับวิธีการที่เกิดขึ้น แต่ดูเหมือนว่าบางคนเป็นที่ชื่นชอบและแน่นอนฉันจะดูการกระจายของอัตราส่วนนั้น นอกจากนี้ถ้าเป็นเช่นนั้นมันไม่ได้เป็นประสบการณ์ของฉันที่มีประโยชน์ในการมองหาโมเดลที่แยกจากกันเว้นแต่ว่าคุณกำลังผสมสถานการณ์ที่แตกต่างกัน (สำหรับ "ร่างกาย" อ่าน "ทางชีวภาพ" หรือคำวิเศษณ์อะไรก็ตามที่เหมาะสม)YXY/X

ยิ่งฉันมองสิ่งนี้มากเท่าไหร่ฉันก็ยิ่งเดาได้ว่าเส้นเช่นหรือนั้นชัดเจนสำหรับเลขจำนวนเต็มเพราะค่าตัวเองเป็นจำนวนเต็มX/kkXk

จุดที่แตกต่าง แต่อาจเกี่ยวข้องกันนั่นคือข้อมูลเหล่านี้ร้องออกมาเพื่อการแปลง หากเป็นค่าบวกลอการิทึมจะถูกระบุ ฉันกลัวว่าคุณมีศูนย์ซึ่งในกรณีนี้สิ่งที่ต้องทำคือเปิดให้มีการอภิปราย ตัวอย่างเช่นบรรทัดที่อาจเดาได้จากกราฟของคุณ หากมีค่าศูนย์บางคำสาบานโดยหรือรูทคิวบ์ควรช่วย สิ่งที่ช่วยให้คุณเห็นรูปแบบที่ชัดเจนยิ่งขึ้นสามารถป้องกันได้Y=0log(Y+constant)

จุดของคำศัพท์: ความเบ้ในสถิติถูกอธิบายโดยอ้างอิงถึงส่วนท้ายที่ยืดออกมากขึ้น คุณสามารถพิจารณาคำศัพท์นี้แบบย้อนหลังได้ฟรี ตัวแปรทั้งสองนี้มีค่าสูงหรือเบ้บวกหรือเบ้ขวา

UPDATE: ขอบคุณสำหรับกราฟพิเศษซึ่งมีประโยชน์มากที่สุด การคาดเดาเกือบทั้งหมดปรากฏว่าได้รับการยืนยัน (บรรทัดล่างเพื่อพูดคือไม่ใช่ ) แถบเป็นสิ่งประดิษฐ์หรือเอฟเฟ็กต์รองของการใช้จำนวนเต็มซึ่งอาจเป็นวิธีเดียวหรืออย่างน้อยก็เป็นวิธีที่ใช้ประโยชน์ได้มากที่สุดในการวัดสิ่งที่คุณ กำลังวัด (ซึ่งคำถามยังคงรอบคอบ) ล็อกล็อกและพล็อตอื่น ๆ จะเปิดเผยความน่าจะเป็น ดังนั้นแม้จะมีการใช้ดุลยพินิจ แต่ discreteness ได้รับการยืนยัน มีโหมดเด่นชัด (ยอดกระจาย) สำหรับอัตราส่วน 1/4, 1/2, 1/1 และ 2/1Y=1Y=0

ก่อนหน้านี้ฉันจะไม่แนะนำการสร้างแบบจำลองลายเส้นที่แตกต่างกันโดยไม่มีเหตุผลทางวิทยาศาสตร์เพื่อแยกแยะหรือแยกพวกมันออกจากกัน คุณควรเฉลี่ยสิ่งที่คุณมี (อาจมีวิธีการรู้จักกับข้อมูลประเภทนี้เพื่อยับยั้ง discreteness หากคนในสาขาของคุณวัดคะแนนเป็นล้าน ๆ คะแนนในแต่ละพล็อตมันเป็นเรื่องยากที่จะเชื่อว่านี่ไม่เคยเห็นมาก่อน)

ความสัมพันธ์ควรเป็นบวกอย่างแน่นอน นอกเหนือจากการทดสอบความสำคัญอย่างเป็นทางการซึ่งที่นี่จะไร้ประโยชน์อย่างเต็มที่เนื่องจากความสัมพันธ์แบบนาทีจะมีคุณสมบัติที่มีความสำคัญกับขนาดตัวอย่างนี้ไม่ว่าการประกาศที่แข็งแกร่งจะเป็นเรื่องของความคาดหวังและมาตรฐานในสาขาของคุณ การเปรียบเทียบความสัมพันธ์ของคุณเชิงปริมาณกับผลลัพธ์ของผู้อื่นเป็นวิธีที่จะไป

รายละเอียด: ความเบ้ยังคงอธิบายถึงวิธีการที่ไม่ถูกต้องตามแบบแผนทางสถิติ ตัวแปรเหล่านี้เอียงไปทางขวา ศัพท์แสงที่เหมาะกับเมื่อมองฮิสโตแกรมที่มีแกนขนาดตามแนวนอนและสังเกตว่าความเบ้นั้นมีชื่อสำหรับหางที่ยาวกว่าไม่ใช่ความเข้มข้นที่มีค่ามากกว่า


ฉันได้เพิ่มพล็อตบันทึกการใช้งานและพยายามที่จะแม่นยำมากขึ้นเกี่ยวกับความเบ้
Davy Landman

4

ฉันคิดว่าเครื่องมือที่คุณต้องการเรียกว่าการถดถอยเชิงสลับ แนวคิดคือมีหลายเส้นการถดถอยและแต่ละจุดข้อมูลถูกกำหนดให้กับหนึ่งในนั้น ตัวอย่างเช่นสมการของเส้นการถดถอยครั้งแรกจะเป็น: สมการของเส้นการถดถอยจะเป็น: โดยรวมแล้วมีเส้นการถดถอยที่แตกต่างกันสำหรับจุดข้อมูลใด ๆ ที่กำหนดเราจะเห็นเฉพาะหนึ่งบรรทัดการถดถอย ดังนั้นจะต้องมีกลไกในการตัดสินใจว่าเราจะเห็นเส้นการถดถอยเส้นใดในแต่ละจุด กลไกที่ง่ายที่สุดคือการกระจายแบบหลายส่วน นั่นคือเราเห็น

Yi=α1+β1Xi+ϵi
mth
Yi=αm+βmXi+ϵi
Mmthสายการถดถอยมีโอกาสที่ 1 pmmpm=1

โมเดลมักจะถูกประเมินโดยความเป็นไปได้สูงสุด สมมติว่ามีการกระจาย , ฟังก์ชันความน่าจะเป็นที่คุณจะขยายให้ใหญ่สุดคือ: ฟังก์ชันคือความหนาแน่นปกติมาตรฐาน คุณเพิ่มสิ่งนี้ในพารามิเตอร์โดยขึ้นอยู่กับข้อ จำกัดp_mนี่เป็นปัญหาที่เกิดขึ้นได้ยากที่สุดหากคุณจะใช้วิธี quasi-Newton ในการแก้ปัญหา คุณไม่สามารถเริ่มและที่ศูนย์และϵN(0,σ2)

L(α,β,σ)=m=1Mpm1σϕ(Yiα1β1Xiσ)
ϕ3M+1mpm=1,pm0αβpmยกตัวอย่างเช่นที่คุณต้องให้ค่าเริ่มต้นที่แตกต่างกับและเพื่อให้อัลกอริทึมสามารถ "แยกพวกมันออกจากกัน"1Mαβ

มีหลายวิธีที่จะทำให้มีส่วนร่วมมากขึ้นถ้าคุณต้องการ บางทีคุณอาจมีตัวแปรซึ่งคุณคิดว่ามีอิทธิพลต่อซึ่งเป็นอิทธิพลที่เลือกไว้สำหรับการถดถอย คุณสามารถใช้ฟังก์ชั่นโลจิคัลพหุนามเพื่อให้เป็นฟังก์ชันของ : ZipmpmZi

L(α,β,σ)=m=1M(exp(δm+γmZi)mexp(δm+γmZi))1σϕ(Yiα1β1Xiσ)

ขณะนี้มีพารามิเตอร์ที่จริงแล้วมีพารามิเตอร์เพราะมีความต้องการการทำให้เป็นมาตรฐานสำหรับ --- อ่านได้จาก log multinomial สำหรับคำอธิบาย5 M - 1 δ , γ5M+15M1δ,γ

อีกวิธีในการทำให้มีส่วนร่วมมากขึ้นคือการใช้วิธีการบางอย่างในการเลือกจำนวนเส้นการถดถอย ฉันค่อนข้างสบาย ๆ เกี่ยวกับตัวเลือกประเภทนี้ในงานของฉันเองดังนั้นบางทีคนอื่นอาจชี้ให้คุณเห็นวิธีที่ดีที่สุดในการเลือกM


2
นี่อาจเป็นแบบอย่างที่เป็นธรรมชาติเมื่อมีระบอบการปกครองที่แตกต่างกันเล็กน้อยและเหตุผลที่เป็นอิสระบางประการสำหรับเหตุผลที่พวกเขามีอยู่ ที่นี่มีแถบเส้นทแยงมุมจำนวนมาก - และมันอาจจะเดาได้ว่าจะเห็นได้ชัดกว่าในระดับลอการิทึม - ว่าปัญหาของการเลือกนั้นสำคัญยิ่งสำหรับวิธีการนี้ไม่ใช่เหตุการณ์ที่เกิดขึ้น M
Nick Cox

2

ฉันสังเกตเห็นพฤติกรรมที่คล้ายคลึงกันในชุดข้อมูลบางชุดของฉัน ในกรณีของฉันบรรทัดที่แตกต่างกันหลายอันเกิดจากข้อผิดพลาดเชิงปริมาณในหนึ่งในอัลกอริทึมการประมวลผลของฉัน

นั่นคือเรากำลังดูแผนการกระจายข้อมูลที่ประมวลผลและอัลกอริทึมการประมวลผลมีผลกระทบเชิงปริมาณที่ทำให้เกิดการพึ่งพาในข้อมูลที่ดูเหมือนคุณอยู่ด้านบน

การแก้ไขผลกระทบเชิงปริมาณทำให้การส่งออกของเราดูราบรื่นและกระจุกน้อยลง

สำหรับความคิดเห็น "ความสัมพันธ์เชิงเส้น" ของคุณ สิ่งที่คุณนำเสนอไม่เพียงพอในการพิจารณาว่าข้อมูลนี้มีความสัมพันธ์เชิงเส้นหรือไม่ นั่นคือในบางสาขาค่าสัมประสิทธิ์สหสัมพันธ์ของ> 0.7 ถือว่าเป็นความสัมพันธ์เชิงเส้นที่แข็งแกร่ง เนื่องจากข้อมูลส่วนใหญ่ของคุณอยู่ใกล้จุดกำเนิดจึงค่อนข้างเป็นไปได้ที่ข้อมูลของคุณจะมีความสัมพันธ์เชิงเส้นสัมพันธ์กับสิ่งที่ "ภูมิปัญญาดั้งเดิม" พูด สหสัมพันธ์จะบอกคุณน้อยมากเกี่ยวกับชุดข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.