วิธีการพูดคุยเกี่ยวกับ scatterplot กับหลายบรรทัดที่เกิดขึ้นใหม่?

เราวัดตัวแปรได้สองตัวและ scatterplot ดูเหมือนว่าจะแนะนำโมเดล "เชิงเส้น" หลายอัน มีวิธีการกลั่นโมเดลเหล่านี้หรือไม่? การระบุตัวแปรอิสระอื่น ๆ กลายเป็นเรื่องยาก

Scatterplot ของสองตัวแปร

ตัวแปรทั้งสองมีความเบ้ซ้ายอย่างหนัก (ต่อจำนวนน้อย) นี่เป็นการกระจายที่คาดหวังในโดเมนของเรา ความเข้มของจุดหมายถึงจำนวนเงินของจุดข้อมูล (บนขนาด) นี้y> $\log_{10}$ $<x,y>$

อีกวิธีหนึ่งมีวิธีการจัดกลุ่มคะแนนหรือไม่

ในสาขาของเรามันจะอ้างว่าตัวแปรทั้งสองเหล่านี้มีความสัมพันธ์เชิงเส้น เราพยายามที่จะเข้าใจ / อธิบายว่าทำไมข้อมูลของเราถึงไม่เป็นเช่นนั้น

(หมายเหตุเรามี 17M data points)

ปรับปรุง:ขอบคุณสำหรับคำตอบทั้งหมดต่อไปนี้เป็นคำชี้แจงที่ขอ:

ตัวแปรทั้งสองเป็นจำนวนเต็มเท่านั้นซึ่งจะอธิบายรูปแบบบางอย่างใน scatterplot ของบันทึก
โชคดีที่ตามนิยามแล้วค่าต่ำสุดของตัวแปรทั้งสองคือ 1
คะแนน 7M อยู่ที่ ("อธิบาย" โดยความเบ้ซ้ายของข้อมูล) $<3,1>$

นี่คือแปลงที่ร้องขอ:

บันทึกการกระจายล็อก: Scatterplot ในบันทึกการทำงาน

(ช่องว่างเกิดจากค่าจำนวนเต็ม)

ขั้วโลกล็อก - ล็อก: พิกัดเชิงขั้ว $\theta = y$

ฮิสโตแกรมของอัตราส่วน:

ความถี่อยู่ในระดับล็อกเนื่องจากแถบคือ 7M จุดและจะซ่อนแถบอื่น $1/3$

linear-model scatterplot

— เดวี่แลนด์แมน
แหล่งที่มา

อะไรนี้ดูพล็อตเหมือนในพิกัดเชิงขั้ว ? (มันอาจจะแนะนำให้เลือกแรกที่จะใช้ลอการิทึมของและ (บวกถ้าจำเป็นเริ่มต้นเล็ก ๆ เพื่อชดเชยศูนย์หลีกเลี่ยง).) เนื่องจากทุกสายดูเหมือนจะแผ่ออกมาจากจุดเริ่มต้นแล้วน่ากลัว - โดยเฉพาะอย่างยิ่งถ้ารูปแบบ รอบ ๆ เส้นจะปรากฏเป็นเนื้อเดียวกันจากนั้นทั้งหมดที่คุณต้องทำคือจัดกลุ่มจุดในมิติ

(r, θ)

$(r,\theta)$

X

$X$

Y

$Y$

θ

$\theta$

θ

$\theta$

— whuber

มีอัตราส่วนเกี่ยวข้องกับการได้รับ Y และ X หรือไม่? ตัวแปรที่ใช้ค่าที่ไม่ต่อเนื่องเกี่ยวข้องเท่านั้นหรือไม่? มันดูเป็นพล็อตบันทึกการทำงานอย่างไร

— Glen_b -Reinstate Monica

@whuber & Glen_b ฉันได้เพิ่มแปลงที่มีการแปลงเหล่านั้นแล้ว

— Davy Landman

ขอบคุณเดวี่ ฉันควรจะชัดเจนเกี่ยวกับจุดที่ใช้พิกัดเชิงขั้ว: โดยการพล็อตบนแกนนอนและบนแกนแนวตั้งเส้นรัศมีใด ๆ บนพล็อตดั้งเดิมจะปรากฏเป็นเส้นแนวนอนอย่างสมบูรณ์ ไม่เพียง แต่จะสามารถตรวจจับได้อย่างง่ายดายด้วยสายตา (ดวงตาของเรามีการประมวลผลในตัวเพื่อรับรู้คุณสมบัติเชิงเส้นแนวนอน) เมื่อตรวจพบแล้วพวกเขาสามารถประมวลผลด้วยการวิเคราะห์กลุ่มตามเท่านั้น พล็อต "บันทึกล็อกขั้วโลก" ของคุณโดยใช้การแปลงแบบไม่เชิงเส้นกับพิกัด (โดยเฉพาะ ) จะทำลายคุณสมบัติที่ดีเหล่านี้

r

$r$

θ

$\theta$

θ

$\theta$

θ

$\theta$

— whuber

@ เมื่อฉันได้อัปเดตพล็อตใส่ theta ลงบน y นี่คือบรรทัดที่คุณหมายถึงหรือไม่

— Davy Landman

คำตอบ:

คุณอาจมีสิ่งประดิษฐ์เกิดขึ้นจากข้อ จำกัด เกี่ยวกับสิ่งที่เป็นไปได้ทางร่างกายหรือสิ่งที่บันทึกไว้ (ที่ง่ายที่สุดเป็นจำนวนเต็มเท่านั้น) และไม่ระบุชื่ออย่างสมบูรณ์ไม่แนะนำให้คาดเดาความมั่นใจใด ๆ เกี่ยวกับวิธีการที่เกิดขึ้น แต่ดูเหมือนว่าบางคนเป็นที่ชื่นชอบและแน่นอนฉันจะดูการกระจายของอัตราส่วนนั้น นอกจากนี้ถ้าเป็นเช่นนั้นมันไม่ได้เป็นประสบการณ์ของฉันที่มีประโยชน์ในการมองหาโมเดลที่แยกจากกันเว้นแต่ว่าคุณกำลังผสมสถานการณ์ที่แตกต่างกัน (สำหรับ "ร่างกาย" อ่าน "ทางชีวภาพ" หรือคำวิเศษณ์อะไรก็ตามที่เหมาะสม) $Y$ $X$ $Y/X$

ยิ่งฉันมองสิ่งนี้มากเท่าไหร่ฉันก็ยิ่งเดาได้ว่าเส้นเช่นหรือนั้นชัดเจนสำหรับเลขจำนวนเต็มเพราะค่าตัวเองเป็นจำนวนเต็ม $X/k$ $kX$ $k$

จุดที่แตกต่าง แต่อาจเกี่ยวข้องกันนั่นคือข้อมูลเหล่านี้ร้องออกมาเพื่อการแปลง หากเป็นค่าบวกลอการิทึมจะถูกระบุ ฉันกลัวว่าคุณมีศูนย์ซึ่งในกรณีนี้สิ่งที่ต้องทำคือเปิดให้มีการอภิปราย ตัวอย่างเช่นบรรทัดที่อาจเดาได้จากกราฟของคุณ หากมีค่าศูนย์บางคำสาบานโดยหรือรูทคิวบ์ควรช่วย สิ่งที่ช่วยให้คุณเห็นรูปแบบที่ชัดเจนยิ่งขึ้นสามารถป้องกันได้ $Y = 0$ $\log(Y + \text{constant})$

จุดของคำศัพท์: ความเบ้ในสถิติถูกอธิบายโดยอ้างอิงถึงส่วนท้ายที่ยืดออกมากขึ้น คุณสามารถพิจารณาคำศัพท์นี้แบบย้อนหลังได้ฟรี ตัวแปรทั้งสองนี้มีค่าสูงหรือเบ้บวกหรือเบ้ขวา

UPDATE: ขอบคุณสำหรับกราฟพิเศษซึ่งมีประโยชน์มากที่สุด การคาดเดาเกือบทั้งหมดปรากฏว่าได้รับการยืนยัน (บรรทัดล่างเพื่อพูดคือไม่ใช่ ) แถบเป็นสิ่งประดิษฐ์หรือเอฟเฟ็กต์รองของการใช้จำนวนเต็มซึ่งอาจเป็นวิธีเดียวหรืออย่างน้อยก็เป็นวิธีที่ใช้ประโยชน์ได้มากที่สุดในการวัดสิ่งที่คุณ กำลังวัด (ซึ่งคำถามยังคงรอบคอบ) ล็อกล็อกและพล็อตอื่น ๆ จะเปิดเผยความน่าจะเป็น ดังนั้นแม้จะมีการใช้ดุลยพินิจ แต่ discreteness ได้รับการยืนยัน มีโหมดเด่นชัด (ยอดกระจาย) สำหรับอัตราส่วน 1/4, 1/2, 1/1 และ 2/1 $Y = 1$ $Y = 0$

ก่อนหน้านี้ฉันจะไม่แนะนำการสร้างแบบจำลองลายเส้นที่แตกต่างกันโดยไม่มีเหตุผลทางวิทยาศาสตร์เพื่อแยกแยะหรือแยกพวกมันออกจากกัน คุณควรเฉลี่ยสิ่งที่คุณมี (อาจมีวิธีการรู้จักกับข้อมูลประเภทนี้เพื่อยับยั้ง discreteness หากคนในสาขาของคุณวัดคะแนนเป็นล้าน ๆ คะแนนในแต่ละพล็อตมันเป็นเรื่องยากที่จะเชื่อว่านี่ไม่เคยเห็นมาก่อน)

ความสัมพันธ์ควรเป็นบวกอย่างแน่นอน นอกเหนือจากการทดสอบความสำคัญอย่างเป็นทางการซึ่งที่นี่จะไร้ประโยชน์อย่างเต็มที่เนื่องจากความสัมพันธ์แบบนาทีจะมีคุณสมบัติที่มีความสำคัญกับขนาดตัวอย่างนี้ไม่ว่าการประกาศที่แข็งแกร่งจะเป็นเรื่องของความคาดหวังและมาตรฐานในสาขาของคุณ การเปรียบเทียบความสัมพันธ์ของคุณเชิงปริมาณกับผลลัพธ์ของผู้อื่นเป็นวิธีที่จะไป

รายละเอียด: ความเบ้ยังคงอธิบายถึงวิธีการที่ไม่ถูกต้องตามแบบแผนทางสถิติ ตัวแปรเหล่านี้เอียงไปทางขวา ศัพท์แสงที่เหมาะกับเมื่อมองฮิสโตแกรมที่มีแกนขนาดตามแนวนอนและสังเกตว่าความเบ้นั้นมีชื่อสำหรับหางที่ยาวกว่าไม่ใช่ความเข้มข้นที่มีค่ามากกว่า

— นิคคอคส์
แหล่งที่มา

ฉันได้เพิ่มพล็อตบันทึกการใช้งานและพยายามที่จะแม่นยำมากขึ้นเกี่ยวกับความเบ้

— Davy Landman

ฉันคิดว่าเครื่องมือที่คุณต้องการเรียกว่าการถดถอยเชิงสลับ แนวคิดคือมีหลายเส้นการถดถอยและแต่ละจุดข้อมูลถูกกำหนดให้กับหนึ่งในนั้น ตัวอย่างเช่นสมการของเส้นการถดถอยครั้งแรกจะเป็น: สมการของเส้นการถดถอยจะเป็น: โดยรวมแล้วมีเส้นการถดถอยที่แตกต่างกันสำหรับจุดข้อมูลใด ๆ ที่กำหนดเราจะเห็นเฉพาะหนึ่งบรรทัดการถดถอย ดังนั้นจะต้องมีกลไกในการตัดสินใจว่าเราจะเห็นเส้นการถดถอยเส้นใดในแต่ละจุด กลไกที่ง่ายที่สุดคือการกระจายแบบหลายส่วน นั่นคือเราเห็น

\begin{aligned} Y_{i} & = α_{1} + β_{1} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_1 + \beta_1X_i + \epsilon_i \end{align}$

m^{t h}

$m^{th}$

\begin{aligned} Y_{i} & = α_{m} + β_{m} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_m + \beta_mX_i + \epsilon_i \end{align}$

M

$M$

m^{t h}

$m^{th}$ สายการถดถอยมีโอกาสที่ 1

p_{m}

$p_m$

\sum_{m} p_{m} = 1

$\sum_m p_m =1$

โมเดลมักจะถูกประเมินโดยความเป็นไปได้สูงสุด สมมติว่ามีการกระจาย , ฟังก์ชันความน่าจะเป็นที่คุณจะขยายให้ใหญ่สุดคือ: ฟังก์ชันคือความหนาแน่นปกติมาตรฐาน คุณเพิ่มสิ่งนี้ในพารามิเตอร์โดยขึ้นอยู่กับข้อ จำกัดp_mนี่เป็นปัญหาที่เกิดขึ้นได้ยากที่สุดหากคุณจะใช้วิธี quasi-Newton ในการแก้ปัญหา คุณไม่สามารถเริ่มและที่ศูนย์และ $\epsilon$ $N(0,\sigma^2)$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} p_{m} \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M p_m\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

ϕ

$\phi$

3 M + 1

$3M+1$

\sum_{m} p_{m} = 1, p_{m} \geq 0

$\sum_m p_m=1,\; p_m\ge0$

α

$\alpha$

β

$\beta$

p_{m}

$p_m$ ยกตัวอย่างเช่นที่คุณต้องให้ค่าเริ่มต้นที่แตกต่างกับและเพื่อให้อัลกอริทึมสามารถ "แยกพวกมันออกจากกัน"

\frac{1}{M}

$\frac{1}{M}$

α

$\alpha$

β

$\beta$

มีหลายวิธีที่จะทำให้มีส่วนร่วมมากขึ้นถ้าคุณต้องการ บางทีคุณอาจมีตัวแปรซึ่งคุณคิดว่ามีอิทธิพลต่อซึ่งเป็นอิทธิพลที่เลือกไว้สำหรับการถดถอย คุณสามารถใช้ฟังก์ชั่นโลจิคัลพหุนามเพื่อให้เป็นฟังก์ชันของ : $Z_i$ $p_m$ $p_m$ $Z_i$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} (\frac{e x p (δ_{m} + γ_{m} Z_{i})}{\sum_{m^{'}} e x p (δ_{m^{'}} + γ_{m^{'}} Z_{i})}) \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M \left(\frac{exp(\delta_m+\gamma_mZ_i)}{\sum_{m'} exp(\delta_{m'}+\gamma_{m'}Z_i)}\right)\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

ขณะนี้มีพารามิเตอร์ที่จริงแล้วมีพารามิเตอร์เพราะมีความต้องการการทำให้เป็นมาตรฐานสำหรับ --- อ่านได้จาก log multinomial สำหรับคำอธิบาย $5M+1$ $5M-1$ $\delta, \gamma$

อีกวิธีในการทำให้มีส่วนร่วมมากขึ้นคือการใช้วิธีการบางอย่างในการเลือกจำนวนเส้นการถดถอย ฉันค่อนข้างสบาย ๆ เกี่ยวกับตัวเลือกประเภทนี้ในงานของฉันเองดังนั้นบางทีคนอื่นอาจชี้ให้คุณเห็นวิธีที่ดีที่สุดในการเลือก $M$

— บิล
แหล่งที่มา

นี่อาจเป็นแบบอย่างที่เป็นธรรมชาติเมื่อมีระบอบการปกครองที่แตกต่างกันเล็กน้อยและเหตุผลที่เป็นอิสระบางประการสำหรับเหตุผลที่พวกเขามีอยู่ ที่นี่มีแถบเส้นทแยงมุมจำนวนมาก - และมันอาจจะเดาได้ว่าจะเห็นได้ชัดกว่าในระดับลอการิทึม - ว่าปัญหาของการเลือกนั้นสำคัญยิ่งสำหรับวิธีการนี้ไม่ใช่เหตุการณ์ที่เกิดขึ้น

M

$M$

— Nick Cox

ฉันสังเกตเห็นพฤติกรรมที่คล้ายคลึงกันในชุดข้อมูลบางชุดของฉัน ในกรณีของฉันบรรทัดที่แตกต่างกันหลายอันเกิดจากข้อผิดพลาดเชิงปริมาณในหนึ่งในอัลกอริทึมการประมวลผลของฉัน

นั่นคือเรากำลังดูแผนการกระจายข้อมูลที่ประมวลผลและอัลกอริทึมการประมวลผลมีผลกระทบเชิงปริมาณที่ทำให้เกิดการพึ่งพาในข้อมูลที่ดูเหมือนคุณอยู่ด้านบน

การแก้ไขผลกระทบเชิงปริมาณทำให้การส่งออกของเราดูราบรื่นและกระจุกน้อยลง

สำหรับความคิดเห็น "ความสัมพันธ์เชิงเส้น" ของคุณ สิ่งที่คุณนำเสนอไม่เพียงพอในการพิจารณาว่าข้อมูลนี้มีความสัมพันธ์เชิงเส้นหรือไม่ นั่นคือในบางสาขาค่าสัมประสิทธิ์สหสัมพันธ์ของ> 0.7 ถือว่าเป็นความสัมพันธ์เชิงเส้นที่แข็งแกร่ง เนื่องจากข้อมูลส่วนใหญ่ของคุณอยู่ใกล้จุดกำเนิดจึงค่อนข้างเป็นไปได้ที่ข้อมูลของคุณจะมีความสัมพันธ์เชิงเส้นสัมพันธ์กับสิ่งที่ "ภูมิปัญญาดั้งเดิม" พูด สหสัมพันธ์จะบอกคุณน้อยมากเกี่ยวกับชุดข้อมูล

— จอห์น
แหล่งที่มา