คุณจะบอกได้อย่างไรว่าการแสดงที่ดีเข้ามามีส่วนร่วม?


10

ฉันไขลูกบาศก์รูบิคเป็นงานอดิเรก ฉันบันทึกเวลาที่ใช้ในการแก้ไขคิวบ์โดยใช้ซอฟต์แวร์บางตัวและตอนนี้ฉันมีข้อมูลจากตัวแก้นับพัน ข้อมูลนั้นเป็นรายการหมายเลขยาวที่แสดงถึงเวลาที่แต่ละการแก้ปัญหาตามลำดับใช้ (เช่น 22.11, 20.66, 21.00, 18.74, ... )

เวลาที่ฉันต้องใช้เพื่อแก้ปัญหาลูกบาศก์ตามธรรมชาติแตกต่างกันบ้างเล็กน้อยจากการแก้เพื่อแก้ดังนั้นจึงมีการแก้ปัญหาที่ดีและการแก้ปัญหาที่ไม่ดี

ฉันต้องการรู้ว่าฉัน "ร้อน" หรือไม่ - การแก้ปัญหาที่ดีมาในแนว ตัวอย่างเช่นหากฉันเพิ่งมีวิธีแก้ปัญหาที่ดีติดต่อกันสองสามครั้งมีแนวโน้มว่าวิธีแก้ปัญหาต่อไปของฉันจะดีหรือไม่

การวิเคราะห์แบบใดที่จะเหมาะสม ฉันสามารถนึกถึงบางสิ่งที่ต้องทำเช่นรักษาตัวเป็นกระบวนการมาร์คอฟและเห็นว่าวิธีใดวิธีหนึ่งที่ดีที่สุดในการทำนายการทำนายถัดไปและเปรียบเทียบกับข้อมูลแบบสุ่ม 100 เป็นและเปรียบเทียบกับสิ่งที่คาดหวังในข้อมูลแบบสุ่ม ฯลฯ ฉันไม่แน่ใจว่าการทดสอบเหล่านี้จะลึกซึ้งแค่ไหนและสงสัยว่ามีวิธีการที่ได้รับการพัฒนามาอย่างดีสำหรับปัญหาประเภทนี้หรือไม่

คำตอบ:


8

Wald-Wolfowitz วิ่งทดสอบดูเหมือนว่าจะเป็นผู้สมัครที่เป็นไปได้ที่ "รัน" คือสิ่งที่คุณเรียกว่า "แนว" มันต้องใช้ข้อมูลแบบแยกส่วนดังนั้นคุณต้องติดป้ายกำกับการแก้ปัญหาแต่ละรายการว่า "ไม่ดี" กับ "ดี" ตามเกณฑ์บางอย่างเช่นเวลาเฉลี่ยตามที่คุณแนะนำ สมมุติฐานว่างคือว่า "ดี" และ "ไม่ดี" จะแก้ทางเลือกแบบสุ่ม สมมติฐานทางเลือกด้านเดียวที่สอดคล้องกับสัญชาตญาณของคุณก็คือ "ดี" แก้ปัญหากลุ่มรวมกันในแนวยาวหมายความว่ามีการรันน้อยกว่าที่คาดไว้ด้วยข้อมูลแบบสุ่ม สถิติการทดสอบคือจำนวนครั้งการรัน ใน R:

> N      <- 200                          # number of solves
> DV     <- round(runif(N, 15, 30), 1)   # simulate some uniform data
> thresh <- median(DV)                   # threshold for binary classification

# do the binary classification
> DVfac <- cut(DV, breaks=c(-Inf, thresh, Inf), labels=c("good", "bad"))
> Nj    <- table(DVfac)                  # number of "good" and "bad" solves
> n1    <- Nj[1]                         # number of "good" solves
> n2    <- Nj[2]                         # number of "bad" solves
> (runs <- rle(as.character(DVfac)))     # analysis of runs
Run Length Encoding
lengths: int [1:92] 2 1 2 4 1 4 3 4 2 5 ...
values : chr [1:92] "bad" "good" "bad" "good" "bad" "good" "bad" ...

> (nRuns <- length(runs$lengths))        # test statistic: observed number of runs
[1] 92

# theoretical maximum of runs for given n1, n2
> (rMax <- ifelse(n1 == n2, N, 2*min(n1, n2) + 1))
199 

เมื่อคุณมีข้อสังเกตเพียงเล็กน้อยคุณสามารถคำนวณความน่าจะเป็นที่แน่นอนสำหรับการวิ่งแต่ละครั้งภายใต้สมมติฐานว่าง มิฉะนั้นการกระจายของ "จำนวนวิ่ง" สามารถประมาณโดยการกระจายปกติมาตรฐาน

> (muR  <- 1 + ((2*n1*n2) / N))                     # expected value
100.99 

> varR  <- (2*n1*n2*(2*n1*n2 - N)) / (N^2 * (N-1))  # theoretical variance
> rZ    <- (nRuns-muR) / sqrt(varR)                 # z-score
> (pVal <- pnorm(rZ, mean=0, sd=1))                 # one-sided p-value
0.1012055

p-value ใช้สำหรับสมมุติฐานทางเลือกด้านเดียวซึ่งการแก้ปัญหาที่ "ดี" เข้ามามีลักษณะเป็นเส้นตรง


3
คำตอบที่ดี อย่างไรก็ตามฉันลังเลที่จะแปลงตัวแปรต่อเนื่องให้เป็นไบนารี ความแปรปรวนที่มีความหมายมากมายจะหายไป
Jeromy Anglim

@jeromy - นี่เป็นจุดที่ดีโดยทั่วไป แต่ดูเหมือนว่าสำหรับคำถามเฉพาะนี้การกินเจไม่ได้ทิ้งข้อมูลมากนักโดยเฉพาะอย่างยิ่ง "ดี" และ "ไม่ดี" นั้นถูกกำหนดให้เป็นขั้วคู่ในคำถามไม่ใช่เป็น ต่อเนื่อง
ความน่าจะเป็นที่เป็นไปได้

@probabilityislogic ฉันเข้าใจว่า @mark อาจมีเวลาดำเนินการแก้ปัญหาเป็น "ดี" หรือ "ไม่ดี" โดยขึ้นอยู่กับขีด จำกัด ด้านเวลาของโซลูชัน อย่างไรก็ตามไม่ว่าจะตั้งอยู่ที่ใด หากเกณฑ์เป็น 5 นาทีแน่นอน 5 นาทีและ 1 วินาทีจะไม่แตกต่างกันมากจาก 4 นาทีและ 59 วินาทีใน "ดี" ฉันจินตนาการว่า "ดี" และ "ไม่ดี" เป็นหมวดหมู่ฟัซซี่ที่เกี่ยวข้องกับเวลาที่เสร็จสมบูรณ์อย่างต่อเนื่อง
Jeromy Anglim

แต่คำจำกัดความของ "ดี" และ "ไม่ดี" นั้นเป็นเรื่องที่ไม่มีเหตุผล - เนื่องจากลักษณะสัมพัทธ์ของคำเหล่านั้น ไม่ว่าคุณจะให้ "ข้อมูล" แก้ไขความกำกวมหรือไม่ว่าคุณจะแก้ไขด้วยตัวคุณเองก็ตามอย่าทำให้มันคลุมเครือมากไปหรือน้อยไป และอาจเป็นไปได้ว่ามีการรับประกันความแตกต่างที่คมชัดดังกล่าว - หากคุณต้องการน้อยกว่า 5 นาทีจึงจะมีสิทธิ์ได้รับรอบชิงชนะเลิศในการแข่งขัน ฉันแน่ใจว่าผู้พิพากษาจะไม่ได้รับอิทธิพลจากการเรียงลำดับ "แต่มันเป็นเวลาเพียง 2 วินาทีนอกเวลาที่กำหนด"
ความน่าจะเป็นเชิง

5

ความคิดเล็กน้อย:

  • วางแผนการกระจายของเวลา ฉันเดาว่าพวกเขาจะเอียงในทางบวกเช่นเวลาการแก้ปัญหาบางอย่างช้าจริง ๆ ในกรณีนี้คุณอาจต้องการพิจารณาบันทึกหรือการแปลงเวลาอื่น ๆ ของการแก้ปัญหา

  • สร้างพล็อตการกระจายของการทดลองบนแกน x และเวลาโซลูชัน (หรือเวลาบันทึกโซลูชันบนแกน y) สิ่งนี้จะช่วยให้คุณเข้าใจข้อมูลได้ง่ายขึ้น นอกจากนี้ยังอาจเปิดเผยแนวโน้มอื่น ๆ นอกเหนือจาก "แนวร้อน"

  • พิจารณาว่าจะมีผลการเรียนรู้เมื่อเวลาผ่านไปหรือไม่ ด้วยปริศนาส่วนใหญ่คุณจะได้ฝึกฝนเร็วขึ้น เนื้อเรื่องควรช่วยเปิดเผยว่าเป็นกรณีนี้หรือไม่ ผลกระทบดังกล่าวแตกต่างจากเอฟเฟกต์ "แนวร้อน" มันจะนำไปสู่ความสัมพันธ์ระหว่างการทดลองเพราะเมื่อคุณเรียนรู้ครั้งแรกการทดลองช้าจะเกิดขึ้นร่วมกับการทดลองช้าอื่น ๆ และเมื่อคุณได้รับประสบการณ์มากขึ้นการทดลองเร็วขึ้นจะเกิดขึ้นกับการทดลองเร็วขึ้น

  • พิจารณาคำจำกัดความของแนวคิดของ "เส้นร้อน" ตัวอย่างเช่นใช้กับการทดลองที่ใกล้เคียงเวลาหรือใกล้เคียงกับการสั่งซื้อเท่านั้น สมมติว่าคุณแก้ไขคิวบ์ได้อย่างรวดเร็วในวันอังคารจากนั้นหยุดพักและในวันศุกร์ถัดไปคุณจะแก้ไขได้อย่างรวดเร็ว นี่เป็นช่วงที่ร้อนแรงหรือจะนับเฉพาะเมื่อคุณทำในวันเดียวกันเท่านั้น

  • มีเอฟเฟกต์อื่น ๆ ที่อาจแตกต่างจากเอฟเฟกต์แนวร้อนหรือไม่? เช่นเวลาของวันที่คุณไขปริศนา (เช่นความเหนื่อยล้า) ระดับที่คุณกำลังพยายามอย่างหนักจริงหรือ เป็นต้น

  • เมื่อเข้าใจถึงผลกระทบที่เป็นระบบทางเลือกแล้วคุณสามารถพัฒนาแบบจำลองที่รวมเอามากที่สุดเท่าที่จะทำได้ คุณสามารถเขียนส่วนที่เหลือบนแกน y และทดลองบนแกน x จากนั้นคุณจะเห็นว่ามีความสัมพันธ์อัตโนมัติในส่วนที่เหลือในโมเดลหรือไม่ ความสัมพันธ์อัตโนมัตินี้จะให้หลักฐานบางอย่างของลายเส้นร้อน อย่างไรก็ตามการตีความทางเลือกคือการมีผลอย่างเป็นระบบอื่น ๆ ที่คุณไม่ได้ยกเว้น


+1 สำหรับส่วนที่เป็นระบบ ฉันคิดว่าในกรณีนี้มันเป็นคำอธิบายที่ดีที่สุดเกี่ยวกับความหลากหลายของประสิทธิภาพ
mpiktas

2
อาจต้องการดูว่านักวิจัยตรวจสอบคำถามนี้อย่างไร คลาสสิกคือ Gilovich, T. , Vallone, R. & Tversky, A. , มือที่ร้อนแรงในบาสเก็ตบอล: ในการเข้าใจผิดของการสุ่มลำดับ จิตวิทยาพุทธิปัญญา 17, 295-314 (1985)
dmk38

2

คำนวณcorrelogramสำหรับกระบวนการของคุณ หากกระบวนการของคุณเป็น gaussian (โดยดูจากตัวอย่างของคุณเป็น) คุณสามารถสร้างขอบเขตล่าง / บน (B) และตรวจสอบว่าสหสัมพันธ์ที่กำหนดล่าช้ามีความสำคัญหรือไม่ ความสัมพันธ์เชิงบวกอัตโนมัติที่ความล่าช้า 1 จะบ่งบอกถึงการมีอยู่ของ "ริ้วแห่งโชค"


2
ความสัมพันธ์เชิงบวกอัตโนมัติยังสามารถเกิดขึ้นจากผลที่เป็นระบบอื่น ๆ เช่นกระบวนการเรียนรู้ ฉันคิดว่ามันสำคัญที่จะต้องลบเอฟเฟกต์ออกก่อนที่จะตีความความสัมพันธ์อัตโนมัติเป็นหลักฐานของ "แนวร้อน"
Jeromy Anglim
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.