การวัดมาตรฐานของความเป็นก้อนหรือไม่?


13

ฉันมีข้อมูลจำนวนมากและฉันต้องการทำสิ่งที่ดูเหมือนง่ายมาก ในชุดข้อมูลขนาดใหญ่นี้ฉันสนใจว่าองค์ประกอบเฉพาะรวมตัวกันเป็นจำนวนเท่าใด สมมติว่าข้อมูลของฉันเป็นชุดที่ได้รับคำสั่งดังนี้: {A, C, B, D, A, Z, T, C ... } สมมติว่าฉันต้องการทราบว่ามีแนวโน้มที่จะพบว่าติดกับแต่ละอื่น ๆ ซึ่งตรงข้ามกับการกระจายแบบสุ่ม (หรือมากกว่าอย่างสม่ำเสมอ) ตลอดทั้งชุด นี่คือคุณสมบัติที่ฉันเรียกว่า "clumpiness"

ทีนี้มีการวัดง่ายๆของข้อมูล "clumpiness" หรือไม่? นั่นคือสถิติบางอย่างที่จะบอกฉันว่าห่างจากการกระจายแบบสุ่มเท่าไหร่? และถ้าไม่มีวิธีง่ายๆในการทำเช่นนี้สิ่งที่ยากจะเป็นอย่างไรประมาณ? คำแนะนำใด ๆ ชื่นชมอย่างมาก!

คำตอบ:


14

ตัวอย่างเช่นสมมติว่าคุณมีชุดคำสั่งที่แต่ละตำแหน่งมีความน่าจะเป็นเท่ากับการเป็นตัวอักษรตัวเล็กในตัวอักษร ในกรณีนี้ฉันจะทำให้ชุดที่สั่งซื้อมีองค์ประกอบรายการ1000

# generate a possible sequence of letters
s <- sample(x = letters, size = 1000, replace = TRUE)

แต่กลับกลายเป็นว่าถ้าแต่ละตำแหน่งของชุดสั่งดังต่อไปนี้การกระจายสม่ำเสมอทั่วอักษรตัวพิมพ์เล็กของตัวอักษรแล้วระยะห่างระหว่างสองเกิดขึ้นของตัวอักษรเดียวกันดังต่อไปนี้การกระจายเรขาคณิตกับพารามิเตอร์ 26 ในแง่ของข้อมูลนี้ลองคำนวณระยะห่างระหว่างการเกิดจดหมายติดต่อกันต่อเนื่องกันp=1/26

# find the distance between occurences of the same letters
d <- vector(mode = 'list', length = length(unique(letters)))
for(i in 1:length(unique(letters))) {
    d[[i]] <- diff(which(s == letters[i]))
}
d.flat <- unlist(x = d)

ลองดูฮิสโตแกรมของระยะทางระหว่างการเกิดขึ้นของตัวอักษรเดียวกันและเปรียบเทียบกับฟังก์ชันมวลความน่าจะเป็นที่เกี่ยวข้องกับการกระจายตัวทางเรขาคณิตที่กล่าวถึงข้างต้น

hist(x = d.flat, prob = TRUE, main = 'Histogram of Distances', xlab = 'Distance',
     ylab = 'Probability')
x <- range(d.flat)
x <- x[1]:x[2]
y <- dgeom(x = x - 1, prob = 1/26)
points(x = x, y = y, pch = '.', col = 'red', cex = 2)

จุดสีแดงแสดงถึงฟังก์ชันมวลความน่าจะเป็นจริงของระยะทางที่เราคาดหวังว่าแต่ละตำแหน่งของชุดคำสั่งจะตามด้วยการแจกแจงแบบสม่ำเสมอเหนือตัวอักษรและแท่งกราฟฮิสโตแกรมแสดงถึงฟังก์ชันมวลความน่าจะเป็นเชิงประจักษ์ของระยะทาง ชุด

ป้อนคำอธิบายรูปภาพที่นี่

หวังว่าภาพด้านบนจะทำให้เชื่อได้ว่าการกระจายตัวทางเรขาคณิตนั้นเหมาะสม

p=1/260

อย่างไรd.flatจากข้างต้นเมื่อเทียบกับการกระจายเรขาคณิตคาดว่าในแง่ของการ Bhattacharyya ระยะทาง?

b.dist <- 0
for(i in x) {
    b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i - 1,
              prob = 1/26))
}
b.dist <- -1 * log(x = b.dist)

0.0260

แก้ไข:

0.026010,000

gen.bhat <- function(set, size) {
    new.seq <- sample(x = set, size = size, replace = TRUE)
    d <- vector(mode = 'list', length = length(unique(set)))
    for(i in 1:length(unique(set))) {
        d[[i]] <- diff(which(new.seq == set[i]))
    }
    d.flat <- unlist(x = d)
    x <- range(d.flat)
    x <- x[1]:x[2]
    b.dist <- 0
    for(i in x) {
        b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i -1,
                  prob = 1/length(unique(set))))
    }
    b.dist <- -1 * log(x = b.dist)
    return(b.dist)
}
dist.bhat <- replicate(n = 10000, expr = gen.bhat(set = letters, size = 1000))

ตอนนี้เราอาจคำนวณความน่าจะเป็นของการสังเกตระยะทาง Bhattacharyya ที่สังเกตไว้ข้างต้นหรืออีกหนึ่งจุดสุดยอดหากชุดที่ได้รับคำสั่งถูกสร้างขึ้นในลักษณะที่แต่ละตำแหน่งของมันตามการกระจายตัวแบบสม่ำเสมอ

p <- ifelse(b.dist <= mean(dist.bhat), sum(dist.bhat <= b.dist) / length(dist.bhat),
            sum(dist.bhat > b.dist) / length(dist.bhat))

0.38

0999

ป้อนคำอธิบายรูปภาพที่นี่


ดูเหมือนว่าคุณจะคิดในตอนแรกว่าการกระจายตัวอักษรนั้นมีหลายค่าพร้อมความน่าจะเป็นที่เท่ากันสำหรับแต่ละตัวอักษร เกิดอะไรขึ้นถ้าการกระจายตัวของความน่าจะเป็นที่ไม่เท่ากันสำหรับตัวอักษรคืออะไร? - การกระจายตัวของระยะทางที่คาดหวังระหว่างตัวอักษรแต่ละตัวจะเป็นเรขาคณิตหรือไม่ และด้วยพารามิเตอร์อะไร
ttnphns

ด้วยความน่าจะเป็นที่ไม่เท่ากันสำหรับตัวอักษรแต่ละตัวระยะห่างระหว่างการเกิดขึ้นของตัวอักษรแต่ละตัวยังคงเป็นรูปทรงเรขาคณิต อย่างไรก็ตามพารามิเตอร์จะแตกต่างกันไปตามตัวอักษรและสำหรับแต่ละตัวอักษรนั้นจะเท่ากับความน่าจะเป็นของตำแหน่งในชุดที่สั่งซื้อซึ่งมีตัวอักษรนั้น
สันนิษฐานว่าปกติ

1
ฉันชอบแนวทางของคุณ จะเป็นจริงหรือไม่ที่จะสมมติว่าจำนวนตัวอักษรแต่ละตัวได้รับการแก้ไขและการเรียงลำดับนั้นเหมือนกันในการสั่งซื้อที่เป็นไปได้ทั้งหมดหรือไม่ โชคไม่ดีฉันไม่รู้ว่าการกระจายตัวคืออะไรในกรณีนี้ ความคิดใด ๆ
gui11aume

@ gui11aume นั่นเป็นความคิดที่น่าสนใจ คุณหมายถึงวิธีการทดสอบการเปลี่ยนรูปแบบที่เราเปลี่ยนชุดคำสั่งที่สังเกตได้หลายครั้งและดูว่าชุดเรียงลำดับดั้งเดิมนั้นมีความคล้ายคลึงกับการเรียงสับเปลี่ยนโดยใช้สถิติบ้างไหม?
สันนิษฐานว่าปกติ

ใช่นั่นคือสิ่งที่ฉันมีอยู่ในใจ จากนั้นคุณสามารถใช้ระยะทาง Bhattacharyya หรือ Kullback-Leibler divergence เพื่อวัดการออกจากการผสมแบบเต็ม
gui11aume

7

สิ่งที่คุณกำลังอธิบายได้รับการประมวลผลเป็นกระบวนการที่เรียกว่าการทดสอบการทำงาน มันไม่ซับซ้อนที่จะโท คุณสามารถค้นหาได้จากหลายแหล่งในการทดสอบทางสถิติเช่นวิกิพีเดียหรือสถาบัน Nat'l มาตรฐานและเทคโนโลยีหรือYouTube


+1 @Alan การทดสอบรันเรียกอีกอย่างว่าการทดสอบ Wald – Wolfowitz - เพื่อให้คุณรู้
ttnphns

ปัญหาเกี่ยวกับการทดสอบการทำงานคือว่ามันเป็นเพียงสำหรับข้อมูลแบบแบ่งขั้วหรือแบบแยกขั้ว
ttnphns

0

หากคุณสนใจในมุมมองที่แตกต่างกันเล็กน้อยเกี่ยวกับเรื่องนี้คุณอาจต้องการดูไพรเมอร์เกี่ยวกับทฤษฎีสารสนเทศ - พื้นที่ของคณิตศาสตร์ที่น่าสนใจในการคำนวณการประมวลผลภาพ / วิดีโอ / เสียงทฤษฎีการสื่อสารและฟิสิกส์ (อาจน่าแปลกใจ) จักรวาลวิทยา (มีความสำคัญอย่างยิ่งต่อการทำความเข้าใจกับหลุมดำเช่นเดียวกับอุณหพลศาสตร์คลาสสิก) และแม้กระทั่งชีววิทยา

เราสามารถพูดได้ว่าลำดับตัวอักษร "clumpier" (ตามตัวอย่างของคุณ) จะถูกบีบอัดอย่างหนาแน่นมากขึ้นเมื่ออยู่ภายใต้อัลกอริทึมการบีบอัดวัตถุประสงค์ทั่วไป - เช่นไฟล์ซิปที่มีข้อความดิบจะมีขนาดเล็กลง ในทำนองเดียวกันภาพ "clumpy" (พูดของลูกบอลบิลเลียดสองสามลูกบน baize สีเขียวธรรมดา) จะบีบอัดได้อย่างมีประสิทธิภาพมากขึ้นเช่นสร้างไฟล์ jpeg ขนาดเล็กกว่าภาพที่หลากหลายมากขึ้น (เช่นรูปภาพของกลุ่มคน ) แน่นอนว่าเนื้อหาข้อมูล (หรือที่เรียกว่าเอนโทรปีเชิงลบหรือ "ลบ") ของข้อมูลดังกล่าวมีคำจำกัดความที่เป็นทางการต่างๆโดยไม่ขึ้นอยู่กับอัลกอริธึมการบีบอัดเฉพาะ

ตัวอย่างหนึ่งของกรณีที่การวัดเชิงสารสนเทศอาจเปิดเผยได้มากกว่าการวิเคราะห์ทางสถิติแบบดั้งเดิมที่กล่าวมาข้างต้นคือหากคุณสนใจที่จะระบุ "clumpiness" ในการแก้ปัญหาหลายระดับ (หรือทั้งหมด) ในตัวอย่างของสตริงข้อความของคุณหากมี "A" จำนวนมากรวมตัวกันที่จุดเริ่มต้นของลำดับแล้วไม่มีการรวมกลุ่มของ "A" จำนวนมากและจากนั้นจะทำการรวมกลุ่มมากขึ้นและการรวมกลุ่มน้อยลงตามลำดับต่อไป ความเป็นก้อนอาจกล่าวได้ว่ามีอยู่ในหลาย ๆ มติ - บางสิ่งบางอย่างที่สามารถถูกจับได้อย่างเป็นธรรมชาติมากโดยมาตรการทางทฤษฎีข้อมูล

(แก้ไข) มันเกิดขึ้นกับฉันว่าความกังวลของคุณว่านี่อาจเป็นคำถามที่ไร้สาระเมื่อในความเป็นจริงการศึกษาของ "clumpiness" - ในหน้ากากของข้อมูลและ (neg) เอนโทรปี - แจ้งเราเกี่ยวกับการดำเนินชีวิตประจำวันของชีวิตสมัยใหม่ (อินเทอร์เน็ตการสื่อสารผ่านมือถือภาษาเอง) และธรรมชาติของจักรวาล (หลุมดำการก่อตัวกาแลคซีการตีความรังสีพื้นหลังของจักรวาลการกำหนดว่า "ชีวิต" คืออะไร) ควรตอบด้วยสุภาษิตว่า "ไม่มีคำถามโง่ ๆ เพียงคำตอบที่โง่ "[ใบเสนอราคาที่ไม่ได้รวบรวม]

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.