ค่าเบี่ยงเบนมาตรฐานของการวัดหลายครั้งพร้อมความไม่แน่นอน


13

ฉันมีข้อมูล GPS สองชั่วโมงสองชั่วโมงด้วยอัตราการสุ่มตัวอย่าง 1 Hz (การวัด 7200) ข้อมูลจะได้รับในรูปแบบโดยที่คือความไม่แน่นอนในการวัด(X,Xσ,Y,Yσ,Z,Zσ)Nσ

เมื่อฉันใช้ค่าเฉลี่ยของการวัดทั้งหมด (เช่นค่า Z เฉลี่ยของสองชั่วโมงนั้น) ค่าเบี่ยงเบนมาตรฐานคืออะไร? แน่นอนว่าฉันสามารถคำนวณค่าเบี่ยงเบนมาตรฐานจากค่า Z ได้ แต่จากนั้นฉันก็เพิกเฉยต่อความจริงที่ว่ามีความไม่แน่นอนในการวัดที่รู้จัก ...

แก้ไข: ข้อมูลทั้งหมดมาจากสถานีเดียวกันและพิกัดทั้งหมดจะถูกคำนวณใหม่ทุกวินาที เนื่องจากกลุ่มดาวบริวาร ฯลฯ ทุกการวัดมีความไม่แน่นอนที่แตกต่างกัน จุดประสงค์ของการวิเคราะห์ของฉันคือการค้นหาการกระจัดเนื่องจากเหตุการณ์ภายนอก (เช่นแผ่นดินไหว) ฉันต้องการที่จะใช้ค่าเฉลี่ยสำหรับการวัด 7200 (2h) ก่อนเกิดแผ่นดินไหวและค่าเฉลี่ยอีก 2h หลังจากเกิดแผ่นดินไหวจากนั้นคำนวณความแตกต่างที่เกิดขึ้น (เช่นความสูง) ในการระบุค่าเบี่ยงเบนมาตรฐานของความแตกต่างนี้ฉันต้องรู้ค่าเบี่ยงเบนมาตรฐานของทั้งสองค่านี้


3
คำถามที่ดี. ที่สำคัญยิ่งกว่านั้นข้อมูลจะมีความสัมพันธ์เชิงบวกอย่างมากเมื่อเวลาผ่านไปซึ่งจะมีผลอย่างลึกซึ้งต่อคำตอบมากกว่าความผันแปรของความไม่แน่นอนในการวัด
whuber

การรับฟังความเห็นของ whuber และคำตอบของ Deathkill14 นั้นคุณไม่ได้ให้ข้อมูลเพียงพอที่เราจะตอบได้อย่างถูกต้อง สิ่งสำคัญคือต้องทราบว่าข้อผิดพลาดในการวัดอย่างไร ตัวอย่างเช่นหากข้อผิดพลาดในการวัดเป็นบวกที่ 3 วินาทีมันมีแนวโน้มที่จะเป็นบวกมากกว่าหรือน้อยกว่าที่ 4 วินาที --- นั่นคือมีความสัมพันธ์แบบอนุกรมหรือไม่ ประการที่สองหากความผิดพลาดในเป็นบวกที่ 3 วินาทีมันมีโอกาสมากขึ้นที่ข้อผิดพลาดในและ / หรือจะเป็นบวกที่ 3 วินาทีหรือไม่ ใน 2 วินาที ใน 4 วินาที X,Y,ZXXYZ
Bill

ที่เกี่ยวข้องกับคำถามที่แตกต่างกันเล็กน้อยคือข้อผิดพลาดการวัดเป็นระบบอย่างไร สมมติว่าผมพูดว่า "ใช่วัดสูงเล็กน้อยบนสนามหญ้าหน้าบ้านฉัน. จะมักจะวัดสูงเล็กน้อยบนสนามหญ้าหน้าบ้านของฉัน." นั่นเป็นคำพูดที่บ้าเหรอ? ข้อผิดพลาดในการวัดทำงานในลักษณะที่สถานที่ใดสถานที่หนึ่งอาจจะสูงเกินไปในขณะที่สถานที่อื่นอาจจะต่ำเกินไป ฯลฯ "หรือข้อผิดพลาดทั้งหมดชั่วคราวหรือไม่XX
Bill

@ บิล: มีความสัมพันธ์แบบอนุกรมแน่นอน ข้อผิดพลาดการวัดค่อนข้างคงที่ตลอดสองชั่วโมง อย่างไรก็ตามพวกเขามักจะมีขนาดใหญ่กว่าค่าเบี่ยงเบนมาตรฐานที่คำนวณจากข้อมูลซึ่งทำให้ฉันมีคำถามนี้
traindriver

คำถามของคุณยังไม่ชัดเจนว่าการดำรงอยู่ของความสัมพันธ์แบบอนุกรม น่าเสียดายที่คุณมีคำตอบที่สร้างขึ้นอย่างรอบคอบสามคำโดยไม่เป็นประโยชน์กับคุณเท่าที่ควร
Glen_b

คำตอบ:


7

ฉันสงสัยว่าคำตอบก่อนหน้าสำหรับคำถามนี้อาจเป็นเครื่องหมายเล็กน้อย มันดูเหมือนว่าฉันว่าสิ่งที่โปสเตอร์ต้นฉบับจริงๆขอนี่อาจจะซักค้านว่า "ได้รับชุดของการวัดเวกเตอร์: กับฉัน= 1 , 2 , 3 , . . , 7200และความแปรปรวนร่วมของการวัด: C i = ( X 2 σ , i 0 0 0 Y

θi=(XiYiZi)
i=1,2,3,...,7200ว่าฉันจะถูกต้องคำนวณค่าเฉลี่ยความแปรปรวน-ถ่วงน้ำหนักสำหรับชุดของการวัดเวกเตอร์นี้และหลังจากนั้นวิธีการที่ฉันจะได้อย่างถูกต้องคำนวณค่าเบี่ยงเบนมาตรฐานของตนหรือไม่" คำตอบสำหรับคำถามนี้สามารถ พบในตำราเรียนจำนวนมากที่เชี่ยวชาญด้านสถิติสำหรับวิทยาศาสตร์กายภาพตัวอย่างหนึ่งที่ฉันชอบเป็นพิเศษคือเฟรดเดอริกเจมส์"วิธีการทางสถิติในการทดลองฟิสิกส์"
Ci=(Xσ,i2000Yσ,i2000Zσ,i2)
ฉบับที่ 2 โลกวิทยาศาสตร์ 2006 ส่วนที่ 11.5.2 "การรวมการประมาณการแบบอิสระ", หน้า 323-324 อีกข้อความที่ดีมาก แต่เบื้องต้นมากขึ้นซึ่งอธิบายถึงการคำนวณค่าความแปรปรวนแบบถ่วงน้ำหนักสำหรับค่าสเกลาร์ (เมื่อเทียบกับปริมาณเวกเตอร์แบบเต็มตามที่แสดงด้านบน) คือ Philip R. Bevington และ D. Keith Robinson "การวิเคราะห์ข้อมูลและการวิเคราะห์ข้อผิดพลาด สำหรับวิทยาศาสตร์กายภาพ " , รุ่นที่ 3, McGraw-Hill, 2003, ส่วน 4.1.x," การถ่วงน้ำหนักข้อมูล - ความไม่แน่นอนของ nonuniform " เพราะคำถามของโปสเตอร์นั้นเกิดขึ้นในแนวทแยงมุมเมทริกซ์ความแปรปรวนร่วมในกรณีนี้ (กล่าวคือองค์ประกอบนอกแนวทแยงทั้งหมดมีค่าเป็นศูนย์) ปัญหานี้แบ่งได้เป็นสามบุคคล (เช่น X, Y, Z) ปัญหาเซนต์คิตส์และเนวิสถ่วงน้ำหนักดังนั้นการวิเคราะห์ Bevington และ Robinson ที่นี่ด้วย

N=7200

θmean=(i=1NCi1)1(i=1NCi1θi)
Cmean=(i=1NCi1)1
Ci

XiYiZi

Xmean=i=1NXiXσ,i2i=1N1Xσ,i2
Xσ,mean2=1i=1N1Xσ,i2
Xσ,mean=1i=1N1Xσ,i2
Ymean,Yσ,meanZmean,Zσ,mean

บางทีฉันอาจจะไม่ค่อยชัดเจนดังนั้นฉันจึงได้เพิ่มข้อมูลเพิ่มเติม ฉันไม่คิดว่าฉันต้องชั่งน้ำหนักการวัดของฉัน
traindriver

1
ใช่คุณทำ ลองพิจารณากรณีสุดขั้วเช่นเดียวกับการทดลองทางความคิด: สมมติว่าคุณมีการวัด GPS เพียง 2 ครั้งแทนที่จะเป็น 7200 สมมติว่ายิ่งการวัด GPS ตัวใดตัวหนึ่งมีความไม่แน่นอน +/- 5 ฟุตในขณะที่อีกอันมีความไม่แน่นอน + / - 5 ไมล์. ตัวเลขความไม่แน่นอนนั้นบอกคุณได้อย่างแม่นยำว่าการวัดนั้นเป็นอย่างไร นั่นหมายความว่าค่า +/- 5 ไมล์มีแนวโน้มว่าจะลดลงหลายไมล์เป็นอย่างน้อย คุณต้องการรวมหมายเลขนี้ในค่าเฉลี่ยของคุณด้วยวิธีที่มีความหมายหรือไม่? การหาค่าเฉลี่ยแบบถ่วงน้ำหนักช่วยให้คุณสามารถลดค่าที่ไม่น่าเชื่อถือเท่าที่ควร
stachyra

1
BTW คำตอบของฉันมีสิ่งอื่นเกิดขึ้น: ในโพสต์ต้นฉบับของคุณคุณพูดถึงเหตุผลที่คุณไม่ต้องการเพียงแค่ใช้ค่าเบี่ยงเบนมาตรฐานตัวอย่างซึ่งคำนวณโดยตรงจากค่า Z นั่นคือในกรณีนั้นคุณต้องการ ในคำพูดของคุณเอง "ละเลยข้อเท็จจริงที่ว่ามีความไม่แน่นอนในการวัดที่รู้จัก" คำตอบของฉัน (ดีจริง ๆ คำตอบตำราเรียนที่คลุมเครือซึ่งฉันแค่แบ่งปันกับคุณ) ใช้ความไม่แน่นอนของการวัดที่เป็นที่รู้จักตามที่คุณขอ เป็นเพียงการใช้ข้อมูลในสถานที่มากขึ้น (หมายถึงผลลัพธ์รวมถึงส่วนเบี่ยงเบนมาตรฐาน) กว่าที่คุณคาดไว้
stachyra

คุณทำให้ฉันเชื่อ
traindriver

6

ควรแก้ไขได้อย่างง่ายดายโดยใช้การอนุมานแบบเบย์ คุณรู้คุณสมบัติการวัดของแต่ละจุดด้วยความเคารพในคุณค่าที่แท้จริงของพวกเขาและต้องการสรุปค่าเฉลี่ยประชากรและ SD ที่สร้างค่าที่แท้จริง นี่คือรูปแบบลำดับชั้น

รื้อฟื้นปัญหา (พื้นฐานเบย์)

โปรดทราบว่าในขณะที่สถิติของออร์โธดอกซ์นั้นให้ค่าเฉลี่ยเดียวกับคุณในกรอบการทำงานแบบเบย์คุณจะได้รับการแจกแจงค่าความน่าเชื่อถือของค่าเฉลี่ย เช่นการสังเกต (1, 2, 3) กับ SDs (2, 2, 3) อาจถูกสร้างขึ้นโดยการประมาณความน่าจะเป็นสูงสุดที่ 2 แต่ยังหมายถึง 2.1 หรือ 1.8 แต่มีโอกาสน้อยกว่าเล็กน้อย (ให้ข้อมูล) MLE ดังนั้นนอกเหนือไปจาก SD ที่เรายังสรุปค่าเฉลี่ย

ความแตกต่างทางแนวคิดอีกอย่างหนึ่งคือคุณต้องกำหนดสถานะความรู้ของคุณก่อนทำการสังเกต เราเรียกนักบวชคนนี้ คุณอาจทราบล่วงหน้าว่ามีการสแกนบางพื้นที่และอยู่ในช่วงความสูง การขาดความรู้อย่างสมบูรณ์จะต้องมีองศา (-90, 90) เหมือนก่อนใน X และ Y และอาจสูง (0, 10,000) เมตรในระดับความสูง (เหนือมหาสมุทร, ใต้จุดสูงสุดของโลก) คุณต้องกำหนดแจกแจงไพรเออร์สำหรับพารามิเตอร์ทุกสิ่งที่คุณต้องการที่จะประเมินคือได้รับหลังการกระจายสำหรับ นี่เป็นความจริงสำหรับค่าเบี่ยงเบนมาตรฐานเช่นกัน

ดังนั้นการกล่าวถึงปัญหาของคุณใหม่ฉันคิดว่าคุณต้องการอนุมานค่าที่น่าเชื่อถือสำหรับสามวิธี (X.mean, Y.mean, X.mean) และสามส่วนเบี่ยงเบนมาตรฐาน (X.sd, Y.sd, X.sd) ซึ่งอาจมี สร้างข้อมูลของคุณแล้ว

นางแบบ

ใช้ไวยากรณ์ BUGS มาตรฐาน (ใช้ WinBUGS, OpenBUGS, JAGS, stan หรือแพ็คเกจอื่น ๆ เพื่อเรียกใช้งานนี้) โมเดลของคุณจะมีลักษณะดังนี้:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

โดยปกติคุณจะตรวจสอบพารามิเตอร์. mean และ. sd และใช้ posteriors ของพวกเขาสำหรับการอนุมาน

การจำลอง

ฉันจำลองข้อมูลบางอย่างเช่นนี้:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

จากนั้นเรียกใช้โมเดลโดยใช้ JAGS สำหรับการทำซ้ำ 2,000 ครั้งหลังจากการเผาไหม้ 500 ครั้ง นี่คือผลลัพธ์สำหรับ X.sd

ด้านหลังสำหรับ X.sd

ช่วงสีน้ำเงินแสดงถึงความหนาแน่นหลังสูงสุดหรือช่วงความน่าเชื่อถือ 95% (ซึ่งคุณเชื่อว่าพารามิเตอร์นั้นหลังจากตรวจสอบข้อมูลแล้วสังเกตว่าช่วงความเชื่อมั่นของออร์โธดอกซ์ไม่ได้ให้สิ่งนี้กับคุณ)

เส้นแนวตั้งสีแดงคือการประมาณ MLE ของข้อมูลดิบ โดยทั่วไปแล้วเป็นกรณีที่พารามิเตอร์ที่เป็นไปได้มากที่สุดในการประมาณค่าแบบเบย์ก็เป็นพารามิเตอร์ที่มีแนวโน้มมากที่สุด แต่คุณไม่ควรสนใจมากเกินไปเกี่ยวกับด้านบนของหลัง ค่าเฉลี่ยหรือค่ามัธยฐานจะดีกว่าหากคุณต้องการต้มลงไปเป็นตัวเลขเดียว

ขอให้สังเกตว่า MLE / top ไม่ได้อยู่ที่ 5 เพราะข้อมูลถูกสร้างแบบสุ่มไม่ใช่เพราะสถิติผิด

Limitiations

นี่เป็นแบบง่าย ๆ ที่มีข้อบกพร่องหลายอย่างในขณะนี้

  1. มันไม่ได้จัดการตัวตนของ -90 และ 90 องศา อย่างไรก็ตามสิ่งนี้สามารถทำได้โดยการสร้างตัวแปรกลางซึ่งเปลี่ยนค่ามากที่สุดของพารามิเตอร์ที่ประมาณไว้ในช่วง (-90, 90)
  2. ปัจจุบัน X, Y และ Z มีรูปแบบที่เป็นอิสระแม้ว่าอาจจะมีความสัมพันธ์กันและสิ่งนี้ควรนำมาพิจารณาเพื่อให้ได้ประโยชน์สูงสุดจากข้อมูล มันขึ้นอยู่กับว่าอุปกรณ์การวัดนั้นเคลื่อนที่หรือไม่ (ความสัมพันธ์แบบอนุกรมและการกระจายข้อต่อของ X, Y และ Z จะให้ข้อมูลมากมาย) หรือหยุดนิ่ง (ความเป็นอิสระก็โอเค) ฉันสามารถขยายคำตอบเพื่อเข้าใกล้สิ่งนี้หากมีการร้องขอ

ฉันควรพูดถึงว่ามีวรรณคดีมากมายเกี่ยวกับแบบจำลอง Bayesian เชิงพื้นที่ซึ่งฉันไม่รู้เกี่ยวกับ


ขอบคุณสำหรับคำตอบนี้ มันเป็นข้อมูลจากสถานีที่ตายตัว แต่สิ่งนี้บอกเป็นนัยหรือไม่ว่าข้อมูลนั้นมีความเป็นอิสระ?
traindriver

@traindriver คุณต้องให้ข้อมูลเพิ่มเติมเกี่ยวกับปัญหาการอนุมานที่คุณต้องเผชิญเพื่อที่เราจะได้ช่วยเหลือคุณ คุณสามารถขยายคำถามของคุณด้วยส่วน "อัปเดต" โดยระบุอย่างน้อย (1) เป็นปริมาณเดียวกันที่วัดซ้ำ ๆ หรือไม่? นั่นคือพิกัดเดียวกัน หรือสแกนพื้นที่หรือ ... (2) ทำไมคุณต้องการอนุมานค่าเฉลี่ยและ sd? หากเป็นพื้นที่อาจเป็นเพราะคุณต้องการใช้ SD เป็นค่าประมาณของความไม่แน่นอนหรือบางอย่างเช่นนั้น
Jonas Lindeløv

ฉันได้เพิ่มข้อมูลเพิ่มเติมในโพสต์ต้นฉบับ
traindriver

3

z

Z¯=i=1nμZ+ϵinZ¯zμZϵZ¯μZZZ¯σ^σ

z=1β+ϵ1βZ¯μZϵz

z=1β+Qu+ϵuQzuuZσz? ถ้าใช่สามารถใช้สิ่งนี้เพื่อจัดจำหน่ายเอฟเฟกต์แบบสุ่ม โดยทั่วไปซอฟต์แวร์ที่ใช้ในการสร้างแบบจำลองเอฟเฟกต์ขั้นพื้นฐานจะถือว่าเอฟเฟกต์แบบสุ่มมีการแจกแจงแบบปกติ (ที่มีค่าเฉลี่ย 0 ... ) และประเมินความแปรปรวนของคุณ บางทีคุณสามารถลองสิ่งนี้เพื่อทดสอบแนวคิด หากคุณต้องการใช้ข้อมูลก่อนหน้าของคุณเกี่ยวกับการกระจายข้อผิดพลาดในการวัดแบบจำลองเอฟเฟกต์แบบเบย์ก็เป็นไปตามลำดับ คุณสามารถใช้ R2OpenBUGS

ϵϵ

DW

ดังที่ whuber ได้กล่าวไว้คุณอาจต้องการบัญชีเกี่ยวกับข้อมูลอัตโนมัติของคุณ การใช้เอฟเฟกต์แบบสุ่มจะไม่ช่วยแก้ปัญหานั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.