ความน่าเชื่อถือของโค้งที่เหมาะสมหรือไม่


11

ฉันต้องการประเมินความไม่แน่นอนหรือความน่าเชื่อถือของเส้นโค้งที่พอดี ฉันตั้งใจไม่ตั้งชื่อปริมาณทางคณิตศาสตร์ที่แม่นยำที่ฉันกำลังมองหาเนื่องจากฉันไม่รู้ว่ามันคืออะไร

นี่ (พลังงาน) เป็นตัวแปรตาม (ตอบสนอง) และ (ปริมาณ) เป็นตัวแปรอิสระ ฉันต้องการหาเส้นโค้ง Energy-Volume,ของวัสดุบางอย่าง ดังนั้นฉันจึงคำนวณด้วยโปรแกรมคอมพิวเตอร์เคมีควอนตัมเพื่อรับพลังงานสำหรับปริมาตรตัวอย่าง (วงกลมสีเขียวในพล็อต)V E ( V )EVE(V)

จากนั้นฉันติดตั้งตัวอย่างข้อมูลเหล่านี้ด้วยฟังก์ชัน Birch – Murnaghan : ซึ่งขึ้นอยู่กับ สี่พารามิเตอร์:ฉันยังสันนิษฐานว่านี่เป็นฟังก์ชั่นปรับแต่งที่ถูกต้องดังนั้นข้อผิดพลาดทั้งหมดจึงมาจากเสียงรบกวนของตัวอย่าง ในสิ่งต่อไปนี้ฟังก์ชั่นที่ติดตั้งจะได้รับการเขียนเป็นฟังก์ชั่นของVE 0 , V 0 , B 0 , B ' 0 ( E ) V

E(E|V)=E0+9V0B016{[(V0V)231]3B0+[(V0V)231]2[64(V0V)23]},
E0,V0,B0,B0(E^)V

ที่นี่คุณสามารถเห็นผลลัพธ์ (ปรับให้เหมาะสมกับอัลกอริทึมกำลังสองน้อยที่สุด) ตัวแปรแกน y เป็นและตัวแปรแกน x คือVเส้นสีฟ้านั้นพอดีและวงกลมสีเขียวเป็นจุดตัวอย่างVEV

พอดีเบิร์ช –Murnaghan (สีน้ำเงิน) ของตัวอย่าง (สีเขียว)

ตอนนี้ฉันต้องการการวัดความน่าเชื่อถือ (ที่ดีที่สุดในการพึ่งพาระดับเสียง) ของเส้นโค้งที่ติดตั้งนี้เพราะฉันต้องการให้มันคำนวณปริมาณเพิ่มเติมเช่นแรงกดดันการเปลี่ยนผ่านหรือเอนทัลปีE^(V)

สัญชาตญาณของฉันบอกฉันว่าเส้นโค้งที่พอดีนั้นน่าเชื่อถือที่สุดตรงกลางดังนั้นฉันเดาว่าความไม่แน่นอน (พูดช่วงความไม่แน่นอน) ควรเพิ่มขึ้นใกล้จุดสิ้นสุดของข้อมูลตัวอย่างเช่นในภาพร่างนี้: ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามการวัดแบบนี้ที่ฉันกำลังมองหาคืออะไรและฉันจะคำนวณได้อย่างไร

เพื่อให้แม่นยำมีจริงเพียงแหล่งเดียวของข้อผิดพลาดที่นี่: ตัวอย่างที่คำนวณได้จะมีเสียงดังเนื่องจากข้อ จำกัด การคำนวณ ดังนั้นถ้าฉันจะคำนวณชุดข้อมูลตัวอย่างหนาแน่นพวกเขาจะสร้างเส้นโค้งเป็นหลุมเป็นบ่อ

ความคิดของฉันในการค้นหาการประมาณความไม่แน่นอนที่ต้องการคือการคำนวณ '' ข้อผิดพลาด '' ต่อไปนี้ตามพารามิเตอร์ที่คุณเรียนรู้ในโรงเรียน ( การแพร่กระจายของความไม่แน่นอน ):

ΔE0,ΔV0,ΔB0ΔB0

ΔE(V)=(E(V)E0ΔE0)2+(E(V)V0ΔV0)2+(E(V)B0ΔB0)2+(E(V)B0ΔB0)2
และจะได้รับโดยซอฟต์แวร์เหมาะสมΔE0,ΔV0,ΔB0ΔB0

นั่นเป็นแนวทางที่ยอมรับได้หรือฉันทำผิดหรือเปล่า?

PS: ฉันรู้ว่าฉันสามารถสรุปผลรวมของส่วนที่เหลือระหว่างตัวอย่างข้อมูลของฉันและเส้นโค้งเพื่อรับ '' ข้อผิดพลาดมาตรฐาน '' บางอย่าง แต่นี่ไม่ได้ขึ้นอยู่กับปริมาณ


ไม่มีพารามิเตอร์ใด ๆ ของคุณเป็นเลขชี้กำลังซึ่งดี คุณใช้ซอฟต์แวร์ NLS ชนิดใด ส่วนใหญ่จะส่งคืนค่าประมาณสำหรับความไม่แน่นอนของพารามิเตอร์ (ซึ่งอาจไม่สมจริงอย่างสมบูรณ์หากพารามิเตอร์ของคุณเป็นเลขชี้กำลัง แต่นี่ไม่ใช่กรณีของคุณ)
DeltaIV

ไม่มี A อยู่ทางด้านขวามือของสมการของคุณ แต่ปรากฏในพล็อตของคุณ เมื่อคุณพูดว่า "สี่พารามิเตอร์" คุณหมายถึงพารามิเตอร์ในแง่สถิติ (ในกรณีที่ IV ของคุณอยู่ที่ไหน) หรือคุณหมายถึงตัวแปร (ในกรณีที่พารามิเตอร์ของคุณอยู่ที่ไหน) โปรดอธิบายบทบาทของสัญลักษณ์ - อะไรคือสิ่งที่วัดและสิ่งที่ไม่รู้จัก?
Glen_b -Reinstate Monica

1
ฉันคิดว่า V คือ A ^ 3 นั่นคือสิ่งที่ฉันใช้และพล็อตของฉันดูเหมือนเขา
เดฟ fournier

@Glen_b ฉันเพิ่งสันนิษฐานว่าแกน Y เป็น E ในฟังก์ชันเบิร์ช –Murnaghan ในขณะที่แกน x คือ V พารามิเตอร์สี่ตัวคือพารามิเตอร์สี่ตัวในฟังก์ชันเบิร์ช –Murnaghan หากคุณสมมติว่าคุณได้รับสิ่งที่ดูเหมือนว่าเขามี
เดฟ fournier

เดี๋ยวก่อนฉันเข้าใจแล้ว ไม่ได้เป็นผู้ประกอบการคาดหวัง (ที่ผมคาดหวังที่จะเห็นใน LHS ของสมการได้โดยไม่ต้องเป็นคำที่ผิดพลาดใน RHS)เป็นตัวแปรตอบสนองเขียนเป็นฟังก์ชั่นในรูปแบบ(x) คำแนะนำที่ยิ่งใหญ่สำหรับทุกคน: อย่าแสดงสมการด้วยทางด้านซ้ายของสมการการถดถอยกับนักสถิติโดยไม่ได้กำหนดสิ่งที่คุณหมายถึงอย่างถี่ถ้วนเพราะพวกเขาน่าจะถือว่าเป็นความคาดหวัง E()Ey(x)E()
Glen_b -Reinstate Monica

คำตอบ:


8

นี่เป็นปัญหากำลังสองน้อยที่สุดธรรมดา!

การกำหนด

x=V2/3, w=V01/3,

โมเดลสามารถเขียนใหม่ได้

E(E|V)=β0+β1x+β2x2+β3x3

ที่สัมประสิทธิ์นั้นเกี่ยวข้องกับพีชคณิตเชิงพีชคณิตกับสัมประสิทธิ์ดั้งเดิมผ่านβ=(βi)

16β=(16E0+54B0w39B0B0w3144B0w5+27B0B0w5126B0w727B0B0w736B0w9+9B0B0w9).

ตรงไปตรงมาเพื่อแก้พีชคณิตหรือเชิงตัวเลข: เลือกวิธีแก้ปัญหาที่และเป็นค่าบวก เหตุผลเดียวในการทำเช่นนี้คือเพื่อให้ได้ค่าประมาณและและเพื่อตรวจสอบว่ามีความหมายทางร่างกาย การวิเคราะห์ทั้งหมดพอดีสามารถดำเนินการได้ในแง่ของ\ W B 0 , B 0 , w E 0 βB0,B0wB0,B0,wE0β

วิธีนี้ไม่เพียง แต่ง่ายกว่าการปรับความไม่เชิงเส้น แต่ยังมีความแม่นยำมากขึ้น: เมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมสำหรับส่งกลับโดยการพอดีแบบไม่เชิงเส้น ของพารามิเตอร์เหล่านี้ในขณะที่ (สำหรับข้อผิดพลาดการกระจายแบบปกติในการวัดต่อไป) ผลลัพธ์ของ OLS ไม่ใช่การประมาณE(E0,B0,B0,V0)E

ช่วงความเชื่อมั่นช่วงเวลาการทำนาย ฯลฯ สามารถรับได้ในวิธีปกติโดยไม่จำเป็นต้องค้นหาค่าเหล่านี้:คำนวณพวกเขาในแง่ของการประมาณและเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วม (แม้แต่ Excel ก็สามารถทำสิ่งนี้ได้!) นี่คือตัวอย่างตามด้วยโค้ด(ง่าย) ที่สร้างขึ้นβ^R

รูป

#
# The data.
#
X <- data.frame(V=c(41, 43, 46, 48, 51, 53, 55.5, 58, 60, 62.5),
                E=c(-48.05, -48.5, -48.8, -49.03, -49.2, -49.3, -49.35, 
                    -49.34, -49.31, -49.27))
#
# OLS regression.
#
fit <- lm(E ~ I(V^(-2/3)) + I(V^(-4/3)) + I(V^(-6/3)), data=X)
summary(fit)
beta <- coef(fit)
#
# Prediction, including standard errors of prediction.
#
V0 <- seq(40, 65)
y <- predict(fit, se.fit=TRUE, newdata=data.frame(V=V0))
#
# Plot the data, the fit, and a three-SEP band.
#
plot(X$V, X$E, xlab="Volume", ylab="Energy", bty="n", xlim=c(40, 60))
polygon(c(V0, rev(V0)), c(y$fit + 3*y$se.fit, rev(y$fit - 3*y$se.fit)),
        border=NA, col="#f0f0f0")
curve(outer(x^(-2/3), 0:3, `^`) %*% beta, add=TRUE, col="Red", lwd=2)
points(X$V, X$E)

หากคุณสนใจในการกระจายการร่วมกันของการประมาณค่าพารามิเตอร์ดั้งเดิมแล้วมันง่ายที่จะจำลองจากโซลูชัน OLS: เพียงแค่สร้างการรับรู้หลายตัวแปรปกติของและแปลงค่าเหล่านั้นเป็นพารามิเตอร์ นี่คือเมทริกซ์ scatterplot ของการรับรู้ 2,000 ครั้ง ความโค้งที่แข็งแกร่งแสดงให้เห็นว่าเหตุใดวิธีเดลต้าจึงน่าจะให้ผลลัพธ์ที่ไม่ดีβ

รูปที่ 2


1
ในขณะที่มันเป็นความจริงที่ว่าอัลกอริธึมสำหรับตัวแบบเชิงเส้นที่เหมาะสมนั้นมีความเสถียรเชิงตัวเลขมากกว่าแบบตัวแบบไม่เชิงเส้น แต่ก็ไม่เป็นความจริงที่ความแตกต่างของความแม่นยำของการวินิจฉัยตราบใดที่อัลกอริทึมแบบไม่เชิงเส้น ฉันตรวจสอบแล้วและเรามีผลบวกกำลังสองเหมือนกันอย่างน้อย 4 sig fig นอกจากนี้การกำหนดพารามิเตอร์เชิงเส้นที่คุณเลือกนั้นมีความสับสนสูงดังนั้นจึงไม่มีพารามิเตอร์ใดที่สำคัญตามการทดสอบ t ทั้งหมดของฉันคือ ไม่ใช่เรื่องใหญ่อะไร แต่สนุกและอาจทำให้ผู้เล่นอายุน้อยสับสน
เดฟ fournier

นอกจากนี้ผมคิดว่าคุณไม่ได้ตอบคำถามของ OP ตั้งแต่เธอ แต่เธอต้องการอะไรบางอย่างเช่นข้อ จำกัด ของความเชื่อมั่นสำหรับปริมาณเอนทัลฟังก์ชั่น
เดฟเยร์

1
@Dave เหล่านั้นเป็นจุดคิดขอบคุณ ในปัญหาทางกายภาพมักจะไม่เกี่ยวข้องกับความสำคัญ: ทฤษฎี implicates ตัวแปรทั้งหมด สิ่งหนึ่งเกี่ยวข้องกับการประมาณค่าแทน แม้ว่าวิธีการทั้งสองควรบรรลุผลขาดทุนขั้นต่ำเท่ากัน (ผลรวมของกำลังสองของค่าตกค้าง) OLS สร้างการแจกแจงที่ถูกต้องสำหรับความแปรปรวนการสุ่มตัวอย่างของพารามิเตอร์ วิธีการไม่เชิงเส้นไม่ได้ มันถูกต้องที่จะใช้การแปลงจากการแจกแจงเป็นแต่การใช้ความแปรปรวนร่วมของเป็นเพียงการประมาณ ( E 0 , ... ) ( E 0 ... )β(E0,)(E^0)
whuber

แบบจำลองและการขุดของคุณเหมือนกันโดยไม่ขึ้นกับการกำหนดพารามิเตอร์ (ฉันกำลังพูดถึงโมเดล OLS) เป็นความจริงที่ว่าหากพารามิเตอร์เฉพาะเข้าสู่โมเดลเชิงเส้นจากนั้นส่วนเบี่ยงเบนมาตรฐานจะสร้างข้อ จำกัด ความเชื่อมั่นที่ดีกว่าสำหรับพารามิเตอร์นั้น ค่าเบี่ยงเบนมาตรฐานที่ได้จากวิธีการเดลตาจะเหมือนกันไม่ว่ามันจะใช้ในการสร้างแบบจำลองหรือแก้ไขให้เป็นตัวแปรตาม ในกรณีนี้ตัวแปรตามความสนใจคือเอนทัลปี - โวลุ่ม - ฟังก์ชั่นและวิธีการเดลต้า std dev จะเหมือนกันไม่ว่าจะใช้ตัวแปรหรือพาราเมตริกของคุณ
เดฟ fournier

1
@ เดฟฉันเห็นด้วย: โมเดลเหมือนกัน แต่มีพารามิเตอร์ต่างกัน ข้อได้เปรียบของการกำหนด OLS ขยายไปถึงข้อเท็จจริงที่ว่าข้อผิดพลาด iid Normal ในการตอบสนองแปลเป็นโซลูชั่นที่แน่นอนสำหรับการกระจายของการประมาณค่าพารามิเตอร์ซึ่งเปลี่ยนเป็นการประมาณการแจกแจงสี่มิติแบบเต็มได้อย่างง่ายดาย ของพารามิเตอร์ดั้งเดิม แม้ว่าสามารถทำได้โดยใช้การกำหนดพารามิเตอร์ดั้งเดิมซึ่งจะต้องใช้งานเป็นตัวเลขมากขึ้น ยิ่งไปกว่านั้นข้อดีของการเห็นรูปแบบเดิมคือ OLS ที่ปลอมตัวเป็นสิ่งสำคัญ β^
whuber

3

มีวิธีการมาตรฐานสำหรับสิ่งนี้เรียกว่าวิธีการเดลต้า คุณสร้างอินเวอร์สของ Hessian ของ log-likelihood wrt พารามิเตอร์สี่ตัวของคุณ มีพารามิเตอร์พิเศษสำหรับความแปรปรวนของส่วนที่เหลือ แต่มันไม่ได้มีบทบาทในการคำนวณเหล่านี้ จากนั้นคุณคำนวณการตอบสนองที่คาดการณ์ไว้สำหรับค่าที่ต้องการของตัวแปรอิสระและคำนวณการไล่ระดับสี (อนุพันธ์ WRT) พารามิเตอร์ทั้งสี่นี้ โทรผกผันของแคว้นเฮ็ซและการไล่ระดับสีเวกเตอร์กรัมคุณจัดทำเวกเตอร์เมทริกซ์ผลิตภัณฑ์ กรัม- กรัมทีฉันกรัมIg

gtIg
สิ่งนี้จะให้ค่าความแปรปรวนโดยประมาณสำหรับตัวแปรตามนั้น ใช้สแควร์รูทเพื่อรับค่าเบี่ยงเบนมาตรฐานโดยประมาณ ดังนั้นขีดจำกัดความเชื่อมั่นคือค่าที่ทำนาย + - ส่วนเบี่ยงเบนมาตรฐานสองค่า นี่คือสิ่งที่น่าจะเป็นมาตรฐาน สำหรับกรณีพิเศษของการถดถอยแบบไม่เชิงเส้นคุณสามารถแก้ไขให้เป็นอิสระได้ คุณมีการสังเกต 10 ครั้งและพารามิเตอร์ 4 ตัวเพื่อให้คุณสามารถเพิ่มการประมาณค่าความแปรปรวนในตัวแบบโดยการคูณด้วย 10/6 แพคเกจซอฟต์แวร์ต่าง ๆ จะทำเพื่อคุณ ฉันเขียนโมเดลของคุณใน AD Model ใน AD Model Builder และปรับให้พอดีและคำนวณความแปรปรวน (ไม่แปร) พวกเขาจะแตกต่างจากของคุณเล็กน้อยเพราะฉันต้องเดาค่าเล็กน้อย
                    estimate   std dev
10   pred_E      -4.8495e+01 7.5100e-03
11   pred_E      -4.8810e+01 7.9983e-03
12   pred_E      -4.9028e+01 7.5675e-03
13   pred_E      -4.9224e+01 6.4801e-03
14   pred_E      -4.9303e+01 6.8034e-03
15   pred_E      -4.9328e+01 7.1726e-03
16   pred_E      -4.9329e+01 7.0249e-03
17   pred_E      -4.9297e+01 7.1977e-03
18   pred_E      -4.9252e+01 1.1615e-02

สิ่งนี้สามารถทำได้สำหรับตัวแปรตามในตัวสร้างแบบจำลองโฆษณา หนึ่งประกาศตัวแปรในจุดที่เหมาะสมในรหัสเช่นนี้

   sdreport_number dep

และเขียนโค้ดเพื่อประเมินตัวแปรตามเช่นนี้

dep=sqrt(V0-cube(Bp0)/(1+2*max(V)));

หมายเหตุสิ่งนี้ถูกประเมินสำหรับค่าของตัวแปรอิสระ 2 เท่าของค่าที่ใหญ่ที่สุดที่สังเกตได้ในตัวยึดแบบ พอดีกับแบบจำลองและมีค่าเบี่ยงเบนมาตรฐานสำหรับตัวแปรตามนี้

19   dep          7.2535e+00 1.0980e-01

ฉันได้แก้ไขโปรแกรมให้รวมรหัสเพื่อคำนวณขีด จำกัด ของความเชื่อมั่นสำหรับฟังก์ชั่นเอนทาลปี - โวลุ่มไฟล์รหัส (TPL) ดูเหมือนว่า

DATA_SECTION
 init_int nobs
 init_matrix data(1,nobs,1,2)
 vector E
 vector V
 number Vmean
LOC_CALCS
 E=column(data,2);
 V=column(data,1);
 Vmean=mean(V);

PARAMETER_SECTION
 init_number E0
 init_number log_V0_coff(2)
 init_number log_B0(3)
 init_number log_Bp0(3)
 init_bounded_number a(.9,1.1)
 sdreport_number V0
 sdreport_number B0
 sdreport_number Bp0
 sdreport_vector pred_E(1,nobs)
 sdreport_vector P(1,nobs)
 sdreport_vector H(1,nobs)
 sdreport_number dep
 objective_function_value f
PROCEDURE_SECTION
  V0=exp(log_V0_coff)*Vmean;
  B0=exp(log_B0);
  Bp0=exp(log_Bp0);
  if (current_phase()<4)
  f+=square(log_V0_coff) +square(log_B0);

  dvar_vector sv=pow(V0/V,0.66666667);
  pred_E=E0 + 9*V0*B0*(cube(sv-1.0)*Bp0
    + elem_prod(square(sv-1.0),(6-4*sv)));

  dvar_vector r2=square(E-pred_E);
  dvariable vhat=sum(r2)/nobs;
  dvariable v=a*vhat;
  f=0.5*nobs*log(v)+sum(r2)/(2.0*v);

  // code to calculate the  enthalpy-volume function
  double delta=1.e-4;
  dvar_vector svp=pow(V0/(V+delta),0.66666667);
  dvar_vector svm=pow(V0/(V-delta),0.66666667);
  P = -((9*V0*B0*(cube(svp-1.0)*Bp0
      + elem_prod(square(svp-1.0),(6-4*svp))))
      -(9*V0*B0*(cube(svm-1.0)*Bp0
      + elem_prod(square(svm-1.0),(6-4*svm)))))/(2.0*delta);
  H=E+elem_prod(P,V);

dep=sqrt(V0-cube(Bp0)/(1+2*max(V)));

จากนั้นฉันทำการดัดแปลงโมเดลเพื่อให้ได้ devs มาตรฐานสำหรับการประเมินค่าของ H

29   H           -3.9550e+01 5.9163e-01
30   H           -4.1554e+01 2.8707e-01
31   H           -4.3844e+01 1.2333e-01
32   H           -4.5212e+01 1.5011e-01
33   H           -4.6859e+01 1.5434e-01
34   H           -4.7813e+01 1.2679e-01
35   H           -4.8808e+01 1.1036e-01
36   H           -4.9626e+01 1.8374e-01
37   H           -5.0186e+01 2.8421e-01
38   H           -5.0806e+01 4.3179e-01

สิ่งเหล่านี้ถูกคำนวณสำหรับค่า V ที่คุณสังเกต แต่สามารถคำนวณได้ง่ายสำหรับค่าใด ๆ ของ V

มีการชี้ให้เห็นว่านี่เป็นโมเดลเชิงเส้นที่มีรหัส R แบบง่าย ๆ เพื่อทำการประมาณค่าพารามิเตอร์ผ่าน OLS นี่เป็นเรื่องที่น่าดึงดูดมากโดยเฉพาะกับผู้ใช้ที่ไร้เดียงสา อย่างไรก็ตามเนื่องจากการทำงานของฮูเบอร์เมื่อสามสิบกว่าปีที่แล้วเรารู้หรือควรรู้ว่าสิ่งหนึ่งอาจจะแทนที่ OLS ด้วยทางเลือกที่แข็งแกร่งในระดับปานกลาง เหตุผลนี้ไม่ได้ทำเป็นประจำฉันเชื่อว่าวิธีการที่มีประสิทธิภาพนั้นไม่เชิงเส้นโดยเนื้อแท้ จากมุมมองนี้วิธีการ OLS แบบง่าย ๆ ที่น่าสนใจใน R เป็นกับดักมากกว่าที่จะเป็นฟีเจอร์ ความก้าวหน้าของวิธีการสร้างแบบจำลองโฆษณานั้นสร้างขึ้นเพื่อรองรับการสร้างแบบจำลองไม่เชิงเส้น ในการเปลี่ยนรหัสกำลังสองน้อยที่สุดเป็นส่วนผสมปกติที่แข็งแกร่งจะต้องเปลี่ยนรหัสเพียงบรรทัดเดียว เส้น

    f=0.5*nobs*log(v)+sum(r2)/(2.0*v);

ถูกเปลี่ยนเป็น

f=0.5*nobs*log(v)
  -sum(log(0.95*exp(-0.5*r2/v) + 0.05/3.0*exp(-0.5*r2/(9.0*v))));

ปริมาณของการกระจายเกินพิกัดในโมเดลวัดโดยพารามิเตอร์ a หากเท่ากับ 1.0 ความแปรปรวนจะเหมือนกับโมเดลปกติ หากมีเงินเฟ้อของค่าความแปรปรวนโดยค่าผิดปกติเราคาดหวังว่า a จะน้อยกว่า 1.0 สำหรับข้อมูลเหล่านี้ค่าประมาณ a ประมาณ 0.23 ดังนั้นค่าความแปรปรวนประมาณ 1/4 ค่าความแปรปรวนสำหรับแบบจำลองปกติ การตีความคือค่าผิดปกติได้เพิ่มการประมาณค่าความแปรปรวนโดยปัจจัยที่ประมาณ 4 ผลกระทบของสิ่งนี้คือการเพิ่มขนาดของขอบเขตความเชื่อมั่นสำหรับพารามิเตอร์สำหรับแบบจำลอง OLS สิ่งนี้แสดงถึงการสูญเสียประสิทธิภาพ สำหรับโมเดลผสมปกติค่าเบี่ยงเบนมาตรฐานโดยประมาณสำหรับฟังก์ชันปริมาณ enthalpy คือ

 29   H           -3.9777e+01 3.3845e-01
 30   H           -4.1566e+01 1.6179e-01
 31   H           -4.3688e+01 7.6799e-02
 32   H           -4.5018e+01 9.4855e-02
 33   H           -4.6684e+01 9.5829e-02
 34   H           -4.7688e+01 7.7409e-02
 35   H           -4.8772e+01 6.2781e-02
 36   H           -4.9702e+01 1.0411e-01
 37   H           -5.0362e+01 1.6380e-01
 38   H           -5.1114e+01 2.5164e-01

มีใครเห็นว่ามีการเปลี่ยนแปลงเล็กน้อยในการประมาณจุดในขณะที่ข้อ จำกัด ความเชื่อมั่นได้ลดลงเหลือประมาณ 60% ของ OLS ที่สร้างขึ้น

ประเด็นหลักที่ฉันต้องการทำคือการคำนวณที่แก้ไขทั้งหมดเกิดขึ้นโดยอัตโนมัติเมื่อมีการเปลี่ยนแปลงรหัสหนึ่งบรรทัดในไฟล์ TPL


2
เพื่อประโยชน์ของ @ thyme ฉันต้องการทราบว่า "วิธีการเดลต้า" นั้นเป็นกระบวนการเดียวกับ "การแพร่กระจายของความไม่แน่นอน" ที่เขา / เธอคุ้นเคยและเป็นที่สอนโดยนักวิทยาศาสตร์ - อย่างน้อยพวกเขา เป็นขั้นตอนเดียวกันเมื่อดำเนินการอย่างถูกต้อง หนึ่งข้อแม้คือสูตรที่โพสต์ในคำถามจะละเว้นความสัมพันธ์ระหว่างค่าโดยประมาณของพารามิเตอร์ การเพิกเฉยความสัมพันธ์นั้นเทียบเท่ากับการพิจารณาองค์ประกอบในแนวทแยงของในวิธีเดลต้าเท่านั้น I
jwimberley

1
สำหรับ @thyme การแพร่กระจายของความไม่แน่นอน / วิธีเดลต้าสร้างความไม่แน่นอนในเท่านั้น ด้านบนของสิ่งนี้คืออคติ / ความแปรปรวนเนื่องจากเสียงรบกวน ฉันคิดว่าคุณกำลังคาดการณ์เกี่ยวกับตัวอย่างทางกายภาพซึ่งปริมาณพลังงาน / เอนทัลปี / ปริมาณทางอุณหพลศาสตร์อื่น ๆ ไม่ได้มีสัญญาณรบกวนเหมือนกับที่ทำในซอฟต์แวร์การจำลองของคุณ แต่ในกรณีนี้จะเพิ่มความแปรปรวนเพิ่มเติม ความแปรปรวนในหรือนั่นเป็นเพราะความไม่แน่นอนจากความพอดี E ( E V ) E ( H V )E(EV)E(EV)E(HV)
jwimberley

1
@ jwimberley คุณพูดว่าเดฟฟูเรียร์ให้สูตรสำหรับช่วงความมั่นใจของค่าเฉลี่ย (เงื่อนไข) ในขณะที่โหระพาอาจสนใจช่วงการทำนายสำหรับการสังเกตใหม่ ง่ายต่อการคำนวณหลังสำหรับ OLS คุณคำนวณในกรณีนี้อย่างไร
DeltaIV

1
@DeltaIV ก็ยังจะง่ายในกรณีนี้ - ถ้าไม่เชิงเส้นอย่างน้อยสี่เหลี่ยมรุ่นถูกต้องจากนั้นคลาดเคลื่อนพอดีมีการกระจายเช่น\ดังนั้นความแปรปรวนพิเศษในช่วงการทำนายจึงเป็นความแปรปรวนของการตกค้างแบบพอดี สิ่งนี้เกี่ยวข้องกับแนวคิดในคำตอบของสคริปต์หลัง (ซึ่งไม่ใช่อิสระเนื่องจากรูปแบบที่พอดีไม่ใช่ heteroskedastic) อย่างไรก็ตามที่สำคัญกว่านั้นที่พอดีมาจากข้อ จำกัด การคำนวณในขณะที่ในโลกมาจากความผันผวนของอุณหพลศาสตร์ซึ่งอาจไม่เทียบเท่า E - E ε V ε εE=f(V)+ϵEE^ϵVϵϵ
jwimberley

1
@ jwimberley ฉันเพียงแสดงให้เห็นถึงขีด จำกัด ของความเชื่อมั่นสำหรับค่าที่คาดการณ์ซึ่งสอดคล้องกับค่า V ที่สังเกตได้เพียงเพราะพวกเขามีอยู่ ฉันได้แก้ไขคำตอบของฉันเพื่อแสดงวิธีรับขีด จำกัด ความเชื่อมั่นสำหรับตัวแปรตาม
เดฟ fournier

0

การตรวจสอบความถูกต้องไขว้เป็นวิธีง่าย ๆ ในการประเมินความน่าเชื่อถือของกราฟของคุณ: https://en.wikipedia.org/wiki/Cross-validation_(statistics)

การขยายพันธุ์ของความไม่แน่นอนที่มีความแตกต่างบางส่วนเป็นที่ดีคือคุณจะรู้ว่าจริงๆและB' อย่างไรก็ตามโปรแกรมที่คุณใช้จะให้ข้อผิดพลาดในการปรับเท่านั้น (?) สิ่งเหล่านี้จะมองในแง่ดีเกินไป (เล็กเกินจริง) Δ B ΔE0,ΔV0,ΔB0ΔB

คุณสามารถคำนวณข้อผิดพลาดในการตรวจสอบความถูกต้องแบบ 1 เท่าโดยปล่อยให้จุดใดจุดหนึ่งอยู่ห่างจากจุดเชื่อมต่อและใช้เส้นโค้งที่พอดีเพื่อทำนายค่าของจุดที่เหลืออยู่ ทำซ้ำสิ่งนี้ทุกจุดเพื่อให้แต่ละครั้งถูกทิ้งไว้หนึ่งครั้ง จากนั้นคำนวณข้อผิดพลาดในการตรวจสอบความถูกต้องของโค้งสุดท้ายของคุณ (โค้งพอดีกับทุกจุด) เป็นค่าเฉลี่ยของข้อผิดพลาดในการทำนาย

สิ่งนี้จะบอกคุณว่าแบบจำลองของคุณมีความอ่อนไหวต่อจุดข้อมูลใหม่ใด ๆ ตัวอย่างเช่นมันจะไม่บอกคุณว่าแบบจำลองพลังงานของคุณไม่ถูกต้องอย่างไร อย่างไรก็ตามนี่จะเป็นการประมาณข้อผิดพลาดที่สมจริงมากขึ้น

นอกจากนี้คุณสามารถพล็อตข้อผิดพลาดการทำนายเป็นฟังก์ชั่นของไดรฟ์หากคุณต้องการ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.