คำถามติดแท็ก curve-fitting

วิธีที่ใช้ในการปรับให้พอดีกับเส้นโค้ง (เช่นการถดถอยเชิงเส้นหรือไม่ใช่เชิงเส้น) กับข้อมูล

4
LOESS ที่ช่วยให้ไม่ต่อเนื่อง
มีเทคนิคการสร้างแบบจำลองเช่นLOESSที่อนุญาตให้มีศูนย์ไม่ต่อเนื่องหนึ่งหรือมากกว่านั้นซึ่งเวลาที่ไม่ต่อเนื่องไม่เป็นที่รู้จัก apriori? หากเทคนิคมีอยู่จะมีการนำไปใช้ใน R หรือไม่?

3
เหตุใดจึงมีค่าสัมประสิทธิ์จำนวนมากสำหรับพหุนามลำดับที่สูงขึ้น
ในหนังสือของบิชอปเกี่ยวกับการเรียนรู้ของเครื่องมันกล่าวถึงปัญหาของการปรับฟังก์ชั่นพหุนามให้เหมาะกับจุดข้อมูล ให้ M เป็นคำสั่งของพหุนามที่พอดี มันระบุว่า เราเห็นว่าเมื่อ M เพิ่มขึ้นขนาดของสัมประสิทธิ์มักจะใหญ่ขึ้น โดยเฉพาะอย่างยิ่งสำหรับ M = 9 พหุนามสัมประสิทธิ์ได้ถูกปรับให้เข้ากับข้อมูลอย่างละเอียดโดยการพัฒนาค่าบวกและลบขนาดใหญ่เพื่อให้ฟังก์ชั่นพหุนามที่ตรงกันจับคู่แต่ละจุดข้อมูลตรง แต่ระหว่างจุดข้อมูล (โดยเฉพาะใกล้จุดสิ้นสุดของ ช่วง) ฟังก์ชั่นการจัดแสดงการสั่นขนาดใหญ่ ฉันไม่เข้าใจว่าทำไมค่าขนาดใหญ่จึงหมายถึงการปรับจุดข้อมูลให้ละเอียดยิ่งขึ้น ฉันคิดว่าค่าจะแม่นยำมากขึ้นหลังจากจุดทศนิยมแทนเพื่อการปรับที่ดีขึ้น

1
ข้อผิดพลาดการบวกหรือข้อผิดพลาดการคูณ?
ฉันค่อนข้างใหม่กับสถิติและขอขอบคุณที่ช่วยให้เข้าใจสิ่งนี้ดีขึ้น ในสาขาของฉันมีรูปแบบที่ใช้กันทั่วไปของแบบฟอร์มคือ: Pt=Po(Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha เมื่อคนทำโมเดลให้พอดีกับข้อมูลพวกเขามักทำตัวเป็นเส้นตรงและพอดีกับสิ่งต่อไปนี้ log(Pt)=log(Po)+αlog(Vt)+ϵlog⁡(Pt)=log⁡(Po)+αlog⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon ตกลงไหม ฉันอ่านบางที่เพราะสัญญาณรบกวนในรูปแบบที่แท้จริงควรจะเป็น Pt=Po(Vt)α+ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon และสิ่งนี้ไม่สามารถทำให้เป็นเชิงเส้นได้ตามที่กล่าวมา มันเป็นเรื่องจริงเหรอ? ถ้ามีใครรู้การอ้างอิงที่ฉันสามารถอ่านและเรียนรู้เพิ่มเติมเกี่ยวกับมันและอาจอ้างอิงในรายงาน?

1
การคำนวณความน่าจะเป็นจาก RMSE
ฉันมีโมเดลสำหรับทำนายวิถี (x เป็นฟังก์ชันของเวลา) ด้วยพารามิเตอร์หลายตัว ในขณะนี้ฉันคำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยของรูท (RMSE) ระหว่างวิถีการทำนายและวิถีการบันทึกที่ทดลอง ปัจจุบันฉันลดความแตกต่างนี้ (RMSE) โดยใช้ simplex (fminsearch ใน matlab) ในขณะที่วิธีนี้ใช้งานได้ดีฉันต้องการเปรียบเทียบแบบจำลองที่แตกต่างกันหลายแบบดังนั้นฉันคิดว่าฉันจำเป็นต้องคำนวณความน่าจะเป็นเพื่อที่ฉันจะสามารถใช้การประมาณความเป็นไปได้สูงสุดแทนการย่อ RMSE ให้น้อยที่สุด ) มีวิธีมาตรฐานในการทำเช่นนี้หรือไม่?

3
กลยุทธ์สำหรับการปรับฟังก์ชั่นที่ไม่ใช่เชิงเส้นอย่างเหมาะสม
สำหรับการวิเคราะห์ข้อมูลจากการทดลองด้านชีวฟิสิกส์ตอนนี้ฉันกำลังพยายามทำเส้นโค้งที่เหมาะสมกับตัวแบบที่ไม่ใช่เชิงเส้น ฟังก์ชั่นโมเดลดูเหมือนจะเป็น: y=ax+bx−1/2y=ax+bx−1/2y = ax + bx^{-1/2} ที่นี่โดยเฉพาะอย่างยิ่งคุณค่าของเป็นที่น่าสนใจอย่างยิ่งbbb พล็อตสำหรับฟังก์ชั่นนี้: (โปรดทราบว่าฟังก์ชั่นแบบจำลองนั้นมีพื้นฐานมาจากคำอธิบายทางคณิตศาสตร์อย่างละเอียดของระบบและดูเหมือนว่าจะทำงานได้ดีมาก --- เป็นเพียงแค่อุปกรณ์อัตโนมัติเท่านั้นที่มีความยุ่งยาก) แน่นอนฟังก์ชั่นแบบจำลองนั้นมีปัญหา: กลยุทธ์ที่เหมาะสมที่ฉันได้ลองมาจนถึงตอนนี้ล้มเหลวเนื่องจากเส้นกำกับที่คมชัดที่โดยเฉพาะกับข้อมูลที่มีเสียงดังx=0x=0x=0 ความเข้าใจของฉันของปัญหาที่นี่เป็นที่เรียบง่ายอย่างน้อยสี่เหลี่ยมกระชับ (ผมเคยเล่นกับทั้งเชิงเส้นและการถดถอยที่ไม่ใช่เชิงเส้นใน MATLAB; ส่วนใหญ่ Levenberg-Marquardt) เป็นมากไวต่อสิ้นสุดแนวตั้งเพราะข้อผิดพลาดเล็ก ๆ ใน x จะขยายอย่างมหาศาล . ใครช่วยชี้ให้ฉันเห็นกลยุทธ์ที่เหมาะสมที่สามารถแก้ไขได้? ฉันมีความรู้พื้นฐานเกี่ยวกับสถิติ แต่ก็ยังค่อนข้าง จำกัด ฉันกระตือรือร้นที่จะเรียนรู้ถ้าเพียง แต่ฉันรู้ว่าจะเริ่มมองหาที่ไหน :) ขอบคุณมากสำหรับคำแนะนำของคุณ! แก้ไขการขออภัยโทษจากที่ลืมพูดถึงข้อผิดพลาด เสียงรบกวนที่สำคัญเพียงอย่างเดียวคือในและมันเป็นสารเติมแต่งxxx แก้ไข 2ข้อมูลเพิ่มเติมบางอย่างเกี่ยวกับพื้นหลังของคำถามนี้ กราฟด้านบนเป็นแบบจำลองพฤติกรรมการยืดของโพลีเมอร์ @whuber ชี้ให้เห็นในความคิดเห็นคุณจะต้องเพื่อให้ได้กราฟดังด้านบนb≈−200ab≈−200ab \approx -200 a สำหรับวิธีที่ผู้คนปรับโค้งนี้จนถึงจุดนี้: ดูเหมือนว่าคนทั่วไปจะตัดเส้นกำกับแนวดิ่งจนกว่าพวกเขาจะเจอแบบที่ดี ตัวเลือกการตัดออกยังคงเป็นกฎเกณฑ์ทำให้กระบวนการที่เหมาะสมไม่น่าเชื่อถือและไม่สามารถพิสูจน์ได้ แก้ไขกราฟ3 และ 4คงที่

1
เหมาะสมกับฟังก์ชันเลขชี้กำลังโดยใช้กำลังสองน้อยที่สุดเทียบกับโมเดลเชิงเส้นทั่วไปกับสี่เหลี่ยมจัตุรัสไม่เชิงเส้นน้อยที่สุด
ฉันมีชุดข้อมูลที่แสดงถึงการสลายตัวแบบเลขชี้กำลัง ฉันต้องการใส่ฟังก์ชั่นเลขชี้กำลังกับข้อมูลนี้ ฉันได้ลองบันทึกการเปลี่ยนตัวแปรการตอบสนองแล้วใช้กำลังสองน้อยที่สุดเพื่อให้พอดีกับเส้น ใช้โมเดลเชิงเส้นทั่วไปที่มีฟังก์ชั่นบันทึกการเชื่อมโยงและการกระจายแกมม่ารอบ ๆ ตัวแปรตอบสนอง; และใช้กำลังสองน้อยที่สุดแบบไม่เชิงเส้น ฉันได้รับคำตอบที่แตกต่างกันสำหรับสัมประสิทธิ์สองตัวของฉันในแต่ละวิธีแม้ว่ามันจะคล้ายกันทั้งหมด ที่ฉันมีความสับสนคือฉันไม่แน่ใจว่าวิธีใดดีที่สุดที่จะใช้และทำไม ใครบางคนช่วยเปรียบเทียบและเปรียบเทียบวิธีการเหล่านี้ได้ไหม ขอบคุณ.y=Beaxy=Beaxy = Be^{ax}

1
การประมาณความชันของส่วนตรงของส่วนโค้ง sigmoid
ฉันได้รับงานนี้แล้วก็นิ่งงัน เพื่อนร่วมงานขอให้ฉันประเมินและของแผนภูมิต่อไปนี้:xupperxupperx_{upper}xlowerxlowerx_{lower} เส้นโค้งนั้นคือการแจกแจงแบบสะสมและ x เป็นการวัดแบบหนึ่ง เขาสนใจที่จะรู้ว่าอะไรคือค่าที่สอดคล้องกันของ x เมื่อฟังก์ชันสะสมเริ่มกลายเป็นเส้นตรงและเบี่ยงเบนจากการเป็นเส้นตรง ฉันเข้าใจว่าเราสามารถใช้ความแตกต่างเพื่อค้นหาความชัน ณ จุดหนึ่ง แต่ฉันไม่แน่ใจว่าจะระบุได้อย่างไรว่าเราจะโทรหาเส้นตรงได้เมื่อไหร่ เขยิบต่อแนวทาง / วรรณกรรมที่มีอยู่แล้วบางส่วนจะได้รับการชื่นชมอย่างมาก ฉันรู้ว่าอาร์เช่นกันถ้าคุณรู้แพคเกจหรือตัวอย่างที่เกี่ยวข้องในการสืบสวนประเภทนี้ ขอบคุณมาก. UPDATE ขอบคุณ Flounderer ฉันสามารถขยายงานเพิ่มเติมตั้งค่ากรอบงานและแก้ไขพารามิเตอร์ที่นี่และที่นั่น เพื่อจุดประสงค์ในการเรียนรู้นี่คือรหัสปัจจุบันของฉันและเอาต์พุตกราฟิก library(ESPRESSO) x <- skew.rnorm(800, 150, 5, 3) x <- sort(x) meanX <- mean(x) sdX <- sd(x) stdX <- (x-meanX)/sdX y <- pnorm(stdX) par(mfrow=c(2,2), mai=c(1,1,0.3,0.3)) hist(x, col="#03718750", border="white", main="") …

1
การกระจายที่เหมาะสมกับข้อมูลเชิงพื้นที่
ข้ามการโพสต์คำถามของฉันจาก mathoverflowเพื่อค้นหาความช่วยเหลือเฉพาะสถิติ ฉันกำลังศึกษากระบวนการทางกายภาพในการสร้างข้อมูลซึ่งมีโครงงานเป็นสองมิติด้วยค่าที่ไม่เป็นลบ แต่ละขั้นตอนมีแทร็ก (ที่คาดการณ์) จุด - - ดูภาพด้านล่างxxxYYy แทร็กตัวอย่างเป็นสีน้ำเงินแทร็กที่มีปัญหาได้รับการวาดด้วยสีเขียวและพื้นที่ที่มีข้อกังวลเป็นสีแดง: แต่ละแทร็กเป็นผลมาจากการทดสอบอิสระ มีการทดลองกว่ายี่สิบล้านครั้งในช่วงหลายปีที่ผ่านมา แต่จากการทดสอบเพียงสองพันครั้งนั้นแสดงให้เห็นถึงคุณลักษณะที่เราวางแผนไว้ เรากังวลเฉพาะกับการทดลองที่สร้างแทร็กดังนั้นชุดข้อมูลของเราคือ (โดยประมาณ) สองพันแทร็ก มีความเป็นไปได้สำหรับแทร็กที่จะเข้าสู่พื้นที่ที่น่าเป็นห่วงและเราคาดหวังว่าจะเรียงตามลำดับในแทร็ก การประมาณจำนวนนั้นเป็นคำถามในมือ:11110410410^4 เราจะคำนวณความน่าจะเป็นของการติดตามโดยพลการเข้าสู่พื้นที่ที่น่าเป็นห่วงได้อย่างไร เป็นไปไม่ได้ที่จะทำการทดลองอย่างรวดเร็วพอที่จะดูว่ามีการสร้างแทร็กบ่อยครั้งเพียงใดซึ่งเข้าสู่พื้นที่ที่น่าเป็นห่วงดังนั้นเราจึงจำเป็นต้องประเมินจากข้อมูลที่มีอยู่ เราได้ติดตั้งตัวอย่างเช่นค่าให้ไว้แต่สิ่งนี้ไม่สามารถจัดการข้อมูลได้อย่างเพียงพอเช่นแทร็กสีเขียว - ดูเหมือนว่าจำเป็นต้องมีโมเดลที่ครอบคลุมทั้งสองมิติxxxY≥ 200Y≥200y\ge200 เราได้ติดตั้งระยะห่างขั้นต่ำจากแต่ละแทร็กไปยังพื้นที่ที่น่ากังวล แต่เราไม่มั่นใจว่าสิ่งนี้จะให้ผลลัพธ์ที่สมเหตุสมผล 1) มีวิธีทราบที่เหมาะสมกับการกระจายข้อมูลประเภทนี้เพื่อการประมาณค่าหรือไม่? -หรือ- 2) มีวิธีที่ชัดเจนในการใช้ข้อมูลนี้เพื่อสร้างแบบจำลองสำหรับการสร้างแทร็กหรือไม่? ตัวอย่างเช่นใช้การวิเคราะห์องค์ประกอบหลักบนแทร็กเป็นจุดในพื้นที่ขนาดใหญ่จากนั้นปรับการกระจาย (Pearson?) ให้พอดีกับแทร็กที่ฉายลงบนส่วนประกอบเหล่านั้น

2
ความแตกต่างระหว่างการวิเคราะห์ข้อมูลการทำงานและการวิเคราะห์ข้อมูลมิติสูงคืออะไร
มีการอ้างอิงจำนวนมากในวรรณกรรมทางสถิติถึง " ข้อมูลการทำงาน " (เช่นข้อมูลที่เป็นเส้นโค้ง) และในแนวขนานกับ " ข้อมูลมิติสูง " (เช่นเมื่อข้อมูลเป็นเวกเตอร์มิติสูง) คำถามของฉันเกี่ยวกับความแตกต่างระหว่างข้อมูลสองประเภท เมื่อพูดถึงวิธีการทางสถิติที่ประยุกต์ใช้ในกรณีที่ 1 สามารถเข้าใจได้ว่าเป็นการใช้วิธีการใหม่จากกรณีที่ 2 ถึงการฉายภาพในขอบเขตย่อยที่มีขอบเขตมิติของพื้นที่ของฟังก์ชั่น . และจะแปลปัญหาการทำงานให้เป็นปัญหาเวคเตอร์แบบมิติแน่นอน (เนื่องจากในวิชาคณิตศาสตร์ประยุกต์ทุกอย่างก็มีขอบเขตในบางจุด) คำถามของฉันคือ เราสามารถพูดได้ว่ากระบวนการทางสถิติใด ๆ ที่ใช้กับข้อมูลการทำงานสามารถนำไปใช้ (เกือบจะโดยตรง) กับข้อมูลมิติสูงและกระบวนการใด ๆ ที่อุทิศให้กับข้อมูลมิติสูงสามารถนำไปใช้กับข้อมูลการทำงานได้หรือไม่ หากคำตอบคือไม่คุณสามารถอธิบายได้ไหม? แก้ไข / ปรับปรุงด้วยความช่วยเหลือของคำตอบของ Simon Byrne: sparsity (สมมติฐาน S-เบาบางลูกและอ่อนแอลิตรPลูกP &lt; 1 ) ใช้เป็นสมมติฐานโครงสร้างในการวิเคราะห์ทางสถิติสูงมิติล.พีล.พีl^pล.พีล.พีl^pp &lt; 1พี&lt;1p<1 "ความเรียบ" ใช้เป็นข้อสมมติฐานเชิงโครงสร้างในการวิเคราะห์ข้อมูลการทำงาน ในทางกลับกันการแปลงฟูริเยร์และการแปลงเวฟเล็ตแบบผกผันจะเปลี่ยนความเป็นช่องว่างให้เป็นความเรียบเนียนและความเรียบเนียนจะถูกเปลี่ยนเป็นแบบ Sparcity โดยการแปลงเวฟเล็ตและฟูริเยร์ สิ่งนี้ทำให้ความแตกต่างที่สำคัญที่ Simon พูดถึงไม่สำคัญอย่างนั้นเหรอ?

4
มีสูตรสำหรับเส้นโค้งรูปตัว s ที่มีโดเมนและช่วง [0,1]
โดยทั่วไปฉันต้องการแปลงมาตรการความคล้ายคลึงกันเป็นน้ำหนักซึ่งใช้เป็นตัวทำนาย ความคล้ายคลึงกันจะเป็น [0,1] และฉันจะ จำกัด น้ำหนักให้เป็น [0,1] ฉันต้องการฟังก์ชั่น paramteric ที่ทำแผนที่นี้ซึ่งฉันจะปรับให้เหมาะสมโดยใช้การไล่ระดับสี ความต้องการคือ 0 แผนที่ถึง 0, 1 แผนที่ถึง 1 และจะเพิ่มขึ้นอย่างเคร่งครัด อนุพันธ์ที่เข้าใจง่ายก็ชื่นชมเช่นกัน ขอบคุณล่วงหน้า แก้ไข: ขอบคุณสำหรับคำตอบจนถึงสิ่งเหล่านี้มีประโยชน์มาก เพื่อให้วัตถุประสงค์ของฉันชัดเจนยิ่งขึ้นภารกิจคือการคาดการณ์ การสังเกตของฉันเป็นเวกเตอร์กระจัดกระจายมากด้วยมิติเดียวที่จะทำนาย ขนาดอินพุตของฉันใช้เพื่อคำนวณความเหมือนกัน การทำนายของฉันคือผลรวมถ่วงน้ำหนักของค่าการสังเกตการณ์อื่นสำหรับนักทำนายซึ่งน้ำหนักนั้นเป็นฟังก์ชันที่มีความคล้ายคลึงกัน ฉัน จำกัด น้ำหนักของฉันไว้ที่ [0,1] เพื่อความเรียบง่าย ตอนนี้มันชัดเจนแล้วว่าทำไมฉันถึงต้องการ 0 ถึงแผนที่เป็น 0, 1 ถึงแผนที่เป็น 1 และมันจะเพิ่มขึ้นอย่างเคร่งครัด เนื่องจาก whuber ได้ชี้ให้เห็นว่าการใช้ f (x) = x ตรงตามข้อกำหนดเหล่านี้และใช้งานได้ดีจริง ๆ อย่างไรก็ตามไม่มีพารามิเตอร์ที่จะปรับให้เหมาะสม ฉันมีข้อสังเกตมากมายเพื่อให้สามารถทนต่อพารามิเตอร์จำนวนมากได้ …

1
การแจกแจงเบต้าสองครั้งจะกำหนดพารามิเตอร์หรือไม่
หากฉันให้ปริมาณสองค่าและตำแหน่งที่สอดคล้องกัน (แต่ละอัน) ในช่วงเวลาเปิดฉันจะหาพารามิเตอร์ของการแจกแจงแบบเบต้าที่มีปริมาณเหล่านั้นในตำแหน่งที่ระบุได้หรือไม่?(q1,q2)(q1,q2)(q_1,q_2)(l1,l2)(l1,l2)(l_1,l_2)(0,1)(0,1)(0,1)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.