วิธีทำให้ข้อมูลของการแจกจ่ายที่ไม่รู้จักเป็นมาตรฐาน


12

ฉันพยายามค้นหาการกระจายลักษณะเฉพาะที่เหมาะสมที่สุดของข้อมูลการวัดซ้ำประเภทหนึ่ง

โดยพื้นฐานแล้วในสาขาธรณีวิทยาของฉันเรามักจะใช้การตรวจสอบด้วยรังสีของแร่ธาตุจากตัวอย่าง (ก้อนหิน) เพื่อหาว่านานแค่ไหนที่มีเหตุการณ์เกิดขึ้น (หินเย็นลงต่ำกว่าอุณหภูมิที่กำหนด) โดยทั่วไปการวัดหลาย ๆ (3-10) จะทำจากตัวอย่างแต่ละตัวอย่าง จากนั้นค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานσจะถูกนำ นี่คือธรณีวิทยาดังนั้นอายุการระบายความร้อนของตัวอย่างสามารถปรับได้ตั้งแต่10 5ถึง10 9ปีขึ้นอยู่กับสถานการณ์μσ105109

อย่างไรก็ตามฉันมีเหตุผลที่เชื่อได้ว่าการวัดไม่ใช่ Gaussian: 'Outliers' ไม่ว่าจะเป็นการประกาศโดยพลการหรือผ่านเกณฑ์บางอย่างเช่นเกณฑ์ของ Peirce [Ross, 2003]หรือการทดสอบ Q ของ Dixon [Dean and Dixon, 1951]นั้นค่อนข้างยุติธรรม ทั่วไป (พูด 1 ใน 30) และสิ่งเหล่านี้เกือบจะเก่ากว่าทุกครั้งซึ่งบ่งชี้ว่าการวัดเหล่านี้มีลักษณะเอียงไปทางขวา มีเหตุผลที่เข้าใจกันดีเกี่ยวกับสิ่งสกปรกที่เกี่ยวกับแร่วิทยา

อายุเฉลี่ยตัวอย่างกับค่ามัธยฐาน  เส้นสีแดงหมายถึงค่าเฉลี่ย = ค่ามัธยฐาน  หมายเหตุวิธีเก่ากว่าเกิดจากการวัดที่เบ้

μσ

ฉันสงสัยว่าวิธีที่ดีที่สุดในการทำเช่นนี้คืออะไร ถึงตอนนี้ฉันมีฐานข้อมูลประมาณ 600 ตัวอย่างและ 2-10 (หรือมากกว่านั้น) ทำซ้ำการวัดต่อตัวอย่าง ฉันได้ลองทำตัวอย่างให้เป็นมาตรฐานโดยการหารค่าเฉลี่ยหรือค่ามัธยฐานแล้วดูที่ฮิสโตแกรมของข้อมูลที่ทำให้เป็นมาตรฐาน สิ่งนี้สร้างผลลัพธ์ที่สมเหตุสมผลและดูเหมือนว่าบ่งชี้ว่าข้อมูลนั้นเป็นลักษณะเฉพาะของ Laplacian:

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นวิธีการที่เหมาะสมหรือไม่หรือมีข้อแม้ที่ฉันไม่ทราบว่าอาจทำให้เกิดผลลัพธ์ของฉันดังนั้นพวกเขาจึงมีลักษณะเช่นนี้ ใครบ้างมีประสบการณ์กับสิ่งนี้และรู้วิธีปฏิบัติที่ดีที่สุด?


4
เนื่องจาก 'normalize' ถูกใช้เพื่อหมายถึงสิ่งต่าง ๆ ในบริบทเช่นนี้คุณหมายถึงอะไรโดย "normalize" ข้อมูลอะไรที่คุณพยายามจะออกจากข้อมูล?
Glen_b -Reinstate Monica

1
@Glen_b: โดย 'Normalize' ฉันแค่หมายถึงการไต่สิ่งต่าง ๆ โดยค่ามัธยฐาน (หรือค่าเฉลี่ย) ทุกช่วงอายุของตัวอย่างที่วัดโดยมัธยฐาน (หรือค่าเฉลี่ยหรืออะไรก็ตาม) มีหลักฐานการทดลองว่าการกระจายตัวในตัวอย่างเพิ่มขึ้นเป็นเส้นตรงตามอายุ สิ่งที่ฉันต้องการจากข้อมูลคือการดูว่าการวัดประเภทนี้มีลักษณะที่ดีที่สุดโดยปกติหรือบันทึกปกติหรือเบต้าหรือการแจกแจงแบบใดก็ตามเพื่อให้ได้ตำแหน่งและมาตราส่วนที่แม่นยำที่สุดหรือ L1 กับ การถดถอย L2 เป็นธรรม ฯลฯ ในโพสต์นี้ฉันถามว่าฉันจะใช้ข้อมูลที่ฉันอธิบายและตรวจสอบได้อย่างไร
cossatot

1
ฉันไม่มีความเชี่ยวชาญในด้านนี้ แต่กราฟและความคิดของคุณที่คุณใส่เข้าไปดูดี คุณอาจเคยเห็นมาแล้ว แต่บทความ Wikipedia เกี่ยวกับลิงก์ Log-Laplace ไปยังบทความที่ดีซึ่งไม่ได้ตอบคำถามของคุณโดยตรง แต่อาจมีข้อมูลเชิงลึกที่น่าสนใจ: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Wayne

ฉันไม่แน่ใจว่าฉันเข้าใจอย่างถ่องแท้ แต่การบูตสแตรปอาจช่วยได้? หากคุณกู้คืนความแปรปรวน ฯลฯ ของการแจกจ่ายโดยใช้วิธีการบูตสแตรปคุณสามารถใช้ข้อมูลที่กู้คืนเพื่อทำให้ข้อมูลของคุณเป็นปกติ en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

คำตอบ:


1

คุณได้พิจารณาการวัดค่าเฉลี่ย (3-10) จากแต่ละตัวอย่าง จากนั้นคุณสามารถทำงานกับการแจกแจงที่เป็นผลลัพธ์ซึ่งจะใกล้เคียงกับการแจกแจงแบบ t ซึ่งจะประมาณการกระจายตัวแบบปกติสำหรับ n ที่ใหญ่กว่า


1

ฉันไม่คิดว่าคุณกำลังใช้ normalize เพื่อหมายถึงความหมายปกติซึ่งโดยทั่วไปแล้วจะเป็นสิ่งที่ทำให้ค่าเฉลี่ยและ / หรือความแปรปรวนและ / หรือการฟอกสีฟันเป็นปกติ

ฉันคิดว่าสิ่งที่คุณพยายามจะทำคือการหาการทำ reparameterization และ / หรือฟีเจอร์ที่ช่วยให้คุณใช้ตัวแบบเชิงเส้นกับข้อมูลของคุณ

นี่ไม่ใช่เรื่องไร้สาระและไม่มีคำตอบง่ายๆ นั่นเป็นสาเหตุที่นักวิทยาศาสตร์ด้านข้อมูลได้รับเงินจำนวนมาก ;-)

วิธีหนึ่งที่ค่อนข้างตรงไปตรงมาในการสร้างคุณสมบัติที่ไม่เป็นเชิงเส้นคือการใช้เครือข่ายประสาทส่งต่อซึ่งจำนวนชั้นและจำนวนเซลล์ประสาทต่อชั้นควบคุมความจุของเครือข่ายเพื่อสร้างคุณสมบัติ ความจุที่สูงขึ้น => ความไม่เป็นเชิงเส้นมากขึ้น กำลังการผลิตลดลง => เป็นเส้นตรงมากขึ้นมีอคติสูงกว่าลดความแปรปรวน

อีกวิธีหนึ่งที่ช่วยให้คุณควบคุมได้มากขึ้นเล็กน้อยคือการใช้เส้นโค้ง

ในที่สุดคุณสามารถสร้างคุณสมบัติดังกล่าวด้วยมือซึ่งฉันคิดว่าเป็นสิ่งที่คุณพยายามทำ แต่จากนั้นไม่มีคำตอบ 'กล่องดำ' ที่เรียบง่าย: คุณจะต้องวิเคราะห์ข้อมูลอย่างระมัดระวังมองหารูปแบบและอื่น ๆ .


การทำให้เป็นมาตรฐานมีความหมายหลายอย่างเกี่ยวกับคณิตศาสตร์และวิทยาศาสตร์ การประกาศว่าความหมายที่คนคุ้นเคยที่สุดคือมาตรฐานคือสิ่งที่คนส่วนใหญ่ถูกล่อลวงให้ทำ แต่มันจะไม่ล้างด้วยผู้อื่น ยิ่งจริงจังยิ่งขึ้นสิ่งนี้จะเริ่มในหัวข้อ แต่จะเบี่ยงเบนไป ตัวบ่งชี้ความสนใจในรุ่นที่ไม่ใช่เชิงเส้นอยู่ที่ไหน ตาข่ายประสาท? Splines? สิ่งเหล่านี้เกี่ยวข้องกับการระบุการกระจายหรือตระกูลการแจกแจงซึ่งเป็นคำถามคืออะไร ฉันไม่เห็นการเชื่อมต่อดังนั้นแนะนำให้ตัดสิ่งที่ไม่เกี่ยวข้องหรือขยายออกเพื่อแสดงว่ามันเกี่ยวข้องอย่างไร
Nick Cox

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.