ทรัพย์สินเชิงปริมาณของประชากรเป็น“ พารามิเตอร์” หรือไม่?


13

ฉันค่อนข้างคุ้นเคยกับความแตกต่างระหว่างสถิติของคำและพารามิเตอร์ ฉันเห็นสถิติเป็นค่าที่ได้จากการใช้ฟังก์ชั่นกับข้อมูลตัวอย่าง อย่างไรก็ตามตัวอย่างส่วนใหญ่ของพารามิเตอร์เกี่ยวข้องกับการกำหนดการกระจายพารามิเตอร์ ตัวอย่างทั่วไปคือค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเพื่อกำหนดพารามิเตอร์การแจกแจงปกติหรือสัมประสิทธิ์และความแปรปรวนข้อผิดพลาดในการกำหนดพารามิเตอร์เป็นการถดถอยเชิงเส้น

อย่างไรก็ตามมีค่าอื่น ๆ อีกมากมายของการกระจายตัวของประชากรที่น้อยกว่าต้นแบบ (เช่น, ต่ำสุด, สูงสุด, r-Square ในการถดถอยหลายครั้ง, .25 quantile, ค่ามัธยฐาน, จำนวนของตัวทำนายที่มีค่าสัมประสิทธิ์ไม่ใช่ศูนย์, ความเบ้, จำนวน ของความสัมพันธ์ในเมทริกซ์สหสัมพันธ์มากกว่า. 3 เป็นต้น)

ดังนั้นคำถามของฉันคือ:

  • ทรัพย์สินเชิงปริมาณของประชากรควรมีป้ายกำกับว่า "พารามิเตอร์" หรือไม่?
  • ถ้าใช่แล้วทำไม
  • หากไม่มีคุณลักษณะใดที่ไม่ควรระบุพารามิเตอร์ พวกเขาควรติดป้ายอะไร และทำไม?

อธิบายรายละเอียดเกี่ยวกับความสับสน

บทความ Wikipedia เกี่ยวกับตัวประมาณค่า:

"ตัวประมาณค่า" หรือ "การประมาณค่าจุด" คือสถิติ (นั่นคือฟังก์ชันของข้อมูล) ที่ใช้เพื่ออนุมานค่าของพารามิเตอร์ที่ไม่รู้จักในแบบจำลองทางสถิติ

แต่ฉันสามารถกำหนดค่าที่ไม่รู้จักเป็น. 25 quantile และฉันสามารถพัฒนาตัวประมาณค่าสำหรับค่าที่ไม่รู้จักนั้น คือคุณสมบัติเชิงปริมาณของประชากรทั้งหมดไม่ใช่พารามิเตอร์ในลักษณะเดียวกับที่บอกว่าค่าเฉลี่ยและ sd เป็นพารามิเตอร์ของการแจกแจงแบบปกติทว่ามันถูกต้องตามกฎหมายที่จะพยายามประเมินคุณสมบัติเชิงปริมาณของประชากร

คำตอบ:


15

คำถามนี้เป็นหัวใจสำคัญของสถิติและวิธีการวิเคราะห์ทางสถิติที่ดี มันทำให้เกิดปัญหามากมายคำศัพท์บางคำและทฤษฎีอื่น ๆ ในการชี้แจงพวกเขามาเริ่มด้วยการสังเกตบริบทโดยนัยของคำถามและดำเนินการต่อจากนั้นเพื่อกำหนดคำสำคัญ "พารามิเตอร์" "คุณสมบัติ" และ "ตัวประมาณ" คำถามหลายส่วนได้รับคำตอบเมื่อพวกเขาเข้ามามีส่วนร่วมในการอภิปราย ส่วนสรุปสุดท้ายสรุปความคิดหลัก

ช่องว่างของรัฐ

การใช้สถิติทั่วไปของ "การแจกแจง" เช่นเดียวกับใน "การแจกแจงแบบปกติที่มี PDF เป็นสัดส่วนกับ " เป็นจริง (อย่างจริงจัง) การละเมิดของภาษาอังกฤษเพราะเห็นได้ชัดว่านี้ไม่ได้เป็นหนึ่งกระจาย: มันเป็นทั้งครอบครัวของดิแปรโดยสัญลักษณ์และ\สัญกรณ์มาตรฐานนี้เป็น "พื้นที่ของรัฐ"เป็นชุดμσโอห์มโอห์มexp(12(xμ)/σ)2)dxμσΩของการแจกแจง (ฉันลดความซับซ้อนลงเล็กน้อยที่นี่เพื่อการแสดงออกและจะดำเนินการลดความซับซ้อนในขณะที่เราดำเนินการต่อไปในขณะที่เหลือให้เข้มงวดที่สุดเท่าที่จะทำได้) บทบาทของมันคือการวิเคราะห์เป้าหมายที่เป็นไปได้ของกระบวนการทางสถิติของเรา: เลือกออกหนึ่ง (หรือบางครั้งมากกว่า) องค์ประกอบของ\Ω

บางครั้งพื้นที่ของรัฐจะแปรอย่างชัดเจนในขณะที่\} ในคำอธิบายนี้มีการโต้ตอบแบบหนึ่งต่อหนึ่งระหว่างชุดของ tuplesในระนาบครึ่งบนและชุดการแจกแจงที่เราจะใช้เป็นแบบจำลองข้อมูลของเรา ค่าหนึ่งของการทำให้เป็นพารามิเตอร์นั้นคือตอนนี้เราอาจอ้างถึงการแจกแจงในเป็นรูปธรรมโดยวิธีการสั่งคู่ของจำนวนจริง{ ( μ , σ ) } ΩΩ={N(μ,σ2)|μR,σ>0}{(μ,σ)}Ω

ในกรณีอื่น ๆ การเว้นวรรคสถานะไม่ได้กำหนดพารามิเตอร์อย่างชัดเจน ตัวอย่างจะเป็นชุดของการแจกแจงแบบต่อเนื่องแบบ unimodal ทั้งหมด ด้านล่างนี้เราจะตอบคำถามว่ามีการกำหนดพารามิเตอร์ที่เพียงพอในกรณีดังกล่าวหรือไม่

Parameterizations

โดยทั่วไปparameterizationของเป็นจดหมาย (คณิตศาสตร์ฟังก์ชั่น ) จากส่วนย่อยของ (มีจำกัด ) เพื่อ\นั่นคือมันใช้ชุดคำสั่งของ -tuples เพื่อทำเลเบลการแจกแจง แต่มันไม่ได้เป็นเพียงการโต้ตอบใด ๆ : มันจะต้องมี "พฤติกรรมที่ดี" เพื่อให้เข้าใจสิ่งนี้ให้พิจารณาชุดของการแจกแจงแบบต่อเนื่องทั้งหมดที่ PDF มีความคาดหวัง จำกัด เรื่องนี้จะได้รับการยกย่องอย่างกว้างขวางว่าเป็น "ไม่ใช่ - พารามิเตอร์" ในแง่ที่ว่า "ธรรมชาติ" ความพยายามที่จะแปรสภาพชุดนี้จะเกี่ยวข้องกับลำดับของตัวเลขจำนวนจริง (ใช้การขยายตัวในพื้นฐาน orthogonal) อย่างไรก็ตามเนื่องจากชุดนี้มีภาวะเชิงการนับR d d Ω d 1 RΩRddΩd1ซึ่งเป็น cardinality ของ reals ที่ต้องมีบางจดหมายแบบหนึ่งต่อหนึ่งระหว่างการกระจายเหล่านี้และ{R} ขัดแย้งที่ดูเหมือนว่าจะทำให้พื้นที่ของรัฐแปรสภาพด้วยพารามิเตอร์จริงเดียว !R

ความขัดแย้งได้รับการแก้ไขโดยการสังเกตว่าจำนวนจริงเพียงอย่างเดียวไม่สามารถเพลิดเพลินกับความสัมพันธ์ "ดี" กับการแจกแจง: เมื่อเราเปลี่ยนค่าของตัวเลขนั้นการแจกแจงที่สอดคล้องกับต้องในบางกรณีการเปลี่ยนแปลงในวิธีที่ต่างไปจากเดิมอย่างสิ้นเชิง เราแยกแยะพารามิเตอร์ "ทางพยาธิวิทยา" ดังกล่าวโดยกำหนดให้การแจกแจงที่สอดคล้องกับค่าปิดของพารามิเตอร์นั้นต้อง "ปิด" ซึ่งกันและกัน การพูดถึงคำจำกัดความที่เหมาะสมของ "ปิด" จะพาเราไปไกลเกินไป แต่ฉันหวังว่าคำอธิบายนี้เพียงพอที่จะแสดงให้เห็นว่ามีพารามิเตอร์มากกว่าการตั้งชื่อการแจกจ่ายเฉพาะ

คุณสมบัติของการแจกแจง

ผ่านแอปพลิเคชันซ้ำ ๆ เราคุ้นเคยกับการคิดถึง "คุณสมบัติ" ของการแจกจ่ายเนื่องจากมีจำนวนที่เข้าใจได้ซึ่งปรากฏอยู่ในงานของเราเช่นความคาดหวังความแปรปรวนและอื่น ๆ ปัญหานี้เป็นคำนิยามที่เป็นไปได้ของ "คุณสมบัติ" คือมันคลุมเครือเกินไปและไม่กว้างพอ (นี่คือที่คณิตศาสตร์อยู่ในกลางศตวรรษที่ 18 ที่ "ฟังก์ชั่น" ถูกคิดว่าเป็นกระบวนการที่ จำกัด นำไปใช้กับวัตถุ) แทนเกี่ยวกับคำจำกัดความที่สมเหตุสมผลเพียงอย่างเดียวของ "ทรัพย์สิน" ที่จะทำงานเสมอคือการคิดของคุณสมบัติเป็น เป็นตัวเลขที่ได้รับมอบหมายให้เผยแพร่ในโดยไม่ซ้ำใครΩ Ω Ω ที1 ΩΩ. ซึ่งรวมถึงค่าเฉลี่ยความแปรปรวนช่วงเวลาใด ๆ การรวมกันของพีชคณิตของช่วงเวลาควอนไทล์และอีกมากมายรวมถึงสิ่งต่าง ๆ ที่ไม่สามารถคำนวณได้ แต่มันไม่ได้รวมถึงสิ่งที่จะทำให้รู้สึกไม่สำหรับบางส่วนขององค์ประกอบของ\ตัวอย่างเช่นถ้าประกอบด้วยการแจกแจงแบบนักเรียนทั้งหมดค่าเฉลี่ยจะไม่ใช่คุณสมบัติที่ถูกต้องสำหรับ (เพราะไม่มีค่าเฉลี่ย) สิ่งนี้ทำให้เราประทับใจอีกครั้งว่าความคิดของเราขึ้นอยู่กับจริงๆΩΩΩt1Ω

คุณสมบัติไม่ใช่พารามิเตอร์เสมอไป

คุณสมบัติอาจเป็นฟังก์ชันที่ซับซ้อนที่ไม่สามารถใช้เป็นพารามิเตอร์ได้ พิจารณากรณีของ "การแจกแจงแบบปกติ" เราอาจต้องการทราบว่าค่าเฉลี่ยของการแจกแจงจริงหรือไม่เมื่อปัดเศษเป็นจำนวนเต็มที่ใกล้เคียงที่สุดจะเป็นเลขคู่ นั่นคือทรัพย์สิน แต่มันจะไม่ทำหน้าที่เป็นพารามิเตอร์

พารามิเตอร์ไม่จำเป็นต้องมีคุณสมบัติ

เมื่อพารามิเตอร์และการแจกแจงอยู่ในการติดต่อแบบหนึ่งต่อหนึ่งดังนั้นพารามิเตอร์ใด ๆ และฟังก์ชั่นใด ๆ ของพารามิเตอร์สำหรับเรื่องนั้นเป็นคุณสมบัติตามคำจำกัดความของเรา แต่ไม่จำเป็นต้องมีการติดต่อแบบตัวต่อตัวระหว่างพารามิเตอร์และการแจกแจง: บางครั้งการแจกแจงสองสามอย่างจะต้องอธิบายด้วยค่าที่แตกต่างกันสองค่าหรือมากกว่าของพารามิเตอร์อย่างชัดเจน ตัวอย่างเช่นพารามิเตอร์ตำแหน่งสำหรับจุดบนทรงกลมจะใช้ละติจูดและลองจิจูดตามธรรมชาติ ที่ดี - ยกเว้นที่เสาสองซึ่งสอดคล้องกับละติจูดที่กำหนดและใด ๆเส้นแวงที่ถูกต้อง สถานที่ตั้ง(จุดบนทรงกลม) แน่นอนเป็นสมบัติ แต่ลองจิจูดไม่จำเป็นต้องเป็นทรัพย์สิน แม้ว่าจะมีหลาย dodges (เพียงแค่ประกาศลองจิจูดของเสาให้เป็นศูนย์เช่น) ปัญหานี้เน้นความแตกต่างทางความคิดที่สำคัญระหว่างคุณสมบัติ (ซึ่งมีความเกี่ยวข้องกับการกระจาย) และพารามิเตอร์ (ซึ่งเป็นวิธีการติดฉลาก การกระจายและอาจไม่ซ้ำกัน)

วิธีการทางสถิติ

เป้าหมายของการประมาณการจะเรียกว่าestimand มันเป็นเพียงทรัพย์สิน นักสถิติไม่สามารถเลือกค่าประมาณได้: นั่นคือจังหวัดของลูกค้าของเธอ เมื่อมีคนมาหาคุณพร้อมตัวอย่างของประชากรและขอให้คุณประเมินเปอร์เซ็นไทล์ 99 ของประชากรคุณมีแนวโน้มที่จะชำระเงินในการจัดหาตัวประมาณค่าเฉลี่ยแทน! งานของคุณในฐานะนักสถิติคือการระบุขั้นตอนที่ดีสำหรับการประเมินค่าประมาณที่คุณได้รับ (บางครั้งงานของคุณคือการชักชวนลูกค้าของคุณว่าเขาเลือกการประเมินที่ไม่ถูกต้องสำหรับวัตถุประสงค์ทางวิทยาศาสตร์ของเขา แต่นั่นเป็นปัญหาที่แตกต่างกัน ... )

โดยนิยามโพรซีเดอร์เป็นวิธีที่จะดึงตัวเลขออกมาจากข้อมูล ขั้นตอนมักจะได้รับเป็นสูตรที่จะใช้กับข้อมูลเช่น "เพิ่มพวกเขาทั้งหมดและหารด้วยการนับของพวกเขา" แท้จริงขั้นตอนใด ๆอาจถูกเรียกว่า "ตัวประมาณ" ของตัวประมาณที่ระบุ ตัวอย่างเช่นฉันสามารถประกาศว่าค่าเฉลี่ยตัวอย่าง (สูตรที่ใช้กับข้อมูล) ประเมินความแปรปรวนของประชากร (คุณสมบัติของประชากรโดยสมมติว่าลูกค้าของเราได้ จำกัด ชุดของประชากรที่เป็นไปได้เพื่อรวมเฉพาะที่มีความแปรปรวนจริง) .Ω

ประมาณ

เครื่องมือประมาณค่าไม่จำเป็นต้องมีการเชื่อมต่อที่ชัดเจนกับตัวประมาณค่า ตัวอย่างเช่นคุณเห็นการเชื่อมต่อใด ๆ ระหว่างค่าเฉลี่ยตัวอย่างและความแปรปรวนประชากรหรือไม่ แต่ฉันก็ไม่ได้หมายความว่าตัวอย่างจริง ๆ แล้วเป็นตัวประมาณค่าความแปรปรวนของประชากรสำหรับΩ (เช่นชุดของการแจกแจงปัวซองทั้งหมด) ตรงนี้เองที่หนึ่งที่สำคัญในการประมาณค่าความเข้าใจคุณภาพของพวกเขาขึ้นอยู่กับการตั้งค่าของรัฐที่เป็นไปได้\แต่นั่นเป็นเพียงส่วนหนึ่งของมันΩ

นักสถิติที่มีความสามารถจะต้องการทราบว่าขั้นตอนที่พวกเขาแนะนำนั้นจะทำงานได้ดีเพียงใด ขอเรียกขั้นตอน " " และปล่อยให้ estimand เป็น\ไม่ทราบว่าการกระจายจริงเป็นหนึ่งที่จริงเธอจะพิจารณาผลการดำเนินงานตามขั้นตอนของสำหรับการจัดจำหน่ายเป็นไปได้ทุก\ เมื่อให้ค่าและผลลัพธ์ที่เป็นไปได้ (นั่นคือชุดข้อมูล) เธอจะเปรียบเทียบ (สิ่งที่กระบวนการประเมินของเธอ) กับ (ค่าของการประมาณค่าสำหรับ ) มันเป็นความรับผิดชอบของลูกค้าของเธอที่จะบอกเธอว่าใกล้หรือไกลทั้งสองนั้นθ F Ω F s T ( s ) θ ( F ) F T ( s ) θ ( F ) F Ωtθ FΩFst(s)θ(F)F (ซึ่งมักจะทำด้วย "สูญเสีย" ฟังก์ชั่น.) จากนั้นเธอสามารถพิจารณาความคาดหวังของระยะห่างระหว่างและ(F) นี่คือความเสี่ยงของกระบวนการของเธอ เพราะมันขึ้นอยู่กับ , ความเสี่ยงที่มีฟังก์ชั่นกำหนดไว้ใน\t(s)θ(F)FΩ

(ดี) นักสถิติแนะนำขั้นตอนตามการเปรียบเทียบความเสี่ยง ตัวอย่างเช่นสมมติว่าทุกความเสี่ยงของขั้นตอนน้อยกว่าหรือเท่ากับความเสี่ยงของเสื้อดังนั้นจึงไม่มีเหตุผลที่จะใช้ : มันคือ "ไม่ยอมรับ" มิฉะนั้นจะเป็น "ยอมรับได้"ที1ทีทีFΩt1tt

(สถิติ "Bayesian" มักจะเปรียบเทียบความเสี่ยงโดยการเฉลี่ยมากกว่าการกระจาย "ก่อน" ของรัฐที่เป็นไปได้ (มักจะจัดทำโดยลูกค้า) สถิติ "บ่อย" อาจทำเช่นนี้หากมีอยู่ก่อน justifiably แต่ก็เต็มใจที่จะ เปรียบเทียบความเสี่ยงในรูปแบบอื่น Bayesians หลบเลี่ยง)

สรุปผลการวิจัย

เรามีสิทธิที่จะบอกว่าใด ๆที่เป็นที่ยอมรับสำหรับเป็นประมาณการของ\θ θ tθθ เราต้องเพื่อประโยชน์ (เพราะขั้นตอนการยอมรับสามารถจะหายาก) โค้งนี้เพื่อบอกว่าใด ๆที่มีขนาดเล็กมีความเสี่ยงที่ยอมรับได้ (เมื่อถูกเมื่อเทียบกับ ) หมู่ขั้นตอนการปฏิบัติเป็นประมาณการของ\ "ยอมรับได้" และ "สามารถปฏิบัติได้" ถูกกำหนดโดยลูกค้าแน่นอน: "ยอมรับได้" หมายถึงความเสี่ยงของพวกเขาและ "ปฏิบัติได้" สะท้อนถึงต้นทุน (ในที่สุดจ่ายโดยพวกเขา) ในการดำเนินการตามขั้นตอนเสื้อθ θtθθ

ภายใต้คำจำกัดความที่รัดกุมนี้เป็นความคิดทั้งหมดที่กล่าวถึง: เพื่อให้เข้าใจว่าเราต้องมีเฉพาะเจาะจง(ซึ่งเป็นรูปแบบของปัญหากระบวนการหรือประชากรที่อยู่ระหว่างการศึกษา), การประมาณที่ชัดเจน (จัดหาโดยลูกค้า) ฟังก์ชั่นการสูญเสียที่เฉพาะเจาะจง (ซึ่งเชื่อมโยงเชิงปริมาณกับการประมาณและมอบให้โดยลูกค้า) ความคิดของความเสี่ยง (คำนวณโดยสถิติ) ขั้นตอนบางอย่างสำหรับการเปรียบเทียบฟังก์ชั่นความเสี่ยง (ความรับผิดชอบของนักสถิติในการปรึกษาหารือกับลูกค้า) และความรู้สึกของกระบวนการที่สามารถดำเนินการได้จริง (ปัญหา "ความเหมาะสม") แม้ว่าจะไม่มีการกล่าวถึงสิ่งเหล่านี้อย่างชัดเจนในคำนิยามtΩt


2
@Nick Cox ในการตอบกลับของเขาแสดงให้เห็นถึงจุดที่ยอดเยี่ยมที่ (ในการตีความของฉัน) ไปที่ "เราจะทำอย่างไรเมื่อเรารู้ว่าโมเดลและฟังก์ชั่นการสูญเสียใด ๆ ที่เราระบุจะไม่ถูกต้องหรือไม่เพียงพอ?" คำตอบที่จะพาเราไปในทิศทางที่แตกต่างกัน; ทั้งหมดที่ฉันต้องการจะพูดที่นี่คือกรอบที่ฉันได้กำหนดไว้ - ซึ่งเป็นแบบดั้งเดิมที่ Tukey ตอบสนอง - ทำให้เรามีพื้นฐานที่ดีสำหรับการคิดเกี่ยวกับคำถามที่กว้างขึ้นของการวิเคราะห์ข้อมูล อย่างน้อยที่สุดมันจะอธิบายสมมติฐานโดยนัยที่เข้าสู่ข้อกำหนดมาตรฐานเช่น "ตัวประมาณ" Ω
whuber

11

เช่นเดียวกับคำถามมากมายเกี่ยวกับคำจำกัดความคำตอบจำเป็นต้องมีตาทั้งในหลักการพื้นฐานและวิธีการใช้คำศัพท์ในการปฏิบัติซึ่งมักจะเป็นอย่างน้อยหลวมหรือไม่สอดคล้องกันแม้โดยบุคคลที่ทราบดีและอื่น ๆ ที่สำคัญตัวแปรจากชุมชนสู่ชุมชน

หลักการทั่วไปอย่างหนึ่งคือสถิติเป็นสมบัติของตัวอย่างและค่าคงที่ที่รู้จักและพารามิเตอร์คือคุณสมบัติที่สอดคล้องกันของประชากรและค่าคงที่ที่ไม่รู้จัก คำว่า "ตรงกัน" นั้นเป็นที่เข้าใจได้ว่าค่อนข้างยืดหยุ่น อนึ่งความแตกต่างนี้และคำศัพท์นี้แม่นยำน้อยกว่าหนึ่งศตวรรษโดยได้รับการแนะนำโดย RA Fisher

แต่

  1. การตั้งค่ากลุ่มตัวอย่างและประชากรไม่ได้บ่งบอกปัญหาของเราทั้งหมด อนุกรมเวลาเป็นตัวอย่างหนึ่งที่สำคัญซึ่งเป็นแนวคิดที่ค่อนข้างจะเป็นกระบวนการสร้างต้นแบบและสิ่งที่คล้ายกันนั้นเป็นแนวคิดที่ลึกซึ้งและกว้างกว่า

  2. มีการตั้งค่าที่พารามิเตอร์เปลี่ยนแปลง อีกครั้งการวิเคราะห์อนุกรมเวลาแสดงตัวอย่าง

  3. ถึงจุดหลักที่นี่เราไม่ได้คิดว่าคุณสมบัติทั้งหมดของประชากรหรือกระบวนการเป็นพารามิเตอร์ หากบางโพรซีเดอร์สันนิษฐานว่าเป็นโมเดลของการแจกแจงแบบปกติดังนั้นค่าต่ำสุดและค่าสูงสุดไม่ใช่พารามิเตอร์ (อันที่จริงตามรูปแบบต่ำสุดและสูงสุดคือจำนวนลบและบวกขนาดใหญ่โดยพลการในทางใด ๆ ไม่ใช่ว่าควรกังวลเรา)

ฉันจะบอกว่าเป็นครั้งแรกที่วิกิพีเดียชี้ไปในทิศทางที่ถูกต้องที่นี่และการปฏิบัติและหลักการมีทั้งที่เคารพถ้าเราบอกว่าพารามิเตอร์เป็นสิ่งที่เราประมาณการ

สิ่งนี้จะช่วยได้ด้วยคำถามอื่น ๆ ตัวอย่างเช่นหากเราคำนวณค่าเฉลี่ยที่ถูกตัด 25% สิ่งที่เราประเมินคืออะไร คำตอบที่สมเหตุสมผลคือคุณสมบัติที่สอดคล้องกันของประชากรซึ่งผลจะถูกกำหนดโดยวิธีการประมาณ คำศัพท์หนึ่งคือตัวประมาณมีตัวประมาณค่าอะไรก็ตามที่ประมาณ เริ่มต้นด้วยความคิดอย่างสงบของคุณสมบัติ "ออกมี" (พูดโหมดของการกระจาย) และคิดวิธีการประเมินที่เหมาะสมเช่นเดียวกับการคิดสูตรที่ดีสำหรับการวิเคราะห์ข้อมูลและการคิดผ่านสิ่งที่พวกเขาหมายถึงเมื่อถือว่าเป็นการอนุมาน

บ่อยครั้งในคณิตศาสตร์หรือวิทยาศาสตร์ประยุกต์มีพารามิเตอร์สองด้าน เรามักจะคิดว่ามันเป็นสิ่งที่เกิดขึ้นจริงที่เราค้นพบ แต่ก็เป็นความจริงที่ว่ามันเป็นสิ่งที่กำหนดโดยแบบจำลองกระบวนการของเราดังนั้นจึงไม่มีความหมายนอกบริบทของแบบจำลอง

สองจุดที่แตกต่างกันมาก:

  1. นักวิทยาศาสตร์หลายคนใช้คำว่า "พารามิเตอร์" ในลักษณะที่นักสถิติใช้ตัวแปร ฉันมีนักวิทยาศาสตร์คนหนึ่งและนักสถิติและฉันก็บอกว่ามันโชคร้าย ตัวแปรและคุณสมบัติเป็นคำที่ดีกว่า

  2. เป็นเรื่องปกติที่พบเห็นได้ทั่วไปในการใช้ภาษาอังกฤษในวงกว้างว่าพารามิเตอร์นั้นหมายถึงขีด จำกัด หรือขอบเขตซึ่งอาจเกิดจากความสับสนดั้งเดิมระหว่าง "พารามิเตอร์" และ "ปริมณฑล"

หมายเหตุเกี่ยวกับมุมมองที่ประมาณไว้

ตำแหน่งแบบคลาสสิกคือเราระบุพารามิเตอร์ล่วงหน้าแล้วตัดสินใจว่าจะประมาณค่าอย่างไรและนี่ยังคงเป็นแนวทางปฏิบัติส่วนใหญ่ แต่การกลับกระบวนการไม่ไร้สาระและอาจเป็นประโยชน์สำหรับปัญหาบางอย่าง ฉันเรียกสิ่งนี้ว่ามุมมองโดยประมาณ มันอยู่ในวรรณคดีเป็นเวลาอย่างน้อย 50 ปี Tukey (1962, หน้า 60) กระตุ้นให้

"เราจะต้องให้ความสนใจมากขึ้นในการเริ่มต้นด้วยตัวประมาณและค้นหาสิ่งที่เป็นตัวประมาณที่สมเหตุสมผลเพื่อค้นหาสิ่งที่สมเหตุสมผลที่จะคิดว่าตัวประมาณเป็นตัวประมาณ"

มุมมองที่คล้ายกันได้รับการอธิบายอย่างเป็นทางการในรายละเอียดและความลึกจำนวนมากโดย Bickel และ Lehmann (1975) และอย่างไม่เป็นทางการโดยมีความชัดเจนมากโดย Mosteller และ Tukey (1977, pp.32-34)

นอกจากนี้ยังมีรุ่นพื้นฐาน การใช้ (พูด) ค่ามัธยฐานตัวอย่างหรือเรขาคณิตหมายถึงการประมาณค่าพารามิเตอร์ประชากรที่สอดคล้องกันทำให้รู้สึกโดยไม่คำนึงว่าการกระจายพื้นฐานเป็นสมมาตรและค่าความนิยมเดียวกันสามารถขยายไปถึง (ตัวอย่าง) วิธีการตัดตัวอย่างซึ่งถือว่าเป็นตัวประมาณของประชากร .

Bickel, PJ และ EL Lehmann 1975. สถิติเชิงพรรณนาสำหรับโมเดลที่ไม่ใช่พารามิเตอร์ ครั้งที่สอง ที่ตั้ง บันทึกสถิติ 3: 1045-1069

Mosteller, F. และ JW Tukey 2520. การวิเคราะห์ข้อมูลและการถดถอย Reading, MA: Addison-Wesley

Tukey เจดับบลิว 1962 อนาคตของการวิเคราะห์ข้อมูล พงศาวดารของสถิติคณิตศาสตร์ 33: 1-67


สิ่งเหล่านี้ดูขัดแย้งกับวรรณคดีเชิงสถิติมาตรฐานโดยเฉพาะอย่างยิ่งนิยามพารามิเตอร์ของคุณ ดูเหมือนว่าจะทำให้กระบวนการในการค้นหาขั้นตอนเพื่อคำนวณค่าประมาณนั้นสับสนและระบุสิ่งที่จะถูกประเมิน หลัง - การเลือกการประมาณค่า - เป็นเรื่องสำหรับนักวิทยาศาสตร์หรือนักวิจัยในการพิจารณา จากนั้นอดีตนักสถิติจะถูกเลือกโดยนักสถิติเพื่อให้มีคุณสมบัติที่พึงประสงค์ในทุกขั้นตอนที่เป็นไปได้สำหรับการประมาณค่า นอกจากนี้ยังมีปัญหาทางเทคนิค พอเพียงเพื่อบอกว่าพารามิเตอร์นั้นถูก จำกัด มากกว่าการประมาณค่าโดยพลการ
whuber

ฉันจะขยายคำตอบเพื่อแก้ไขสิ่งนี้
Nick Cox

1
ฉันเห็นด้วยกับ Tukey แม้ว่าคุณจะคิดจากคำตอบของฉันในหัวข้อนี้ว่าฉันเป็นหนึ่งในนักสถิติ "ที่กลายเป็นกระดูก" ที่เขาท้าทาย ปัญหาคือคุณได้เอาคำพูดของเขาออกไปจากบริบท Tukey ตอบคำถามเฉพาะเกี่ยวกับวิธีการประเมินคุณสมบัติของขั้นตอน "โดยเฉพาะเมื่อสมมติฐานที่พวกเขาได้รับการพัฒนาตามปกติไม่ถือ" สิ่งนี้จะไม่เปลี่ยนนิยามของสิ่งต่าง ๆ เช่นพารามิเตอร์ตัวประมาณและตัวประมาณ โดยเฉพาะอย่างยิ่งพารามิเตอร์ยังไม่ "สิ่งที่เรากำลังประเมิน"
whuber

3
อาหารมากสำหรับความคิดที่นี่ ในการตอบกลับอย่างรวดเร็ว: คำตอบของฉันไม่ได้ตั้งใจที่จะบอกเป็นนัยว่าเราอยู่ใน Liberty Hall ทุกสิ่งที่เกิดขึ้น บริบทสำหรับใบเสนอราคา Tukey ที่ฉันยินดีเพราะเป็นมุมมองของฉันว่ามันเป็นเรื่องปกติที่สมมติฐานตามจารีตประเพณีไม่ได้ถูกเก็บรักษาไว้ตราบใดที่แบบจำลองทั้งหมดมีการประมาณค่าที่ไม่ตรงกับข้อมูลทั้งหมด ห่างไกลจากการกัดประโยคนั้นขีดเส้นใต้คุณค่าของมุมมองที่แตกต่างกัน โดยทั่วไปแล้วฉันไม่ได้พยายามหรือมีคุณสมบัติในการผลิตคำจำกัดความเป็นทางการที่ละเอียดอ่อนและเป็นนามธรรมมากขึ้น
นิคค็อกซ์

6

ฉันมักจะคิดถึงพารามิเตอร์โดยการเปรียบเทียบโดยคิดถึงการแจกแจงแบบปกติ: สิ่งที่สำคัญที่ต้องจดจำเกี่ยวกับฟังก์ชั่นนี้ก็คือมันน่าเกลียดอย่างที่มันเป็นฉันค่อนข้างรู้ว่าส่วนใหญ่เป็นอย่างไร ตัวอย่างเช่นฉันรู้ว่าตัวเลขและคืออะไรคืออะไร ( ) และคืออะไร( ); ฉันรู้ว่ามันหมายถึงอะไรที่จะยกกำลังสองบางอย่างหรือเอาสแควร์รูทของบางอย่าง - ฉันรู้ทุกอย่างแล้ว นอกจากนี้หากฉันต้องการทราบความสูงของฟังก์ชั่นที่ค่าบางค่า

pdf=12πσ2e12(xiμ)2σ2
12π3.1415926e2.718281828Xxiแล้วผมเห็นได้ชัดรู้ว่าคุ้มค่ามากเกินไป ในคำอื่น ๆ เมื่อฉันรู้ว่าสมการข้างต้นคือสิ่งที่ฉันต้องการที่จะทำงานกับฉันรู้ว่าทุกอย่างมีความรู้ว่าเมื่อฉันได้เรียนรู้ค่าสำหรับและμσ2 2 ค่าเหล่านั้นเป็นพารามิเตอร์ โดยเฉพาะพวกมันคือค่าคงที่ที่ไม่รู้จักซึ่งควบคุมพฤติกรรมของการแจกแจง ตัวอย่างเช่นถ้าฉันต้องการทราบค่าที่สอดคล้องกับฉันสามารถตรวจสอบได้ว่า (หรืออะไรก็ได้ที่เกี่ยวข้องกับการแจกแจงนั้น) หลังจากรู้และX25th%μσ2(แต่ไม่ใช่วิธีอื่น ๆ ) สิทธิ์ของสมการข้างต้นและในลักษณะที่ไม่ได้มีไว้สำหรับค่าอื่นใด μσ2

ในทำนองเดียวกันถ้าฉันทำงานกับ OLS หลายแบบจำลองการถดถอยซึ่งกระบวนการสร้างข้อมูลจะถือว่าเป็น: หลังจากนั้นเมื่อฉันเรียนรู้ (ในทางปฏิบัติประมาณ ) ค่าของ , ,และฉันรู้ทุกอย่างที่มี ที่จะรู้ว่า อะไรก็ได้เช่นของการแจกแจงแบบมีเงื่อนไขของโดยที่ฉันสามารถคำนวณตามความรู้ของ
β 0 β 1 β 2 σ 2 25 th % Y X = x i β 0 β 1 β 2 σ 2 β 0 β 1 β 2 σ 2

Y=β0+β1X1+β2X2+εwhere εN(0,σ2)
β0β1β2σ225th%YX=xiβ0, ,และ 2 แบบจำลองการถดถอยหลายแบบด้านบนสิทธิพิเศษ , ,และในลักษณะที่มันไม่ได้มีไว้สำหรับค่าอื่น ๆ β1β2σ2β0β1β2σ2

(ทั้งหมดนี้ถือว่าแน่นอนว่าแบบจำลองการกระจายตัวประชากรหรือกระบวนการสร้างข้อมูลของฉันถูกต้องมันเป็นสิ่งที่ควรคำนึงเสมอว่า "ทุกรุ่นผิด แต่มีประโยชน์" - George Box )

เพื่อตอบคำถามของคุณอย่างชัดเจนยิ่งขึ้นฉันจะพูดว่า:

  • ไม่การวัดเชิงปริมาณแบบเก่าไม่ควรติดป้ายกำกับว่า "พารามิเตอร์"
  • n / a
  • คุณสมบัติที่ควรระบุว่า "พารามิเตอร์" ขึ้นอยู่กับข้อกำหนดของรุ่น ฉันไม่มีชื่อพิเศษสำหรับคุณสมบัติเชิงปริมาณอื่น ๆ แต่ฉันคิดว่าการเรียกคุณสมบัติหรือลักษณะหรือผลที่ตามมานั้นเป็นเรื่องดี

ขอบคุณ แต่คุณใช้คำศัพท์แบบใดในการอธิบายค่าประชากรทั้งหมดที่สามารถได้มาจากตัวแบบพารามิเตอร์ แต่ไม่ได้อยู่ในชุดพารามิเตอร์ที่สะดวกสำหรับการแสดงแบบจำลองนั้น หรือมิฉะนั้นอาจมีกรณีที่คุณไม่รู้รูปแบบประชากรและไม่สนใจเป็นพิเศษ แต่สนใจในรูปแบบประชากรที่ไม่ได้มาตรฐานโดยเฉพาะ
Jeromy Anglim

ฉันไม่มีชื่อพิเศษที่บังคับใช้โดยทั่วไป แต่มีชื่อสำหรับค่าบางอย่าง ตัวอย่างเช่นหากคุณไม่เชื่อว่าประชากรของคุณใกล้เคียงกับการแจกแจงที่ได้รับการศึกษามาอย่างดีพอคุณสามารถพยายามอธิบายลักษณะดังกล่าวด้วยค่ามัธยฐานควอไทล์คะแนนบานพับ ฯลฯ
gung - Reinstate Monica

3
ปัญหาเล็กน้อยเกี่ยวกับพารามิเตอร์ถูกเปิดเผยโดยเคล็ดลับคอมพิวเตอร์เก่า: ใช้การแทนแบบไบนารี่ (หรือทศนิยม) ของและและสอดแทรก (โดยกลุ่มสี่) เพื่อสร้างไบนารีใหม่ (หรือ ทศนิยม) จำนวน\เห็นได้ชัดว่ากระบวนการนี้สามารถย้อนกลับได้: คุณสามารถอ่านจากตัวเลขหลักที่หนึ่ง, ห้า, เก้า, ... และอื่น ๆ ของและอื่น ๆ ดังนั้น "เมื่อ [คุณ] เรียนรู้คุณค่าของ [คุณ] รู้ทุกสิ่งที่ควรรู้" แต่คือไม่พารามิเตอร์ที่ถูกต้องเนื่องจากวิธีที่บิดเบี้ยวในสิ่งที่มันเป็นไปได้ที่การกระจายป้าย σ θ β 0 θ θ θβ0,β1,β2,σθβ0θθθ
whuber

3

มีคำตอบที่ดีสำหรับคำถามนี้ฉันแค่คิดว่าฉันจะสรุปข้อมูลอ้างอิงที่น่าสนใจที่ให้การอภิปรายอย่างเข้มงวดเกี่ยวกับตัวประมาณ

ห้องปฏิบัติการเสมือนหน้าประมาณ กำหนด

  • สถิติเป็น "ฟังก์ชั่นที่สังเกตของตัวแปรผล"
  • "ในแง่เทคนิคพารามิเตอร์ เป็นฟังก์ชันของการแจกแจง X"θ

แนวคิดของฟังก์ชันของการแจกแจงเป็นแนวคิดทั่วไปมาก ดังนั้นทุกตัวอย่างที่ให้ไว้ข้างต้นอาจถูกมองว่าเป็นฟังก์ชันของการแจกแจงบางอย่าง

  • ทุกควอไทล์รวมถึง min, มัธยฐาน, ควอไทล์ที่ 25, max สามารถเป็นฟังก์ชันของการแจกแจง
  • ความเบ้เป็นฟังก์ชันของการแจกแจง หากการกระจายตัวของประชากรเป็นเรื่องปกติสิ่งเหล่านี้จะเป็นศูนย์ แต่นั่นไม่ได้หยุดการคำนวณค่าเหล่านี้
  • การนับจำนวนสหสัมพันธ์ที่มากกว่าค่าที่แน่นอนคือฟังก์ชันของเมทริกซ์ความแปรปรวนร่วมซึ่งจะเป็นฟังก์ชันของการแจกแจงหลายตัวแปร
  • R-squared เป็นฟังก์ชันของการแจกแจง

1
เหตุผลหนึ่งที่ฉันเสนอคำตอบที่ละเอียดกว่านี้คือคำจำกัดความของ "พารามิเตอร์" นั้นไม่ดีพอ สำหรับหนึ่ง counterexample ดูความคิดเห็นของฉันที่จะตอบ @ ยินดีปรีดาของ สังหรณ์ใจชุดของพารามิเตอร์การกระจายรูปแบบ จำกัด มิติทอพอโลยีต่าง ๆ นานาที่มีขอบเขต; พารามิเตอร์จะต้องมีฟังก์ชั่นต่อเนื่องที่กำหนดไว้ในท่อร่วมไอดี นี่เป็นมากกว่าข้อกำหนดทางเทคนิคเพราะมันเกี่ยวข้องกับการกระจายตัวตัวอย่างของการประมาณ
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.