คำถามนี้เป็นหัวใจสำคัญของสถิติและวิธีการวิเคราะห์ทางสถิติที่ดี มันทำให้เกิดปัญหามากมายคำศัพท์บางคำและทฤษฎีอื่น ๆ ในการชี้แจงพวกเขามาเริ่มด้วยการสังเกตบริบทโดยนัยของคำถามและดำเนินการต่อจากนั้นเพื่อกำหนดคำสำคัญ "พารามิเตอร์" "คุณสมบัติ" และ "ตัวประมาณ" คำถามหลายส่วนได้รับคำตอบเมื่อพวกเขาเข้ามามีส่วนร่วมในการอภิปราย ส่วนสรุปสุดท้ายสรุปความคิดหลัก
ช่องว่างของรัฐ
การใช้สถิติทั่วไปของ "การแจกแจง" เช่นเดียวกับใน "การแจกแจงแบบปกติที่มี PDF เป็นสัดส่วนกับ " เป็นจริง (อย่างจริงจัง) การละเมิดของภาษาอังกฤษเพราะเห็นได้ชัดว่านี้ไม่ได้เป็นหนึ่งกระจาย: มันเป็นทั้งครอบครัวของดิแปรโดยสัญลักษณ์และ\สัญกรณ์มาตรฐานนี้เป็น "พื้นที่ของรัฐ"เป็นชุดμσโอห์มโอห์มexp(−12(x−μ)/σ)2)dxμσΩของการแจกแจง (ฉันลดความซับซ้อนลงเล็กน้อยที่นี่เพื่อการแสดงออกและจะดำเนินการลดความซับซ้อนในขณะที่เราดำเนินการต่อไปในขณะที่เหลือให้เข้มงวดที่สุดเท่าที่จะทำได้) บทบาทของมันคือการวิเคราะห์เป้าหมายที่เป็นไปได้ของกระบวนการทางสถิติของเรา: เลือกออกหนึ่ง (หรือบางครั้งมากกว่า) องค์ประกอบของ\Ω
บางครั้งพื้นที่ของรัฐจะแปรอย่างชัดเจนในขณะที่\} ในคำอธิบายนี้มีการโต้ตอบแบบหนึ่งต่อหนึ่งระหว่างชุดของ tuplesในระนาบครึ่งบนและชุดการแจกแจงที่เราจะใช้เป็นแบบจำลองข้อมูลของเรา ค่าหนึ่งของการทำให้เป็นพารามิเตอร์นั้นคือตอนนี้เราอาจอ้างถึงการแจกแจงในเป็นรูปธรรมโดยวิธีการสั่งคู่ของจำนวนจริง{ ( μ , σ ) } ΩΩ={N(μ,σ2)|μ∈R,σ>0}{(μ,σ)}Ω
ในกรณีอื่น ๆ การเว้นวรรคสถานะไม่ได้กำหนดพารามิเตอร์อย่างชัดเจน ตัวอย่างจะเป็นชุดของการแจกแจงแบบต่อเนื่องแบบ unimodal ทั้งหมด ด้านล่างนี้เราจะตอบคำถามว่ามีการกำหนดพารามิเตอร์ที่เพียงพอในกรณีดังกล่าวหรือไม่
Parameterizations
โดยทั่วไปparameterizationของเป็นจดหมาย (คณิตศาสตร์ฟังก์ชั่น ) จากส่วนย่อยของ (มีจำกัด ) เพื่อ\นั่นคือมันใช้ชุดคำสั่งของ -tuples เพื่อทำเลเบลการแจกแจง แต่มันไม่ได้เป็นเพียงการโต้ตอบใด ๆ : มันจะต้องมี "พฤติกรรมที่ดี" เพื่อให้เข้าใจสิ่งนี้ให้พิจารณาชุดของการแจกแจงแบบต่อเนื่องทั้งหมดที่ PDF มีความคาดหวัง จำกัด เรื่องนี้จะได้รับการยกย่องอย่างกว้างขวางว่าเป็น "ไม่ใช่ - พารามิเตอร์" ในแง่ที่ว่า "ธรรมชาติ" ความพยายามที่จะแปรสภาพชุดนี้จะเกี่ยวข้องกับลำดับของตัวเลขจำนวนจริง (ใช้การขยายตัวในพื้นฐาน orthogonal) อย่างไรก็ตามเนื่องจากชุดนี้มีภาวะเชิงการนับR d d Ω d ℵ 1 RΩRddΩdℵ1ซึ่งเป็น cardinality ของ reals ที่ต้องมีบางจดหมายแบบหนึ่งต่อหนึ่งระหว่างการกระจายเหล่านี้และ{R} ขัดแย้งที่ดูเหมือนว่าจะทำให้พื้นที่ของรัฐแปรสภาพด้วยพารามิเตอร์จริงเดียว !R
ความขัดแย้งได้รับการแก้ไขโดยการสังเกตว่าจำนวนจริงเพียงอย่างเดียวไม่สามารถเพลิดเพลินกับความสัมพันธ์ "ดี" กับการแจกแจง: เมื่อเราเปลี่ยนค่าของตัวเลขนั้นการแจกแจงที่สอดคล้องกับต้องในบางกรณีการเปลี่ยนแปลงในวิธีที่ต่างไปจากเดิมอย่างสิ้นเชิง เราแยกแยะพารามิเตอร์ "ทางพยาธิวิทยา" ดังกล่าวโดยกำหนดให้การแจกแจงที่สอดคล้องกับค่าปิดของพารามิเตอร์นั้นต้อง "ปิด" ซึ่งกันและกัน การพูดถึงคำจำกัดความที่เหมาะสมของ "ปิด" จะพาเราไปไกลเกินไป แต่ฉันหวังว่าคำอธิบายนี้เพียงพอที่จะแสดงให้เห็นว่ามีพารามิเตอร์มากกว่าการตั้งชื่อการแจกจ่ายเฉพาะ
คุณสมบัติของการแจกแจง
ผ่านแอปพลิเคชันซ้ำ ๆ เราคุ้นเคยกับการคิดถึง "คุณสมบัติ" ของการแจกจ่ายเนื่องจากมีจำนวนที่เข้าใจได้ซึ่งปรากฏอยู่ในงานของเราเช่นความคาดหวังความแปรปรวนและอื่น ๆ ปัญหานี้เป็นคำนิยามที่เป็นไปได้ของ "คุณสมบัติ" คือมันคลุมเครือเกินไปและไม่กว้างพอ (นี่คือที่คณิตศาสตร์อยู่ในกลางศตวรรษที่ 18 ที่ "ฟังก์ชั่น" ถูกคิดว่าเป็นกระบวนการที่ จำกัด นำไปใช้กับวัตถุ) แทนเกี่ยวกับคำจำกัดความที่สมเหตุสมผลเพียงอย่างเดียวของ "ทรัพย์สิน" ที่จะทำงานเสมอคือการคิดของคุณสมบัติเป็น เป็นตัวเลขที่ได้รับมอบหมายให้เผยแพร่ในโดยไม่ซ้ำใครΩ Ω Ω ที1 ΩΩ. ซึ่งรวมถึงค่าเฉลี่ยความแปรปรวนช่วงเวลาใด ๆ การรวมกันของพีชคณิตของช่วงเวลาควอนไทล์และอีกมากมายรวมถึงสิ่งต่าง ๆ ที่ไม่สามารถคำนวณได้ แต่มันไม่ได้รวมถึงสิ่งที่จะทำให้รู้สึกไม่สำหรับบางส่วนขององค์ประกอบของ\ตัวอย่างเช่นถ้าประกอบด้วยการแจกแจงแบบนักเรียนทั้งหมดค่าเฉลี่ยจะไม่ใช่คุณสมบัติที่ถูกต้องสำหรับ (เพราะไม่มีค่าเฉลี่ย) สิ่งนี้ทำให้เราประทับใจอีกครั้งว่าความคิดของเราขึ้นอยู่กับจริงๆΩΩΩt1Ω
คุณสมบัติไม่ใช่พารามิเตอร์เสมอไป
คุณสมบัติอาจเป็นฟังก์ชันที่ซับซ้อนที่ไม่สามารถใช้เป็นพารามิเตอร์ได้ พิจารณากรณีของ "การแจกแจงแบบปกติ" เราอาจต้องการทราบว่าค่าเฉลี่ยของการแจกแจงจริงหรือไม่เมื่อปัดเศษเป็นจำนวนเต็มที่ใกล้เคียงที่สุดจะเป็นเลขคู่ นั่นคือทรัพย์สิน แต่มันจะไม่ทำหน้าที่เป็นพารามิเตอร์
พารามิเตอร์ไม่จำเป็นต้องมีคุณสมบัติ
เมื่อพารามิเตอร์และการแจกแจงอยู่ในการติดต่อแบบหนึ่งต่อหนึ่งดังนั้นพารามิเตอร์ใด ๆ และฟังก์ชั่นใด ๆ ของพารามิเตอร์สำหรับเรื่องนั้นเป็นคุณสมบัติตามคำจำกัดความของเรา แต่ไม่จำเป็นต้องมีการติดต่อแบบตัวต่อตัวระหว่างพารามิเตอร์และการแจกแจง: บางครั้งการแจกแจงสองสามอย่างจะต้องอธิบายด้วยค่าที่แตกต่างกันสองค่าหรือมากกว่าของพารามิเตอร์อย่างชัดเจน ตัวอย่างเช่นพารามิเตอร์ตำแหน่งสำหรับจุดบนทรงกลมจะใช้ละติจูดและลองจิจูดตามธรรมชาติ ที่ดี - ยกเว้นที่เสาสองซึ่งสอดคล้องกับละติจูดที่กำหนดและใด ๆเส้นแวงที่ถูกต้อง สถานที่ตั้ง(จุดบนทรงกลม) แน่นอนเป็นสมบัติ แต่ลองจิจูดไม่จำเป็นต้องเป็นทรัพย์สิน แม้ว่าจะมีหลาย dodges (เพียงแค่ประกาศลองจิจูดของเสาให้เป็นศูนย์เช่น) ปัญหานี้เน้นความแตกต่างทางความคิดที่สำคัญระหว่างคุณสมบัติ (ซึ่งมีความเกี่ยวข้องกับการกระจาย) และพารามิเตอร์ (ซึ่งเป็นวิธีการติดฉลาก การกระจายและอาจไม่ซ้ำกัน)
วิธีการทางสถิติ
เป้าหมายของการประมาณการจะเรียกว่าestimand มันเป็นเพียงทรัพย์สิน นักสถิติไม่สามารถเลือกค่าประมาณได้: นั่นคือจังหวัดของลูกค้าของเธอ เมื่อมีคนมาหาคุณพร้อมตัวอย่างของประชากรและขอให้คุณประเมินเปอร์เซ็นไทล์ 99 ของประชากรคุณมีแนวโน้มที่จะชำระเงินในการจัดหาตัวประมาณค่าเฉลี่ยแทน! งานของคุณในฐานะนักสถิติคือการระบุขั้นตอนที่ดีสำหรับการประเมินค่าประมาณที่คุณได้รับ (บางครั้งงานของคุณคือการชักชวนลูกค้าของคุณว่าเขาเลือกการประเมินที่ไม่ถูกต้องสำหรับวัตถุประสงค์ทางวิทยาศาสตร์ของเขา แต่นั่นเป็นปัญหาที่แตกต่างกัน ... )
โดยนิยามโพรซีเดอร์เป็นวิธีที่จะดึงตัวเลขออกมาจากข้อมูล ขั้นตอนมักจะได้รับเป็นสูตรที่จะใช้กับข้อมูลเช่น "เพิ่มพวกเขาทั้งหมดและหารด้วยการนับของพวกเขา" แท้จริงขั้นตอนใด ๆอาจถูกเรียกว่า "ตัวประมาณ" ของตัวประมาณที่ระบุ ตัวอย่างเช่นฉันสามารถประกาศว่าค่าเฉลี่ยตัวอย่าง (สูตรที่ใช้กับข้อมูล) ประเมินความแปรปรวนของประชากร (คุณสมบัติของประชากรโดยสมมติว่าลูกค้าของเราได้ จำกัด ชุดของประชากรที่เป็นไปได้เพื่อรวมเฉพาะที่มีความแปรปรวนจริง) .Ω
ประมาณ
เครื่องมือประมาณค่าไม่จำเป็นต้องมีการเชื่อมต่อที่ชัดเจนกับตัวประมาณค่า ตัวอย่างเช่นคุณเห็นการเชื่อมต่อใด ๆ ระหว่างค่าเฉลี่ยตัวอย่างและความแปรปรวนประชากรหรือไม่ แต่ฉันก็ไม่ได้หมายความว่าตัวอย่างจริง ๆ แล้วเป็นตัวประมาณค่าความแปรปรวนของประชากรสำหรับΩ (เช่นชุดของการแจกแจงปัวซองทั้งหมด) ตรงนี้เองที่หนึ่งที่สำคัญในการประมาณค่าความเข้าใจคุณภาพของพวกเขาขึ้นอยู่กับการตั้งค่าของรัฐที่เป็นไปได้\แต่นั่นเป็นเพียงส่วนหนึ่งของมันΩ
นักสถิติที่มีความสามารถจะต้องการทราบว่าขั้นตอนที่พวกเขาแนะนำนั้นจะทำงานได้ดีเพียงใด ขอเรียกขั้นตอน " " และปล่อยให้ estimand เป็น\ไม่ทราบว่าการกระจายจริงเป็นหนึ่งที่จริงเธอจะพิจารณาผลการดำเนินงานตามขั้นตอนของสำหรับการจัดจำหน่ายเป็นไปได้ทุก\ เมื่อให้ค่าและผลลัพธ์ที่เป็นไปได้ (นั่นคือชุดข้อมูล) เธอจะเปรียบเทียบ (สิ่งที่กระบวนการประเมินของเธอ) กับ (ค่าของการประมาณค่าสำหรับ ) มันเป็นความรับผิดชอบของลูกค้าของเธอที่จะบอกเธอว่าใกล้หรือไกลทั้งสองนั้นθ F ∈ Ω F s T ( s ) θ ( F ) F T ( s ) θ ( F ) F Ωtθ F∈ΩFst(s)θ(F)F (ซึ่งมักจะทำด้วย "สูญเสีย" ฟังก์ชั่น.) จากนั้นเธอสามารถพิจารณาความคาดหวังของระยะห่างระหว่างและ(F) นี่คือความเสี่ยงของกระบวนการของเธอ เพราะมันขึ้นอยู่กับ , ความเสี่ยงที่มีฟังก์ชั่นกำหนดไว้ใน\t(s)θ(F)FΩ
(ดี) นักสถิติแนะนำขั้นตอนตามการเปรียบเทียบความเสี่ยง ตัวอย่างเช่นสมมติว่าทุกความเสี่ยงของขั้นตอนน้อยกว่าหรือเท่ากับความเสี่ยงของเสื้อดังนั้นจึงไม่มีเหตุผลที่จะใช้ : มันคือ "ไม่ยอมรับ" มิฉะนั้นจะเป็น "ยอมรับได้"ที1ทีทีF∈Ωt1tt
(สถิติ "Bayesian" มักจะเปรียบเทียบความเสี่ยงโดยการเฉลี่ยมากกว่าการกระจาย "ก่อน" ของรัฐที่เป็นไปได้ (มักจะจัดทำโดยลูกค้า) สถิติ "บ่อย" อาจทำเช่นนี้หากมีอยู่ก่อน justifiably แต่ก็เต็มใจที่จะ เปรียบเทียบความเสี่ยงในรูปแบบอื่น Bayesians หลบเลี่ยง)
สรุปผลการวิจัย
เรามีสิทธิที่จะบอกว่าใด ๆที่เป็นที่ยอมรับสำหรับเป็นประมาณการของ\θ θ tθθ เราต้องเพื่อประโยชน์ (เพราะขั้นตอนการยอมรับสามารถจะหายาก) โค้งนี้เพื่อบอกว่าใด ๆที่มีขนาดเล็กมีความเสี่ยงที่ยอมรับได้ (เมื่อถูกเมื่อเทียบกับ ) หมู่ขั้นตอนการปฏิบัติเป็นประมาณการของ\ "ยอมรับได้" และ "สามารถปฏิบัติได้" ถูกกำหนดโดยลูกค้าแน่นอน: "ยอมรับได้" หมายถึงความเสี่ยงของพวกเขาและ "ปฏิบัติได้" สะท้อนถึงต้นทุน (ในที่สุดจ่ายโดยพวกเขา) ในการดำเนินการตามขั้นตอนเสื้อθ θtθθ
ภายใต้คำจำกัดความที่รัดกุมนี้เป็นความคิดทั้งหมดที่กล่าวถึง: เพื่อให้เข้าใจว่าเราต้องมีเฉพาะเจาะจง(ซึ่งเป็นรูปแบบของปัญหากระบวนการหรือประชากรที่อยู่ระหว่างการศึกษา), การประมาณที่ชัดเจน (จัดหาโดยลูกค้า) ฟังก์ชั่นการสูญเสียที่เฉพาะเจาะจง (ซึ่งเชื่อมโยงเชิงปริมาณกับการประมาณและมอบให้โดยลูกค้า) ความคิดของความเสี่ยง (คำนวณโดยสถิติ) ขั้นตอนบางอย่างสำหรับการเปรียบเทียบฟังก์ชั่นความเสี่ยง (ความรับผิดชอบของนักสถิติในการปรึกษาหารือกับลูกค้า) และความรู้สึกของกระบวนการที่สามารถดำเนินการได้จริง (ปัญหา "ความเหมาะสม") แม้ว่าจะไม่มีการกล่าวถึงสิ่งเหล่านี้อย่างชัดเจนในคำนิยามtΩt