สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ฉันจะจำลองการพลิกจนกว่าจะประสบความสำเร็จ N ได้อย่างไร
คุณและฉันตัดสินใจที่จะเล่นเกมที่เราผลัดกันพลิกเหรียญ ผู้เล่นคนแรกที่พลิก 10 หัวรวมเป็นผู้ชนะในเกม โดยธรรมชาติมีข้อโต้แย้งว่าใครควรไปก่อน แบบจำลองของเกมนี้แสดงให้เห็นว่าผู้เล่นที่จะโยนครั้งแรกชนะ 6% มากกว่าผู้เล่นที่พลิกที่สอง (ผู้เล่นคนแรกชนะประมาณ 53% ของเวลา) ฉันสนใจในการสร้างแบบจำลองการวิเคราะห์นี้ นี่ไม่ใช่ตัวแปรสุ่มแบบทวินามเนื่องจากไม่มีการทดลองจำนวนคงที่ (พลิกจนกว่าจะมีใครได้รับ 10 หัว) ฉันจะทำแบบนี้ได้อย่างไร มันคือการกระจายตัวแบบทวินามลบหรือไม่ เพื่อที่จะสามารถสร้างผลลัพธ์ของฉันใหม่นี่คือรหัสหลามของฉัน: import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += …

4
จะอธิบายการทำให้เป็นมาตรฐานของการออกกลางคันในศัพท์ง่ายๆได้อย่างไร?
หากคุณมีครึ่งหน้าเพื่ออธิบายการออกกลางคันคุณจะดำเนินการอย่างไร เหตุผลใดที่อยู่เบื้องหลังเทคนิคนี้

6
มีตัวอย่างที่ MLE สร้างการประมาณค่าเฉลี่ยแบบอคติหรือไม่?
คุณสามารถให้ตัวอย่างของตัวประมาณค่า MLE ของค่าเฉลี่ยที่มีอคติได้หรือไม่? ฉันไม่ได้มองหาตัวอย่างที่ทำให้ตัวประมาณค่า MLE โดยทั่วไปละเมิดเงื่อนไขปกติ ตัวอย่างทั้งหมดที่ฉันเห็นบนอินเทอร์เน็ตอ้างอิงถึงความแปรปรวนและฉันไม่สามารถหาสิ่งที่เกี่ยวข้องกับค่าเฉลี่ยได้ แก้ไข @MichaelHardy ให้ตัวอย่างที่เราได้รับการประเมินความลำเอียงของค่าเฉลี่ยของการกระจายชุดโดยใช้ MLE ภายใต้รูปแบบที่เสนอบางอย่าง อย่างไรก็ตาม https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint แสดงให้เห็นว่า MLE เป็นตัวประมาณค่าเฉลี่ยขั้นต่ำที่เท่าเทียมกันอย่างชัดเจนภายใต้รูปแบบที่เสนออื่น ณ จุดนี้มันยังไม่ชัดเจนสำหรับฉันสิ่งที่ความหมายของการประเมิน MLE เป็นจริงนั้นขึ้นอยู่กับรูปแบบการตั้งสมมติฐานซึ่งต่างจากการพูดว่าตัวประมาณค่าเฉลี่ยตัวอย่างซึ่งเป็นแบบจำลองที่เป็นกลาง ในตอนท้ายฉันสนใจที่จะประเมินบางสิ่งเกี่ยวกับประชากรและไม่สนใจการประมาณค่าพารามิเตอร์ของแบบจำลองที่ตั้งสมมติฐาน แก้ไข 2 ในฐานะที่เป็น @ChristophHanck แสดงให้เห็นรูปแบบที่มีข้อมูลเพิ่มเติมแนะนำอคติ แต่ไม่ได้จัดการเพื่อลด MSE เรายังมีผลลัพธ์เพิ่มเติม: http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (ภาพนิ่ง 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (สไลด์ 5) "ถ้าผู้ประเมินที่เป็นกลางที่มีประสิทธิภาพมากที่สุด ˆθ ของθมีอยู่ (เช่น ˆθ นั้นไม่เอนเอียงและความแปรปรวนเท่ากับ CRLB) ดังนั้นวิธีการประมาณค่าสูงสุดจะทำให้เกิดขึ้น" "ยิ่งไปกว่านั้นถ้ามีตัวประมาณประสิทธิภาพอยู่ก็คือตัวประมาณค่า ML" …

1
การสุ่มตัวอย่างตัวอย่างด้วย MLE ที่กำหนด
คำถามนี้รอการตรวจสอบถามเกี่ยวกับการเลียนแบบตามเงื่อนไขที่กลุ่มตัวอย่างที่มีผลรวมคงที่ทำให้ผมนึกถึงชุดปัญหาให้ฉันโดยจอร์จ Casella f(x|θ)f(x|θ)f(x|\theta)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θθ\thetaθ^(x1,…,xn)=argmin∑i=1nlogf(xi|θ)θ^(x1,…,xn)=arg⁡min∑i=1nlog⁡f(xi|θ)\hat{\theta}(x_1,\ldots,x_n)=\arg\min \sum_{i=1}^n \log f(x_i|\theta)θθ\theta θ (X1,...,Xn)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θ^(X1,…,Xn)θ^(X1,…,Xn)\hat{\theta}(X_1,\ldots,X_n) ตัวอย่างเช่นใช้การแจกแจงด้วยพารามิเตอร์ตำแหน่งซึ่งความหนาแน่นคือถ้าเราจะจำลองเงื่อนไข(X_1, \ ldots, X_n)บน\ hat {\ mu} (X_1, \ ldots, X_n) = \ mu_0 ได้อย่างไร? ในตัวอย่าง\ mathfrak {T} _5นี้การกระจายของ\ hat {\ mu} (X_1, \ ldots, X_n)ไม่มีนิพจน์แบบปิดT5T5\mathfrak{T}_5μμ\mu (X1,...,Xn) IID ~ F(x|μ)(X1,...,Xn) μ (X1,...,Xn)=μ0 T 5 μ (X1ฉ( x | μ ) = Γ …

1
มิติ VC ของแผนผังการตัดสินใจคืออะไร
อะไรคือสิ่งที่มิติ VCของต้นไม้ตัดสินใจกับ k แยกในสองมิติ? ให้เราบอกว่าแบบจำลองนั้นเป็นรถเข็นและตัวแยกที่อนุญาตเท่านั้นนั้นขนานกับแกน ดังนั้นสำหรับการแบ่งหนึ่งครั้งเราสามารถสั่งซื้อ 3 คะแนนในรูปสามเหลี่ยมและจากนั้นสำหรับการติดฉลากของคะแนนใด ๆ ที่เราจะได้รับการทำนายที่สมบูรณ์แบบ (เช่น: จุดแตกหัก) แต่ประมาณ 2 สปลิต, หรือ k ทั่วไปอะไร?

3
ทำไมค่าเริ่มต้นของเมทริกซ์เชิงบรรทัดคือค่าสเปกตรัมของสเปกตรัมไม่ใช่ค่ามาตรฐานของ Frobenius
สำหรับเวกเตอร์นอร์มค่า L2 norm หรือ "Euclidean distance" เป็นคำจำกัดความที่ใช้กันอย่างแพร่หลายและเป็นธรรมชาติ แต่ทำไมนิยาม "บรรทัดฐาน" ที่ใช้มากที่สุด "หรือ" เริ่มต้น "สำหรับเมทริกซ์จึงเป็นบรรทัดฐานสเปกตรัมแต่ไม่ใช่มาตรฐาน Frobenius (ซึ่งคล้ายกับบรรทัดฐาน L2 สำหรับเวกเตอร์) นั่นมีบางอย่างเกี่ยวข้องกับอัลกอริทึมซ้ำ / พลังเมทริกซ์ (ถ้ารัศมีสเปกตรัมน้อยกว่า 1 ดังนั้นอัลกอริทึมจะมาบรรจบกัน)? มันมักจะโต้แย้งสำหรับคำเช่น "ใช้มากที่สุด", "เริ่มต้น" คำว่า "เริ่มต้น" ดังกล่าวข้างต้นจะมาจากชนิดกลับเริ่มต้นในฟังก์ชั่นMatlab normในRบรรทัดฐานเริ่มต้นสำหรับเมทริกซ์คือ L1 norm ทั้งสองเป็น "ผิดธรรมชาติ" เพื่อฉัน (สำหรับเมทริกซ์ก็ดูเหมือนว่า "ธรรมชาติ" ที่จะทำ∑i,ja2i,j−−−−−−√∑i,jai,j2\sqrt{\sum_{i,j}a^{2}_{i,j}}ชอบในเวกเตอร์) (ขอบคุณสำหรับ @ usεr11852และความคิดเห็นของ @ whuber และขออภัยในความสับสน) อาจจะขยายการใช้งานของเมทริกซ์บรรทัดฐานจะช่วยให้ฉันเข้าใจเพิ่มเติมหรือไม่

4
"คำสาปของมิติ" มีอยู่จริงในข้อมูลจริงหรือไม่?
ฉันเข้าใจว่า "การสาปแช่งของมิติ" คืออะไรและฉันได้ทำปัญหาการหาค่าเหมาะที่สุดในระดับสูงแล้วและรู้ถึงความท้าทายของความเป็นไปได้แบบเอ็กซ์โปเนนเชียล อย่างไรก็ตามฉันสงสัยว่า "คำสาปของมิติ" มีอยู่ในข้อมูลโลกแห่งความเป็นจริงมากที่สุด ( ถ้างั้นลองวางรูปภาพหรือวิดีโอไว้ครู่หนึ่งฉันกำลังคิดถึงข้อมูลเช่นข้อมูลประชากรศาสตร์ของลูกค้าและข้อมูลพฤติกรรมการซื้อ) เราสามารถรวบรวมข้อมูลด้วยฟีเจอร์มากมาย แต่ก็มีความเป็นไปได้น้อยกว่าที่ฟีเจอร์นั้นจะสามารถขยายพื้นที่ได้อย่างเต็มที่ด้วยมิติข้อมูลนับพัน นี่คือเหตุผลว่าทำไมเทคนิคการลดขนาดจึงเป็นที่นิยม กล่าวอีกอย่างหนึ่งก็คือมีแนวโน้มว่าข้อมูลจะไม่มีข้อมูลระดับเอ็กซ์โปเนนเชียลเช่นคุณสมบัติหลายอย่างมีความสัมพันธ์สูงและคุณสมบัติหลายอย่างเป็นไปตามกฎ 80-20 (หลายกรณีมีค่าเท่ากัน) ในกรณีเช่นนี้ฉันคิดว่าวิธีการเช่น KNN จะยังคงทำงานได้ดีพอสมควร (ในหนังสือส่วนใหญ่ "คำสาปของมิติ" บอกว่ามิติ> 10 อาจเป็นปัญหาได้ในการสาธิตพวกเขาใช้การกระจายแบบสม่ำเสมอในทุกมิติที่เอนโทรปีสูงจริง ๆ ฉันสงสัยในโลกแห่งความจริงนี้จะเกิดขึ้น) ประสบการณ์ส่วนตัวของฉันกับข้อมูลจริงคือ "การสาปแช่งของมิติ" ไม่ได้ส่งผลกระทบต่อวิธีการเทมเพลต (เช่น KNN) มากเกินไปและในกรณีส่วนใหญ่ขนาด ~ 100 จะยังคงใช้งานได้ สิ่งนี้เป็นจริงสำหรับคนอื่นหรือไม่? (ฉันทำงานกับข้อมูลจริงในอุตสาหกรรมต่าง ๆ เป็นเวลา 5 ปีไม่เคยสังเกตว่า "คู่ระยะทางทั้งหมดมีค่าใกล้เคียงกัน" ตามที่อธิบายไว้ในหนังสือเล่มนี้)

1
วิธีการรักษาผู้ทำนายตามหมวดหมู่ใน LASSO
ฉันใช้ LASSO ที่มีตัวแปลตัวแปรเด็ดขาดและตัวต่อเนื่องบางตัว ฉันมีคำถามเกี่ยวกับตัวแปรเด็ดขาด ขั้นตอนแรกที่ฉันเข้าใจคือการแบ่งพวกเขาแต่ละคนออกเป็นหุ่นจำลองพวกเขาให้เป็นมาตรฐานสำหรับการลงโทษที่เป็นธรรมจากนั้นถอยกลับ มีหลายตัวเลือกสำหรับจัดการกับตัวแปรจำลอง: รวมถึงหุ่นทั้งหมดยกเว้นหุ่นตัวใดตัวหนึ่งสำหรับแต่ละปัจจัยโดยปล่อยให้สิ่งนั้นอยู่ในระดับอ้างอิง การตีความสัมประสิทธิ์ดัมมี่นั้นสัมพันธ์กับหมวดหมู่ "อ้างอิง" ที่ยกเว้น ขณะนี้การสกัดกั้นเป็นการตอบสนองเฉลี่ยสำหรับหมวดหมู่อ้างอิง จัดกลุ่มตัวแปรในแต่ละปัจจัยดังนั้นพวกมันจึงถูกยกเว้นหรือรวมอยู่ด้วย ฉันเชื่อว่านั่นคือสิ่งที่ @Glen_b กำลังแนะนำที่นี่ : โดยปกติแล้วคุณเก็บปัจจัยทั้งหมดไว้ด้วยกัน มีแพ็คเกจ R หลายที่สามารถทำได้รวมถึง glmnet รวมทุกระดับตามที่แนะนำโดย @Andrew M ที่นี่ : คุณอาจต้องการเปลี่ยนฟังก์ชั่นคอนทราสต์เริ่มต้นซึ่งโดยปกติแล้วจะแยกระดับหนึ่งของแต่ละปัจจัยออกมา แต่เนื่องจากการลงโทษด้วยเชือกทำให้ไม่จำเป็นต้องระบุตัวตนอีกต่อไปและในความเป็นจริงแล้วการตีความตัวแปรที่เลือกมีความซับซ้อนมากขึ้น เมื่อต้องการทำสิ่งนี้ให้ตั้งค่า contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) ตอนนี้ไม่ว่าคุณจะเลือกระดับของปัจจัยใดคุณสามารถคิดว่ามันเป็นการเสนอแนะว่าระดับเฉพาะเหล่านี้มีความสำคัญเมื่อเทียบกับระดับที่ข้ามไปทั้งหมด ในการเรียนรู้ของเครื่องฉันได้เห็นการเข้ารหัสนี้เรียกว่าการเข้ารหัสแบบร้อนแรง คำถาม: การตีความของการสกัดกั้นและค่าสัมประสิทธิ์ภายใต้วิธีการเหล่านี้แต่ละวิธีคืออะไร? สิ่งที่ต้องพิจารณาในการเลือกหนึ่งในนั้นคืออะไร? เราไม่ได้ปรับค่าสัมประสิทธิ์ dummy แล้วตีความว่าเป็นการเปลี่ยนจากไปเป็น on …

2
อะไรคือความสัมพันธ์เบื้องหลัง Jeffreys Priors และความแปรปรวนของการเปลี่ยนแปลงที่มั่นคง?
ฉันกำลังอ่านเกี่ยวกับ Jeffreys ก่อนในวิกิพีเดีย: Jeffreys Priorและเห็นว่าหลังจากแต่ละตัวอย่างมันอธิบายว่าการเปลี่ยนแปลงที่ทำให้เกิดความแปรปรวนทำให้เกิดความแปรปรวนทำให้ Jeffreys กลายเป็นชุดก่อนได้อย่างไร เป็นตัวอย่างสำหรับกรณี Bernoulli มันกล่าวว่าสำหรับเหรียญที่มีหัวกับความน่าจะเป็นγ∈ [ 0 ,1]γ∈[0,1]\gamma \in [0,1]ที่อัตราผลตอบแทน Bernoulli รุ่นทดลองใช้ฟรีย์ว่าก่อนสำหรับพารามิเตอร์γγ\gammaคือ: p(γ)∝1γ(1−γ)−−−−−−−√p(γ)∝1γ(1−γ) p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}} จากนั้นระบุว่านี่คือการแจกแจงแบบเบต้าด้วยα=β=12α=β=12\alpha = \beta = \frac{1}{2} . นอกจากนี้ยังระบุด้วยว่าถ้าγ=sin2(θ)γ=sin2⁡(θ)\gamma = \sin^2(\theta)ดังนั้น Jeffreys ก่อนหน้าสำหรับθθ\thetaจะเหมือนกันในช่วง[0,π2][0,π2]\left[0, \frac{\pi}{2}\right] . ฉันรับรู้การเปลี่ยนแปลงว่าเป็นการเปลี่ยนแปลงที่ทำให้เกิดความแปรปรวน สิ่งที่ทำให้ฉันสับสนคือ: ทำไมการแปรปรวนที่ทำให้เกิดความแปรปรวนทำให้เกิดความแปรปรวนในรูปแบบเหมือนกันมาก่อน ทำไมเราถึงต้องการเครื่องแบบก่อน (เนื่องจากดูเหมือนว่าอาจจะไม่เหมาะสมกว่า) โดยทั่วไปแล้วฉันไม่แน่ใจว่าทำไมการแปลงสแควร์ - ไซน์ถึงได้รับและบทบาทอะไร ใครจะมีความคิดใด ๆ

1
BIC ลองค้นหานางแบบตัวจริงหรือไม่?
คำถามนี้เป็นการติดตามหรือพยายามที่จะกำจัดความสับสนที่เป็นไปได้เกี่ยวกับหัวข้อที่ฉันและคนอื่น ๆ อีกหลายคนพบว่ายากเล็กน้อยเกี่ยวกับความแตกต่างระหว่าง AIC และ BIC ในคำตอบที่ดีมากโดย @Dave Kellen ในหัวข้อนี้ ( /stats//a/767/30589 ) เราอ่าน: คำถามของคุณหมายความว่า AIC และ BIC พยายามตอบคำถามเดียวกันซึ่งไม่เป็นความจริง AIC พยายามเลือกแบบจำลองที่อธิบายความเป็นจริงในมิติที่สูงที่ไม่รู้จักอย่างเพียงพอ ซึ่งหมายความว่าความเป็นจริงไม่เคยอยู่ในชุดของแบบจำลองผู้สมัครที่กำลังพิจารณา ในทางตรงกันข้าม BIC พยายามหาโมเดล TRUE ท่ามกลางกลุ่มผู้สมัคร ฉันคิดว่ามันค่อนข้างแปลกที่สมมติฐานว่าความเป็นจริงนั้นถูกยกตัวอย่างในแบบจำลองที่นักวิจัยสร้างขึ้นไปพร้อม นี่เป็นปัญหาที่แท้จริงสำหรับ BIC ในความคิดเห็นด้านล่างโดย @ gui11aume เราอ่าน: (-1) คำอธิบายที่ดี แต่ฉันต้องการท้าทายการยืนยัน @Dave Kellen คุณช่วยอ้างอิงถึงความคิดที่ว่าโมเดล TRUE นั้นอยู่ในกลุ่ม BIC ได้หรือไม่? ฉันต้องการตรวจสอบเรื่องนี้เนื่องจากในหนังสือเล่มนี้ผู้เขียนให้หลักฐานที่น่าเชื่อถือว่านี่ไม่ใช่กรณี - gui11aume 27 พฤษภาคม '12 …

5
การทำความเข้าใจว่าคุณลักษณะใดสำคัญที่สุดสำหรับการถดถอยโลจิสติก
ฉันได้สร้างลักษณนามการถดถอยโลจิสติกที่มีความแม่นยำมากกับข้อมูลของฉัน ตอนนี้ฉันต้องการเข้าใจที่ดีขึ้นว่าทำไมมันถึงทำงานได้ดี โดยเฉพาะฉันต้องการจัดอันดับว่าคุณลักษณะใดที่ทำให้เกิดผลงานมากที่สุด (ซึ่งฟีเจอร์ใดมีความสำคัญมากที่สุด) และในเชิงปริมาณการกำหนดว่าแต่ละฟีเจอร์มีส่วนสนับสนุนความแม่นยำของโมเดลโดยรวมอย่างไร (หรือบางอย่างในเส้นเลือดนี้) ฉันจะทำสิ่งนี้ได้อย่างไร ความคิดแรกของฉันคือการจัดอันดับพวกเขาตามค่าสัมประสิทธิ์ของพวกเขา แต่ฉันคิดว่ามันไม่ถูกต้อง หากฉันมีคุณสมบัติสองอย่างที่มีประโยชน์เท่าเทียมกัน แต่การแพร่กระจายของรายการแรกมีขนาดใหญ่เป็นสิบเท่าของอันดับที่สองดังนั้นฉันคาดว่ารายการแรกจะได้รับค่าสัมประสิทธิ์ต่ำกว่าครั้งที่สอง มีวิธีที่เหมาะสมกว่าในการประเมินความสำคัญของคุณลักษณะหรือไม่ โปรดทราบว่าฉันไม่ได้พยายามที่จะเข้าใจว่าการเปลี่ยนแปลงเล็ก ๆ น้อย ๆ ในคุณลักษณะส่งผลกระทบต่อความน่าจะเป็นของผลลัพธ์ ค่อนข้างฉันพยายามที่จะเข้าใจว่าแต่ละคุณสมบัติมีคุณค่าในแง่ของการทำให้ลักษณนามถูกต้อง นอกจากนี้เป้าหมายของฉันไม่มากนักที่จะทำการเลือกคุณสมบัติหรือสร้างแบบจำลองที่มีคุณสมบัติน้อยลง แต่พยายามที่จะให้ "ความสามารถอธิบายได้" สำหรับแบบจำลองที่เรียนรู้ดังนั้นตัวแยกประเภทไม่ได้เป็นเพียงกล่องดำทึบ

1
การอัพเดตการแยกย่อย SVD หลังจากเพิ่มหนึ่งแถวใหม่ในเมทริกซ์
สมมติว่าผมมีความหนาแน่นเมทริกซ์ของขนาดที่มีการสลายตัว SVDในฉันสามารถคำนวณ SVD ได้ดังนี้: .AA \textbf{A}m × nม.×nm \times nA = U S V⊤.A=ยูSV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) หากมีการเพิ่ม -th ใหม่ลงในสามารถคำนวณการแยกย่อย SVD ใหม่ตามแบบเก่า (เช่นโดยใช้ , , และ ) โดยไม่ต้องคำนวณใหม่ SVD ตั้งแต่ต้น?( m + 1 )(ม.+1)(m+1)AA\mathbf Aยูยู\mathbf USS\mathbf SVV\mathbf V

3
อัลกอริทึมการเพิ่มประสิทธิภาพใดที่ใช้ในฟังก์ชัน glm ใน R
หนึ่งสามารถทำการถดถอย logit ใน R โดยใช้รหัสดังกล่าว: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 ดูเหมือนว่าอัลกอริทึมการออปติไมซ์ได้แปรสภาพ - มีข้อมูลเกี่ยวกับจำนวนขั้นตอนของอัลกอริทึมการให้คะแนนฟิชเชอร์: Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max …

2
ปัญหาการประมาณค่าที่เป็นไปไม่ได้?
คำถาม ความแปรปรวนของการแจกแจงแบบทวินามลบ (NB) นั้นมากกว่าค่าเฉลี่ยเสมอ เมื่อค่าเฉลี่ยของตัวอย่างมากกว่าความแปรปรวนให้พยายามปรับพารามิเตอร์ของ NB ให้มีความเป็นไปได้สูงสุดหรือประมาณช่วงเวลาที่จะล้มเหลว (ไม่มีวิธีแก้ปัญหาด้วยพารามิเตอร์ จำกัด ) อย่างไรก็ตามเป็นไปได้ว่าตัวอย่างที่นำมาจากการแจกแจงแบบ NB มีความหมายมากกว่าความแปรปรวน นี่คือตัวอย่างที่ทำซ้ำได้ใน R set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 var(x) # 0.8157576 มีความน่าจะเป็นที่ไม่เป็นศูนย์ที่ NB จะสร้างตัวอย่างซึ่งไม่สามารถประมาณค่าพารามิเตอร์ได้ (โดยความน่าจะเป็นสูงสุดและวิธีการโมเมนต์) สามารถประมาณค่าที่เหมาะสมสำหรับตัวอย่างนี้ได้หรือไม่? ทฤษฎีการประมาณค่าพูดว่าอย่างไรเมื่อตัวประมาณไม่ได้ถูกกำหนดไว้สำหรับตัวอย่างทั้งหมด? เกี่ยวกับคำตอบ คำตอบของ @MarkRobinson และ @Yves ทำให้ฉันรู้ว่า parametrization เป็นปัญหาหลัก ความหนาแน่นของความน่าจะเป็นของ NB มักจะถูกเขียนเป็น P(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k หรือ …

2
การทำคลัสเตอร์ - สัญชาตญาณเบื้องหลังทฤษฎีบทความเป็นไปไม่ได้ของไคลน์เบิร์ก
ฉันกำลังคิดเกี่ยวกับการเขียนโพสต์บล็อกในการวิเคราะห์ที่น่าสนใจนี้โดยKleinberg (2002)ที่สำรวจความยากลำบากในการจัดกลุ่ม Kleinberg แสดงตัวอธิบายลักษณะสามเดเดอราตาที่ใช้งานง่ายสำหรับฟังก์ชั่นการจัดกลุ่มแล้วพิสูจน์ว่าไม่มีฟังก์ชันดังกล่าวอยู่ มีอัลกอริทึมการจัดกลุ่มจำนวนมากที่ satify เกณฑ์สองในสาม อย่างไรก็ตามไม่มีฟังก์ชั่นที่สามารถตอบสนองทั้งสามพร้อมกันได้ โดยสังเขปและอย่างไม่เป็นทางการทั้งสามผู้อธิบายที่เขาสรุปคือ: มาตราส่วน - ค่าคงที่ : ถ้าเราแปลงข้อมูลเพื่อให้ทุกอย่างยืดออกไปในทุกทิศทางผลการจัดกลุ่มไม่ควรเปลี่ยนแปลง ความสอดคล้อง : ถ้าเรายืดข้อมูลเพื่อให้ระยะห่างระหว่างกลุ่มเพิ่มขึ้นและ / หรือระยะทางภายในกลุ่มลดลงดังนั้นผลการจัดกลุ่มไม่ควรเปลี่ยนแปลง ความสมบูรณ์ : ฟังก์ชันการจัดกลุ่มในทางทฤษฎีควรสามารถสร้างพาร์ติชัน / การจัดกลุ่มข้อมูลได้ตามอำเภอใจ (โดยไม่ทราบระยะห่างระหว่างสองจุด) คำถาม: (1)มีสัญชาตญาณภาพเรขาคณิตที่ดีที่สามารถแสดงความไม่สอดคล้องระหว่างเกณฑ์ทั้งสามนี้หรือไม่? (2)นี่หมายถึงรายละเอียดทางเทคนิคของกระดาษ คุณจะต้องอ่านลิงก์ด้านบนเพื่อทำความเข้าใจในส่วนนี้ของคำถาม ในกระดาษการพิสูจน์ทฤษฎีบท 3.1 เป็นเรื่องยากสำหรับฉันที่จะตามไปที่จุด ฉันติดอยู่ที่: "Let fff . จะเป็นฟังก์ชั่นการจัดกลุ่มที่ตอบสนองความสอดคล้องเราอ้างว่าสำหรับการใด ๆ พาร์ทิชันΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)ที่มีอยู่จำนวนจริงบวก&lt; ขดังกล่าวว่าคู่( , ข)เป็นΓ - บังคับให้."a&lt;ba&lt;ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma ฉันไม่เห็นว่าสิ่งนี้จะเกิดขึ้นได้อย่างไร …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.