สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
จะเกิดอะไรขึ้นที่นี่เมื่อฉันใช้การสูญเสียกำลังสองในการตั้งค่าการถดถอยโลจิสติก
ฉันกำลังพยายามใช้การสูญเสียกำลังสองเพื่อทำการจำแนกเลขฐานสองบนชุดข้อมูลของเล่น ฉันกำลังใช้mtcarsชุดข้อมูลใช้ไมล์ต่อแกลลอนและน้ำหนักเพื่อทำนายประเภทการส่ง เนื้อเรื่องด้านล่างแสดงข้อมูลประเภทการส่งข้อมูลสองชนิดในสีที่ต่างกันและขอบเขตการตัดสินใจที่สร้างขึ้นโดยฟังก์ชั่นการสูญเสียที่แตกต่างกัน การสูญเสียกำลังสองคือ ∑i(yi−pi)2∑i(yi−pi)2\sum_i (y_i-p_i)^2โดยที่yiyiy_iคือเลเยอร์ความจริงพื้นดิน (0 หรือ 1) และpipip_iคือความน่าจะเป็นที่คาดการณ์pi=Logit−1(βTxi)pi=Logit−1(βTxi)p_i=\text{Logit}^{-1}(\beta^Tx_i). กล่าวคือฉันแทนที่การสูญเสียโลจิสติกด้วยการสูญเสียกำลังสองในการตั้งค่าการจัดหมวดหมู่ส่วนอื่น ๆ เหมือนกัน สำหรับตัวอย่างของเล่นที่มีmtcarsข้อมูลในหลาย ๆ กรณีฉันได้แบบจำลอง "คล้ายกัน" กับการถดถอยโลจิสติก (ดูรูปต่อไปนี้โดยมีเมล็ดสุ่ม 0) แต่ในบางสิ่ง (ถ้าเราทำset.seed(1)) การสูญเสียกำลังสองดูเหมือนจะไม่ได้ผล เกิดอะไรขึ้นที่นี่ การเพิ่มประสิทธิภาพไม่ได้มาบรรจบกัน? การสูญเสียโลจิสติกส์นั้นง่ายกว่าเมื่อเทียบกับการสูญเสียกำลังสอง? ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม รหัส d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- …

6
ฉันจะค้นพบการกระจายตัวแบบปกติได้อย่างไร?
อะไรคือการสืบทอดครั้งแรกของการแจกแจงแบบปกติคุณสามารถทำซ้ำสิ่งที่ได้มาและอธิบายในบริบททางประวัติศาสตร์ได้ไหม ฉันหมายความว่าถ้ามนุษยชาติลืมเกี่ยวกับการแจกแจงแบบปกติวิธีที่น่าจะเป็นไปได้ที่ฉันจะค้นพบมันอีกครั้งและสิ่งที่น่าจะเป็นไปได้มากที่สุดคืออะไร? ฉันเดาว่าการพิสูจน์ครั้งแรกต้องมาเป็นผลพลอยได้จากการพยายามหาวิธีที่รวดเร็วในการคำนวณการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องขั้นพื้นฐานเช่นทวินาม ถูกต้องหรือไม่

1
เหตุใดเกณฑ์ข้อมูล Akaike จึงไม่ใช้ในการเรียนรู้ของเครื่องมากกว่า
ฉันเพิ่งพบกับ "เกณฑ์ข้อมูล Akaike" และฉันสังเกตเห็นวรรณคดีจำนวนมากเกี่ยวกับการเลือกแบบจำลอง (เช่นสิ่งที่ดูเหมือน BIC มีอยู่) เหตุใดจึงไม่วิธีการเรียนรู้ด้วยเครื่องจักรร่วมสมัยใช้ประโยชน์จากเกณฑ์การเลือกรูปแบบ BIC และ AIC เหล่านี้

2
ความเบ้ของลอการิทึมของตัวแปรสุ่มแกมม่า
พิจารณาแกมมาตัวแปรสุ่ม X∼Γ(α,θ)X∼Γ(α,θ)X\sim\Gamma(\alpha, \theta) ) มีสูตรเรียบร้อยสำหรับค่าเฉลี่ยความแปรปรวนและความเบ้: E[X]Var[X]Skewness[X]=αθ=αθ2=1/α⋅E[X]2=2/α−−√E[X]=αθVar⁡[X]=αθ2=1/α⋅E[X]2Skewness⁡[X]=2/α\begin{align} \mathbb E[X]&=\alpha\theta\\ \operatorname{Var}[X]&=\alpha\theta^2=1/\alpha\cdot\mathbb E[X]^2\\ \operatorname{Skewness}[X]&=2/\sqrt{\alpha} \end{align} พิจารณาในขณะนี้เข้าสู่ระบบเปลี่ยนตัวแปรสุ่มY=log(X)Y=log⁡(X)Y=\log(X) ) Wikipedia ให้สูตรสำหรับค่าเฉลี่ยและความแปรปรวน: E[Y]Var[Y]=ψ(α)+log(θ)=ψ1(α)E[Y]=ψ(α)+log⁡(θ)Var⁡[Y]=ψ1(α)\begin{align} \mathbb E[Y]&=\psi(\alpha)+\log(\theta)\\ \operatorname{Var}[Y]&=\psi_1(\alpha)\\ \end{align} ผ่านฟังก์ชัน digamma และ trigamma ซึ่งถูกกำหนดให้เป็นอนุพันธ์อันดับหนึ่งและสองของลอการิทึมของฟังก์ชันแกมมา สูตรสำหรับความเบ้คืออะไร? ฟังก์ชัน tetragamma จะปรากฏขึ้นหรือไม่ (สิ่งที่ทำให้ฉันสงสัยเกี่ยวกับสิ่งนี้คือตัวเลือกระหว่างการแจกแจงแบบปกติและแกมม่าดูการแจกแจงแบบแกมม่าและแบบลอบันปกติในสิ่งอื่น ๆ พวกเขาต่างกันในคุณสมบัติความเบ้ของพวกเขาโดยเฉพาะความเบ้ของบันทึกการ ความเบ้ของบันทึกของแกมม่าเป็นลบ แต่เป็นลบอย่างไร .. )

2
วิธีการคำนวณระยะเวลาในการรับประทานมังสวิรัติโดยเฉลี่ยเมื่อเรามีข้อมูลการสำรวจเกี่ยวกับมังสวิรัติในปัจจุบันเท่านั้น
สำรวจประชากรตัวอย่างแบบสุ่ม พวกเขาถูกถามว่าพวกเขากินอาหารมังสวิรัติหรือไม่ หากพวกเขาตอบว่าใช่พวกเขาจะถูกขอให้ระบุว่าพวกเขากินอาหารมังสวิรัตินานแค่ไหนโดยไม่หยุดชะงัก ฉันต้องการใช้ข้อมูลนี้เพื่อคำนวณระยะเวลาในการรับประทานมังสวิรัติโดยเฉลี่ย กล่าวอีกนัยหนึ่งเมื่อใครบางคนกลายเป็นมังสวิรัติฉันอยากรู้ว่าพวกเขากินเจโดยเฉลี่ยนานเท่าไร สมมติว่า: ผู้ตอบแบบสอบถามทุกคนให้คำตอบที่ถูกต้องและแม่นยำ โลกมีเสถียรภาพ: ความนิยมของการทานมังสวิรัติไม่เปลี่ยนแปลงความยาวของการยึดถือโดยเฉลี่ยก็ไม่เปลี่ยนแปลงเช่นกัน เหตุผลของฉันจนถึงตอนนี้ ฉันพบว่ามีประโยชน์ในการวิเคราะห์แบบจำลองของเล่นของโลกที่จุดเริ่มต้นของทุก ๆ ปีคนสองคนกลายเป็นมังสวิรัติ ทุกครั้งหนึ่งในนั้นจะเป็นมังสวิรัติ 1 ปีและอีก 3 ปี เห็นได้ชัดว่าความยาวของการยึดมั่นในโลกนี้คือ (1 + 3) / 2 = 2 ปี นี่คือกราฟที่แสดงตัวอย่าง สี่เหลี่ยมผืนผ้าแต่ละรูปแสดงระยะเวลาของการกินเจ: สมมติว่าเราทำแบบสำรวจกลางปี ​​4 (เส้นสีแดง) เราได้รับข้อมูลต่อไปนี้: เราจะได้ข้อมูลเดียวกันถ้าเราทำแบบสำรวจทุกปีเริ่มปีที่ 3 ถ้าเราแค่ตอบสนองโดยเฉลี่ยเราจะได้รับ: (2 * 0.5 + 1.5 + 2.5) / 4 = 1.25 เราดูถูกดูแคลนเพราะเราคิดว่าทุกคนหยุดเป็นมังสวิรัติทันทีหลังจากสำรวจซึ่งเห็นได้ชัดว่าไม่ถูกต้อง เพื่อให้ได้ค่าประมาณที่ใกล้เคียงกับเวลาเฉลี่ยจริงที่ผู้เข้าร่วมจะยังคงเป็นมังสวิรัติเราสามารถสันนิษฐานได้ว่าโดยเฉลี่ยพวกเขารายงานเวลาครึ่งทางผ่านช่วงเวลาของการกินเจและระยะเวลารายงานคูณด้วย 2 …

1
ต้นกำเนิดของสัญกรณ์สไตล์วิลกินสันเช่น (1 | id) สำหรับเอฟเฟกต์แบบสุ่มในสูตรโมเดลผสมใน R
สูตรโมเดลใน R เช่น y ~ x + a*b + c:d จะขึ้นอยู่กับที่เรียกว่าสัญกรณ์วิลกินสัน : วิลกินสันและโรเจอร์ส 1973 สัญลักษณ์คำอธิบายของปัจจัยรุ่นสำหรับการวิเคราะห์ความแปรปรวน บทความนี้ไม่ได้กล่าวถึงสัญลักษณ์สำหรับรุ่นผสม (ซึ่งอาจไม่มีอยู่ในตอนนั้น) ดังนั้นสูตรผสมโมเดลที่ใช้ในlme4และแพ็คเกจที่เกี่ยวข้องใน R เช่น y ~ x + a*b + c:d + (1|school) + (a*b||town) มาจาก? ใครแนะนำพวกเขาเป็นครั้งแรกและเมื่อไหร่ มีข้อตกลงใด ๆ เช่นคำว่า "สัญกรณ์วิลกินสัน" สำหรับพวกเขาหรือไม่? ฉันหมายถึงเฉพาะเงื่อนไขเช่น (model formula | grouping variable) (model formula || grouping variable)

1
ลีดเดอร์บอร์ดส่วนตัวของ Kaggle เป็นเครื่องทำนายผลการทำงานที่ดีของรุ่นที่ชนะหรือไม่?
ในขณะที่ผลลัพธ์ของชุดทดสอบส่วนตัวไม่สามารถใช้ในการปรับแต่งโมเดลเพิ่มเติมได้ แต่การเลือกรุ่นจากโมเดลจำนวนมากที่ดำเนินการตามผลลัพธ์ของชุดทดสอบส่วนตัวไม่ใช่หรือไม่ คุณจะไม่ผ่านกระบวนการนั้นเพียงอย่างเดียวจบลงด้วยการ overfitting ชุดทดสอบส่วนตัวหรือไม่? ตามที่"Pseudo-Mathematics และ Charlatanism การเงิน: ผลกระทบของการ Overtitting Backtest ต่อประสิทธิภาพออกตัวอย่าง" โดย Bailey et.al มันค่อนข้างง่ายที่จะ "overfit" เมื่อเลือกสิ่งที่ดีที่สุดจากโมเดลจำนวนมากที่ประเมินในชุดข้อมูลเดียวกัน นั่นไม่ได้เกิดขึ้นกับลีดเดอร์บอร์ดส่วนตัวของ Kaggle ใช่ไหม อะไรคือเหตุผลทางสถิติสำหรับโมเดลที่มีประสิทธิภาพดีที่สุดบนลีดเดอร์บอร์ดส่วนตัวซึ่งเป็นโมเดลที่สรุปข้อมูลที่ดีที่สุดออกมาจากตัวอย่าง? จริง ๆ แล้ว บริษัท ต่างๆใช้แบบจำลองที่ชนะหรือมีกระดานผู้นำส่วนตัวเพียงเพื่อให้ "กฎของเกม" และ บริษัท ต่าง ๆ ให้ความสนใจในข้อมูลเชิงลึกที่เกิดขึ้นจากการอภิปรายของปัญหาจริง ๆ หรือไม่

7
ทำไมข้อมูลที่เอียงจึงไม่เหมาะสำหรับการสร้างแบบจำลอง?
ส่วนใหญ่เวลาที่ผู้คนพูดถึงการเปลี่ยนแปลงของตัวแปร (สำหรับทั้งตัวทำนายและตัวแปรตอบกลับ) พวกเขาคุยกันถึงวิธีการรักษาความเบ้ของข้อมูล สิ่งที่ฉันไม่สามารถเข้าใจได้คือทำไมการลบความเบ้จึงถือเป็นวิธีปฏิบัติที่ดีที่สุด ความเบ้นั้นส่งผลกระทบต่อประสิทธิภาพการทำงานของแบบจำลองประเภทต่าง ๆ เช่นแบบจำลองที่ใช้แบบต้นไม้แบบเชิงเส้นและแบบที่ไม่ใช่เชิงเส้นได้อย่างไร แบบจำลองประเภทใดที่ได้รับผลกระทบมากขึ้นจากความเบ้และทำไม

4
“ เป็น” หมายถึงอะไร
ฉันอ่านบทความและฉันเห็นประโยคต่อไปนี้: สำหรับ Martingale ที่กำหนดถ้ามันมีขอบเขตบนหรือล่างจากนั้น Martingale จะต้องมาบรรจบกัน (เป็น) เนื่องจากความน่าจะเป็นไม่ใช่การลบเสมอ 0 คือขอบเขตที่ต่ำกว่า คำว่า "เป็น" หมายถึงอะไร มันเป็นการใช้งานทั่วไปหรือไม่? ฉันเดาว่า "asymptotically" แต่ฉันต้องการยืนยัน

5
วิธีการวงดนตรีมีประสิทธิภาพดีกว่าองค์ประกอบทั้งหมดของพวกเขาได้อย่างไร
ฉันสับสนเล็กน้อยเกี่ยวกับการเรียนรู้ทั้งมวล โดยสรุปมันรันโมเดล k และรับค่าเฉลี่ยของโมเดล k เหล่านี้ จะรับประกันได้อย่างไรว่าค่าเฉลี่ยของโมเดล k จะดีกว่ารุ่นใด ๆ ด้วยตัวเอง? ฉันเข้าใจว่าอคติ "กระจาย" หรือ "เฉลี่ย" อย่างไรก็ตามจะเกิดอะไรขึ้นถ้ามีสองรุ่นในชุด (เช่น k = 2) และหนึ่งในนั้นแย่กว่าอีกรุ่นหนึ่ง - ชุดนั้นจะไม่แย่กว่ารุ่นที่ดีกว่าหรือไม่

3
ตัวแบบโมฆะในการถดถอยคืออะไรและเกี่ยวข้องกับสมมติฐานว่างอย่างไร
ตัวแบบโมฆะในการถดถอยคืออะไรและความสัมพันธ์ระหว่างตัวแบบโมฆะกับสมมติฐานว่างคืออะไร? เพื่อความเข้าใจของฉันมันหมายถึงอะไร ใช้ "ค่าเฉลี่ยของตัวแปรตอบสนอง" เพื่อทำนายตัวแปรตอบสนองต่อเนื่องหรือไม่ ใช้ "การกระจายฉลาก" ในการทำนายตัวแปรการตอบสนองแบบแยก? หากเป็นกรณีนี้ดูเหมือนว่าจะไม่มีการเชื่อมต่อระหว่างสมมติฐานว่าง

1
ช่องว่างสูงสุดระหว่างตัวอย่างที่วาดโดยไม่ต้องเปลี่ยนจากการแจกแจงแบบไม่ต่อเนื่อง
ปัญหานี้เกี่ยวข้องกับการวิจัยในห้องปฏิบัติการของฉันเกี่ยวกับการครอบคลุมของหุ่นยนต์: สุ่มตัวเลขจาก setโดยไม่มีการแทนที่และเรียงลำดับตัวเลขจากมากไปหาน้อย เมตรnnn{1,2,…,m}{1,2,…,m}\{1,2,\ldots,m\}1≤n≤m1≤n≤m1\le n\le m จากรายการที่เรียงลำดับหมายเลข , สร้างความแตกต่างระหว่างตัวเลขที่ต่อเนื่องกันและขอบเขต:\} นี่จะให้ช่องว่างของn + 1{a(1),a(2),…,a(n)}{a(1),a(2),…,a(n)}\{a_{(1)},a_{(2)},…,a_{(n)}\}g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g = \{a_{(1)},a_{(2)}−a_{(1)},\ldots,a_{(n)}−a_{(n-1)},m+1-a_{(n)}\}n+1n+1n+1 การกระจายตัวของช่องว่างสูงสุดคืออะไร? P(max(g)=k)=P(k;m,n)=?P(max(g)=k)=P(k;m,n)=?P(\max(g) = k) = P(k;m,n) = ? คุณสามารถใส่กรอบนี้โดยใช้สถิติการสั่งซื้อ : P(g(n+1)=k)=P(k;m,n)=?P(g(n+1)=k)=P(k;m,n)=?P(g_{(n+1)} = k) = P(k;m,n) = ? ดูลิงค์สำหรับการกระจายของช่องว่างแต่คำถามนี้ถามกระจายช่องว่างสูงสุด ฉันจะพอใจกับค่าเฉลี่ยE[g(n+1)]E[g(n+1)]\mathbb{E}[g_{(n+1)}]1)}] หากn=mn=mn=mช่องว่างทั้งหมดคือขนาด 1 หากn+1=mn+1=mn+1 = mจะมีช่องว่างขนาดหนึ่ง222และn+1n+1n+1ตำแหน่งที่เป็นไปได้ ขนาดช่องว่างสูงสุดคือm−n+1m−n+1m-n+1และช่องว่างนี้สามารถวางไว้ก่อนหรือหลัง หมายเลขnใด ๆnnnสำหรับตำแหน่งที่เป็นไปได้ทั้งหมดn+1n+1n+1ขนาดช่องว่างสูงสุดที่เล็กที่สุดคือ\⌈m−nn+1⌉⌈m−nn+1⌉\lceil\frac{m-n}{n+1}\rceilกำหนดความน่าจะเป็นของการรวมกันใดก็ตามT=(mn)−1T=(mn)−1T= {m \choose n}^{-1}1} ฉันได้แก้ไขฟังก์ชันความน่าจะเป็นบางส่วนเป็น P(g(n+1)=k)=P(k;m,n)=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪011T(n+1)T(n+1)?T(n+1)0k<⌈m−nn+1⌉k=m−nn+1k=1 (occurs when m=n)k=2 (occurs …

4
ตัวแปรสุ่มปกติแบบมาตรฐานสองตัวมีความเป็นอิสระเสมอหรือไม่?
ฉันเรียนรู้ว่าการแจกแจงแบบปกติมาตรฐานไม่เหมือนใครเพราะค่าเฉลี่ยและความแปรปรวนได้รับการแก้ไขที่ 0 และ 1 ตามลำดับ จากข้อเท็จจริงนี้ฉันสงสัยว่าตัวแปรสุ่มสองมาตรฐานใดต้องเป็นอิสระ

1
ทฤษฎีใดที่ฉันควรรู้
ฉันควรทราบวิธีการเชิงทฤษฎีเกี่ยวกับเวรกรรมในฐานะนักสถิติประยุกต์ / เศรษฐมิติ ฉันรู้ (เล็กน้อยมาก) Neyman – Rubin โมเดลเชิงสาเหตุ (และRoy , Haavelmoเป็นต้น) ผลงานของ Pearl ในเรื่องเวรกรรม Granger Causality (เน้นการรักษาน้อยกว่า) ฉันควรพลาดแนวคิดใดหรือควรระวัง ที่เกี่ยวข้อง: ทฤษฎีใดบ้างที่เป็นรากฐานสำหรับเวรกรรมในการเรียนรู้ของเครื่อง? ฉันได้อ่านคำถามที่น่าสนใจและคำตอบ ( 1 , 2 , 3 ) แต่ฉันคิดว่าเป็นคำถามที่แตกต่าง และฉันรู้สึกประหลาดใจมากที่จะเห็นว่า "เวรกรรม" ยกตัวอย่างเช่นไม่ได้กล่าวถึงในองค์ประกอบของการเรียนรู้ทางสถิติ

1
เทนเซอร์ในวรรณกรรมเครือข่ายประสาท: คำจำกัดความที่ง่ายที่สุดคืออะไร?
ในวรรณคดีโครงข่ายประสาทเรามักจะพบคำว่า "เทนเซอร์" มันแตกต่างจากเวกเตอร์หรือไม่? และจากเมทริกซ์? คุณมีตัวอย่างเฉพาะที่ทำให้คำจำกัดความชัดเจนหรือไม่? ฉันสับสนเล็กน้อยเกี่ยวกับคำจำกัดความของมัน Wikipedia ไม่ได้ช่วยอะไรและบางครั้งฉันก็รู้สึกว่าคำจำกัดความของมันขึ้นอยู่กับสภาพแวดล้อมการเรียนรู้ของเครื่องเฉพาะที่ใช้ (TensorFlow, Caffee, Theano)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.