สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เกิดอะไรขึ้นกับนัยสำคัญทางสถิติในการถดถอยเมื่อขนาดข้อมูลใหญ่โต
ฉันกำลังอ่านคำถามนี้เกี่ยวกับการถดถอยขนาดใหญ่ ( ลิงค์ ) ที่whuberชี้ให้เห็นจุดที่น่าสนใจดังนี้ "เกือบทุกการทดสอบทางสถิติที่คุณรันจะมีประสิทธิภาพมากจนมั่นใจว่าจะระบุถึงผลกระทบ" ที่สำคัญ "คุณต้องให้ความสำคัญกับความสำคัญทางสถิติเช่นขนาดของเอฟเฟกต์แทนที่จะเป็นนัยสำคัญ" --- เสียงหวือ ฉันสงสัยว่านี่เป็นสิ่งที่สามารถพิสูจน์ได้หรือเพียงแค่ปรากฏการณ์ทั่วไปในทางปฏิบัติ ตัวชี้ใด ๆ เพื่อพิสูจน์ / สนทนา / จำลองจะเป็นประโยชน์จริงๆ

2
อะไรคือความแตกต่างระหว่างฟังก์ชั่นการสร้างโมเมนต์
ฉันสับสนระหว่างคำสองคำว่า "ฟังก์ชันสร้างความน่าจะเป็น" และ "ฟังก์ชันสร้างช่วงเวลา" ข้อกำหนดเหล่านี้แตกต่างกันอย่างไร

2
การเพิ่มประสิทธิภาพและการเรียนรู้ของเครื่อง
ฉันต้องการที่จะรู้ว่าการเรียนรู้ของเครื่องต้องมีการเพิ่มประสิทธิภาพ จากสิ่งที่ฉันได้ยินสถิติเป็นหัวข้อทางคณิตศาสตร์ที่สำคัญสำหรับผู้ที่ทำงานกับการเรียนรู้ของเครื่อง ในทำนองเดียวกันความสำคัญสำหรับคนที่ทำงานกับการเรียนรู้ด้วยเครื่องเพื่อเรียนรู้เกี่ยวกับการเพิ่มประสิทธิภาพแบบนูนหรือแบบไม่นูนคืออะไร?

1
การใช้ iloc เพื่อตั้งค่า [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา บรรทัดนี้ส่งกลับ 4 แถวแรกใน dataframe combinedสำหรับfeature_a combined.iloc[0:4]["feature_a"] ตามที่คาดไว้บรรทัดถัดไปนี้จะส่งคืนแถวที่ 2, 4 และ 16 ใน dataframe สำหรับคอลัมน์feature_a: combined.iloc[[1,3,15]]["feature_a"] บรรทัดนี้กำหนด 4 แถวแรกใน dataframe สำหรับการfeature_a77 combined.iloc[0:4]["feature_a"] = 77 บรรทัดนี้ทำอะไรบางอย่าง การคำนวณบางอย่างเกิดขึ้นเนื่องจากใช้เวลานานขึ้นเมื่อใช้กับรายการที่ยาวขึ้น combined.iloc[[1,3,15]]["feature_a"] = 88 แถวที่ 2, 4 และ 16 ไม่ได้ถูกตั้งค่าเป็น88เมื่อตรวจสอบกับสิ่งนี้: combined.iloc[[1,3,15]]["feature_a"] ฉันจะตั้งค่ารายการแถวของคอลัมน์ในคอลัมน์ใด ๆ ให้เป็นค่าโดยไม่ต้องมีการเข้ารหัสขนาดใหญ่ได้อย่างไร สถานการณ์นี้ดูเหมือนว่าควรตรงไปตรงมาและเป็นเรื่องธรรมดา
13 python  pandas 

8
แบบสำรวจ: 25% ของตัวแทนฐานผู้ใช้ขนาดใหญ่หรือไม่
ปัจจุบันนายจ้างของฉันกำลังสำรวจความคิดเห็นของ บริษัท เกี่ยวกับทัศนคติที่มีต่อสำนักงานเช่นความเชื่อมั่น ในอดีตพวกเขาเปิดการสำรวจไปยังทุกพื้นที่ของธุรกิจ (สมมติว่ามี 10 แผนกที่แตกต่างกันมาก) และพนักงานทุกคนในนั้น (สมมติว่ามีพนักงาน 1,000 คนใน บริษัท ทั้งหมด) จำนวนพนักงานในแต่ละแผนกไม่เท่ากัน แผนกเฉพาะอาจเป็น 50% ขององค์กรประชากรทั้งหมด ในปีนี้การสำรวจมีการเปิดถึง 25% ของฐานพนักงานทั้งหมดและการเลือกคือ 'สุ่ม' ดังนั้นฉันมีสองคำถาม: หากเป็นการเลือกแบบสุ่มอย่างแท้จริงของฐานพนักงานทั้งหมดจะเป็นอย่างไรตัวอย่างที่ถูกต้องทางสถิติที่สมมติว่าพนักงานทุกคนตอบสนองอย่างไร หากเป็นการสุ่มในแต่ละแผนกเช่น 25% ของแต่ละแผนกเป็นอย่างไรตัวอย่างที่ถูกต้องเมื่อพิจารณาจากหนึ่งแผนกมีมากกว่า 50% ของประชากรทั้งหมด ฉันจะสันนิษฐานว่าเพื่อกำหนดความเชื่อมั่นส่วนใหญ่ใน บริษัท หนึ่งต้องมีอย่างน้อย 50% ของฐานพนักงานในแต่ละแผนกเพื่อให้ความเชื่อมั่นการอ่านที่แท้จริง อัปเดต : การสำรวจไม่ได้บังคับใช้ ไม่สามารถรับประกันอัตราการตอบสนอง 100% จาก 25% ที่เลือก ไม่มีแรงจูงใจหรือบทลงโทษหากการสำรวจเป็นหรือไม่ได้กรอก

2
ฉันไม่เข้าใจความแปรปรวนของทวินาม
ฉันรู้สึกงี่เง่าจริงๆแม้จะถามคำถามพื้นฐาน แต่นี่ไป: ถ้าฉันมีตัวแปรสุ่มที่สามารถรับค่าและด้วยและดังนั้นถ้าฉันดึงตัวอย่างออกมาฉันจะได้ การกระจายแบบทวินามXXX000111P(X=1)=pP(X=1)=pP(X=1) = pP(X=0)=1−pP(X=0)=1−pP(X=0) = 1-pnnn ค่าเฉลี่ยของการแจกแจงคือ μ=np=E(X)μ=np=E(X)\mu = np = E(X) ความแปรปรวนของการแจกแจงคือ σ2=np(1−p)σ2=np(1−p)\sigma^2 = np(1-p) นี่คือที่ปัญหาของฉันเริ่มต้น: ความแปรปรวนจะถูกกำหนดโดย 2 เนื่องจากสแควร์ของผลลัพธ์เป็นไปได้สองรายการไม่เปลี่ยนแปลงอะไรเลย (และ ) นั่นหมายถึงดังนั้นนั่นหมายถึงσ2=E(X2)−E(X)2σ2=E(X2)−E(X)2\sigma^2 = E(X^2) - E(X)^2XXX02=002=00^2 = 012=112=11^2 = 1E(X2)=E(X)E(X2)=E(X)E(X^2) = E(X) σ2=E(X2)−E(X)2=E(X)−E(X)2=np−n2p2=np(1−np)≠np(1−p)σ2=E(X2)−E(X)2=E(X)−E(X)2=np−n2p2=np(1−np)≠np(1−p)\sigma^2 = E(X^2) - E(X)^2 = E(X) - E(X)^2 = np - n^2p^2 = np(1-np) …

3
ดังนั้นการกระจายเบต้า
เนื่องจากฉันแน่ใจว่าทุกคนที่นี่รู้อยู่แล้ว PDF ของการแจกแจงเบต้าX∼B(a,b)X∼B(a,b)X \sim B(a,b)มอบให้โดย f(x)=1B(a,b)xa−1(1−x)b−1f(x)=1B(a,b)xa−1(1−x)b−1f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1} ฉันตามล่าหาสถานที่เพื่ออธิบายต้นกำเนิดของสูตรนี้ แต่ฉันหามันไม่เจอ ทุกบทความที่ฉันพบในการแจกแจงเบต้าดูเหมือนว่าจะให้สูตรนี้แสดงให้เห็นถึงรูปร่างบางส่วนของมันแล้วตรงไปยังการอภิปรายช่วงเวลาและต่อจากที่นั่น ฉันไม่ชอบใช้สูตรทางคณิตศาสตร์ที่ไม่สามารถหามาอธิบายได้ สำหรับดิสทริบิวชันอื่น ๆ (เช่นแกมม่าหรือทวินาม) มีการได้มาอย่างชัดเจนที่ฉันสามารถเรียนรู้และใช้งานได้ แต่ฉันไม่พบอะไรแบบนั้นสำหรับการแจกแจงแบบเบต้า ดังนั้นคำถามของฉันคือ: ต้นกำเนิดของสูตรนี้คืออะไร? มันจะมาจากหลักการแรกในบริบทใดก็ตามที่ถูกพัฒนามาตั้งแต่แรก? [เพื่อความกระจ่างแจ้งฉันไม่ได้ถามเกี่ยวกับวิธีการใช้การแจกแจงแบบเบต้าในสถิติแบบเบย์หรือความหมายในทางปฏิบัติในทางปฏิบัติ (ฉันได้อ่านตัวอย่างเบสบอล) ฉันแค่อยากรู้วิธีการหา PDF มีคำถามก่อนหน้านี้ที่ถามสิ่งที่คล้ายกัน แต่มันถูกทำเครื่องหมาย (ฉันคิดว่าไม่ถูกต้อง) เป็นคำถามซ้ำที่ไม่ได้แก้ปัญหาดังนั้นฉันจึงไม่สามารถค้นหาความช่วยเหลือได้ที่นี่] แก้ไข 2017-05-06: ขอบคุณทุกคนสำหรับคำถาม ฉันคิดว่าคำอธิบายที่ดีของสิ่งที่ฉันต้องการมาจากคำตอบอย่างใดอย่างหนึ่งที่ฉันได้รับเมื่อฉันถามอาจารย์ผู้สอนหลักสูตรนี้: "ฉันเดาว่าผู้คนจะได้รับความหนาแน่นปกติเป็นขีด จำกัด ของผลรวมของ n สิ่งหารด้วย sqrt (n) และคุณสามารถหาความหนาแน่นของปัวซองได้จากแนวคิดของเหตุการณ์ที่เกิดขึ้นในอัตราคงที่เช่นเดียวกันเพื่อให้ได้ ความหนาแน่นของเบต้าคุณจะต้องมีความคิดบางอย่างเกี่ยวกับสิ่งที่ทำให้การกระจายตัวของเบต้าเป็นอิสระจากและมีเหตุผลก่อนที่จะมีความหนาแน่น " ดังนั้นความคิด "ab initio" ในความคิดเห็นน่าจะใกล้เคียงกับสิ่งที่ฉันกำลังมองหา ฉันไม่ใช่นักคณิตศาสตร์ แต่ฉันรู้สึกสะดวกสบายที่สุดเมื่อใช้คณิตศาสตร์ที่ฉันสามารถหามาได้ หากต้นกำเนิดนั้นสูงเกินกว่าที่ฉันจะจัดการได้ดังนั้นไม่ว่าจะเป็น แต่ถ้าไม่ใช่ฉันก็อยากจะเข้าใจพวกเขา

1
ถ้า
ฉันมาข้ามหลักฐานสำหรับหนึ่งในคุณสมบัติของรุ่น ARCH ที่บอกว่าถ้าแล้ว{ X T }นิ่ง IFF Σ หน้าฉัน= 1ขฉัน &lt; 1ที่รูปแบบ ARCH คือ:E ( X2เสื้อ) &lt; ∞E(Xt2)&lt;∞\mathbb{E}(X_t^2) < \infty{ Xเสื้อ}{Xt}\{X_t\}Σพีi = 1ขผม&lt; 1∑i=1pbi&lt;1\sum_{i=1}^pb_i < 1 Xเสื้อ= σเสื้อεเสื้อXt=σtϵtX_t = \sigma_t\epsilon_t σ2เสื้อ= b0+ b1X2t - 1+ . . . ขพีX2t - pσt2=b0+b1Xt−12+...bpXt−p2\sigma_t^2 = b_0 + b_1X_{t-1}^2 + ... b_pX_{t-p}^2 แนวคิดหลักของการพิสูจน์คือการแสดงให้เห็นว่าสามารถเขียนเป็นกระบวนการ AR …

4
บรรทัดฐาน - พิเศษเกี่ยวกับคืออะไร ?
บรรทัดฐานที่ไม่ซ้ำกัน (ส่วนน้อย) เพราะที่เขตแดนระหว่างไม่ใช่นูนและนูน บรรทัดฐานคือ 'มากที่สุดเบาบาง' นูนบรรทัดฐาน (ใช่ไหม?)L1L1L_1p=1p=1p=1L1L1L_1 ฉันเข้าใจว่าบรรทัดฐาน Euclidean มีรากฐานทางเรขาคณิตและมีการตีความที่ชัดเจนเมื่อมิติมีหน่วยเดียวกัน แต่ฉันไม่เข้าใจว่าทำไมมันถึงถูกใช้เป็นพิเศษมากกว่าจำนวนจริงอื่น ๆ : ? ? ทำไมไม่ใช้ช่วงเต็มอย่างต่อเนื่องเป็นพารามิเตอร์p=2p=2p=2p&gt;1p&gt;1p>1p=1.5p=1.5p=1.5p=πp=πp=\pi ฉันกำลังคิดถึงอะไร

4
ในการถดถอยเชิงเส้นเหตุใดตัวแปรตอบสนองจึงต้องต่อเนื่อง
ฉันรู้ว่าในการถดถอยเชิงเส้นตัวแปรตอบสนองจะต้องต่อเนื่อง แต่ทำไมถึงเป็นเช่นนั้น? ฉันไม่สามารถหาข้อมูลออนไลน์ที่อธิบายได้ว่าทำไมฉันไม่สามารถใช้ข้อมูลแยกสำหรับตัวแปรตอบกลับ

2
Neural Nets: ตัวแปรร้อนแรงอย่างต่อเนื่องหรือไม่
ฉันมีข้อมูลดิบที่มีประมาณ 20 คอลัมน์ (20 คุณสมบัติ) สิบรายการเป็นข้อมูลต่อเนื่องและ 10 รายการจัดอยู่ในหมวดหมู่ ข้อมูลหมวดหมู่บางส่วนอาจมีค่าแตกต่างกัน 50 ค่า (สหรัฐอเมริกา) หลังจากที่ฉันประมวลผลข้อมูลล่วงหน้าแล้วคอลัมน์ 10 คอลัมน์ต่อเนื่องจะกลายเป็น 10 คอลัมน์ที่เตรียมไว้และค่า 10 หมวดหมู่กลายเป็นตัวแปร 200 ตัวที่เข้ารหัสร้อน ฉันกังวลว่าถ้าฉันใส่ฟีเจอร์ 200 + 10 = 210 เหล่านี้ทั้งหมดลงในตาข่ายประสาทดังนั้นฟีเจอร์ 200-one-hot (คอลัมน์หมวดหมู่ 10 คอลัมน์) ทั้งหมดจะมีอิทธิพลต่อคุณสมบัติ 10 ต่อเนื่องทั้งหมด บางทีวิธีการหนึ่งอาจจะเป็นการรวมกลุ่มหรือคอลัมน์ นี่เป็นข้อกังวลที่ถูกต้องและมีวิธีมาตรฐานในการจัดการกับปัญหานี้หรือไม่? (ฉันใช้ Keras แม้ว่าฉันไม่คิดว่ามันจะสำคัญมาก)

4
เราควรกังวลเกี่ยวกับความหลากหลายเชิงเส้นเมื่อใช้โมเดลที่ไม่ใช่เชิงเส้นหรือไม่?
สมมติว่าเรามีปัญหาการจำแนกเลขฐานสองที่มีคุณสมบัติการจัดหมวดหมู่เป็นส่วนใหญ่ เราใช้โมเดลที่ไม่ใช่เชิงเส้น (เช่น XGBoost หรือ Random Forests) เพื่อเรียนรู้ หนึ่งควรยังคงกังวลเกี่ยวกับความหลากหลาย collinearity? ทำไม? หากคำตอบข้างต้นเป็นจริงเราจะต่อสู้กับมันอย่างไรเมื่อพิจารณาว่ามีการใช้โมเดลที่ไม่ใช่เชิงเส้นประเภทนี้อย่างไร

1
ทำไมการเรียนรู้การเสริมแรงลึกจึงไม่เสถียร?
ในรายงานปี 2558 ของ DeepMind เกี่ยวกับการเรียนรู้การเสริมแรงอย่างลึกซึ้งนั้นกล่าวว่า "ความพยายามก่อนหน้าในการรวม RL กับเครือข่ายประสาทล้มเหลวส่วนใหญ่ล้มเหลวเนื่องจากการเรียนรู้ไม่แน่นอน" จากนั้นกระดาษจะแสดงสาเหตุบางประการของสิ่งนี้ขึ้นอยู่กับความสัมพันธ์ข้ามการสังเกต ใครสักคนช่วยอธิบายความหมายของมันได้บ้าง? มันเป็นรูปแบบของการ overfitting ที่เครือข่ายนิวรัลเรียนรู้โครงสร้างบางอย่างที่มีอยู่ในการฝึกอบรม แต่อาจไม่ได้อยู่ที่การทดสอบ? หรือมันหมายถึงอย่างอื่น? กระดาษสามารถพบได้: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html และส่วนที่ฉันพยายามเข้าใจคือ: การเรียนรู้การเสริมแรงนั้นเป็นที่รู้กันว่าไม่เสถียรหรือแม้กระทั่งที่จะแยกออกเมื่อตัวประมาณฟังก์ชั่นที่ไม่เชิงเส้นเช่นเครือข่ายประสาทถูกนำมาใช้เพื่อเป็นตัวแทนของฟังก์ชั่นการกระทำตามตัวอักษร ความไม่แน่นอนนี้มีสาเหตุหลายประการ: ความสัมพันธ์ที่มีอยู่ในลำดับของการสังเกตความจริงที่ว่าการอัปเดตเล็ก ๆ เป็น Q อาจเปลี่ยนแปลงนโยบายอย่างมีนัยสำคัญดังนั้นจึงเปลี่ยนการกระจายข้อมูลและความสัมพันธ์ระหว่างค่าการกระทำและค่าเป้าหมาย เราจัดการกับความไม่แน่นอนเหล่านี้ด้วยรูปแบบแปลกใหม่ของ Q-learning ซึ่งใช้ความคิดหลักสองประการ อันดับแรกเราใช้กลไกที่ได้รับแรงบันดาลใจทางชีววิทยาเรียกว่าการเล่นซ้ำที่สุ่มข้อมูลผ่านซึ่งจะเป็นการลบความสัมพันธ์ในลำดับการสังเกตและทำให้การเปลี่ยนแปลงการกระจายข้อมูลราบรื่นขึ้น ประการที่สองเราใช้การอัพเดทซ้ำที่ปรับค่าการกระทำ (Q) ไปยังค่าเป้าหมายที่มีการปรับปรุงเป็นระยะเท่านั้นซึ่งจะช่วยลดความสัมพันธ์กับเป้าหมาย

2
แนวทางที่ขัดแย้งกันในการเลือกตัวแปร: AIC, p-values ​​หรือทั้งสองอย่าง?
จากสิ่งที่ฉันเข้าใจการเลือกตัวแปรตามค่า p (อย่างน้อยในบริบทการถดถอย) มีข้อบกพร่องสูง ดูเหมือนว่าการเลือกตัวแปรตาม AIC (หรือคล้ายกัน) ก็ถือว่ามีข้อบกพร่องบางอย่างด้วยเหตุผลที่คล้ายกันแม้ว่าจะดูเหมือนไม่ชัดเจน (เช่นดูคำถามของฉันและลิงก์บางส่วนในหัวข้อนี้ที่นี่: "การเลือกรุ่นตามขั้นตอน" คืออะไร? ) แต่สมมติว่าคุณเลือกหนึ่งในสองวิธีนี้เพื่อเลือกชุดพยากรณ์ที่ดีที่สุดในแบบจำลองของคุณ อัมและแอนเดอร์สัน 2002 (การเลือกแบบจำลองและการอนุมานหลายรูปแบบ: วิธีปฏิบัติเชิงทฤษฎีสารสนเทศ, หน้า 83) ระบุว่าไม่ควรผสมการเลือกตัวแปรตาม AIC กับการทดสอบสมมติฐาน : "การทดสอบสมมติฐานว่างและแนวทางสารสนเทศเชิงทฤษฎีควร ไม่ใช้ร่วมกันพวกเขาเป็นกระบวนทัศน์การวิเคราะห์ที่แตกต่างกันมาก " ในอีกทางหนึ่ง Zuur และคณะ 2009 (โมเดลเอฟเฟ็กต์ผสมกับส่วนขยายในระบบนิเวศด้วย R, หน้า 541) ดูเหมือนจะสนับสนุนการใช้AIC เพื่อค้นหาแบบจำลองที่ดีที่สุดก่อนแล้วจึงทำการ "ปรับจูน" โดยใช้การทดสอบสมมติฐาน : "ข้อเสียคือ AIC และคุณอาจต้องใช้การปรับแต่งแบบละเอียด (โดยใช้การทดสอบสมมติฐานจากแนวทางที่หนึ่ง) เมื่อ AIC ได้เลือกแบบจำลองที่ดีที่สุด " คุณสามารถดูว่าสิ่งนี้ทำให้ผู้อ่านหนังสือทั้งสองเล่มสับสนอย่างไร 1) "ค่าย" …

2
ค่าเฉลี่ยฮาร์มอนิกช่วยลดผลรวมของข้อผิดพลาดสัมพัทธ์กำลังสอง
ฉันกำลังมองหาข้อมูลอ้างอิงซึ่งพิสูจน์ได้ว่าค่าเฉลี่ยฮาร์มอนิก x¯h=n∑ni=11xix¯h=n∑i=1n1xi\bar{x}^h = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} ย่อเล็กสุด (เป็น ) ผลรวมของข้อผิดพลาดสัมพัทธ์กำลังสองzzz ∑i=1n((xi−z)2xi).∑i=1n((xi−z)2xi).\sum_{i=1}^n \left( \frac{(x_i - z)^2}{x_i}\right).

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.