สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
การกระจายระยะทางแบบยุคลิดระหว่างตัวแปรสุ่มแบบกระจายสองตัวคืออะไร?
สมมติว่าคุณจะได้รับวัตถุทั้งสองมีสถานที่ที่แน่นอนไม่เป็นที่รู้จัก แต่จะมีการกระจายไปตามการแจกแจงปรกติกับพารามิเตอร์ที่รู้จักกัน (เช่นและ(วีที)) เราสามารถสันนิษฐานได้ว่าสิ่งเหล่านี้เป็นทั้งบรรทัดฐาน bivariate เช่นตำแหน่งที่ถูกอธิบายโดยการกระจายข้ามพิกัด ( (เช่นและเป็นเวกเตอร์ที่มีพิกัดคาดหวังสำหรับและตามลำดับ) เราจะถือว่าวัตถุนั้นเป็นอิสระa ∼ N( m , s )a~ยังไม่มีข้อความ(ม.,s)a \sim N(m, s)b ∼ N( v , t ) )ข~ยังไม่มีข้อความ(โวลต์,เสื้อ))b \sim N(v, t))( x , y)(x,Y)(x,y)ม.ม.mโวลต์โวลต์v( x , y)(x,Y)(x,y)aaaขขb ไม่มีใครรู้ว่าการกระจายตัวของปริภูมิแบบยุคลิดแบบสแควร์ระหว่างวัตถุสองชิ้นนี้คือการแจกแจงแบบพารามิเตอร์หรือไม่? หรือวิธีการหา PDF / CDF สำหรับฟังก์ชั่นนี้วิเคราะห์?

13
เหตุใดอายุมัธยฐานจึงเป็นสถิติที่ดีกว่าอายุเฉลี่ย
ถ้าคุณดูWolfram Alpha หรือหน้า Wikipedia นี้รายชื่อประเทศเรียงตามอายุมัธยฐาน เห็นได้ชัดว่าค่าเฉลี่ยอยู่ในสถิติของการเลือกเมื่อมันมาถึงวัย ฉันไม่สามารถอธิบายให้ตัวเองได้ว่าทำไมค่าเฉลี่ยเลขคณิตจึงเป็นสถิติที่แย่กว่านั้น ทำไมถึงเป็นเช่นนั้น? โพสต์ครั้งแรกที่นี่เพราะฉันไม่รู้ว่ามีเว็บไซต์นี้อยู่
41 mean  median 

4
ทำไมความสัมพันธ์แบบศูนย์ไม่จำเป็นต้องหมายความถึงความเป็นอิสระ
หากตัวแปรสองตัวมีค่าสหสัมพันธ์ 0 เหตุใดจึงไม่จำเป็นต้องเป็นอิสระ ตัวแปรที่สัมพันธ์กันเป็นศูนย์ไม่มีอิสระภายใต้สถานการณ์พิเศษหรือไม่? หากเป็นไปได้ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายไม่ใช่คำศัพท์ทางเทคนิคขั้นสูง

1
วิธีการตีความการวัดข้อผิดพลาด?
ฉันใช้การจำแนกประเภทใน Weka สำหรับชุดข้อมูลบางอย่างและฉันสังเกตเห็นว่าถ้าฉันพยายามที่จะทำนายค่าเล็กน้อยผลลัพธ์จะแสดงค่าที่ถูกต้องและคาดการณ์ไม่ถูกต้องโดยเฉพาะ อย่างไรก็ตามตอนนี้ฉันกำลังเรียกใช้สำหรับคุณลักษณะที่เป็นตัวเลขและผลลัพธ์คือ: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 ฉันจะตีความสิ่งนี้ได้อย่างไร ฉันลองใช้ความคิดแต่ละอย่างแล้ว แต่ฉันไม่เข้าใจมากนักเนื่องจากสถิติไม่ได้อยู่ในความเชี่ยวชาญของฉัน ฉันขอขอบคุณคำตอบประเภท ELI5 อย่างมากในแง่ของสถิติ

9
จะตีความค่า F-measure ได้อย่างไร?
ฉันต้องการทราบวิธีตีความความแตกต่างของค่าการวัดค่า ฉันรู้ว่าการวัดค่า f เป็นค่าเฉลี่ยที่สมดุลระหว่างความแม่นยำและการเรียกคืน แต่ฉันถามถึงความหมายที่ใช้งานได้จริงของความแตกต่างในการวัดค่า F ตัวอย่างเช่นถ้าลักษณนาม C1 มีความแม่นยำ 0.4 และลักษณนาม C2 อีกตัวหนึ่งมีความแม่นยำ 0.8 เราสามารถพูดได้ว่า C2 ได้จำแนกตัวอย่างทดสอบสองเท่าอย่างถูกต้องเมื่อเปรียบเทียบกับ C1 อย่างไรก็ตามถ้าลักษณนาม C1 มีค่า F- วัด 0.4 สำหรับบางคลาสและลักษณนามอีก C2 ค่า F เป็น 0.8 เราจะระบุอะไรเกี่ยวกับความแตกต่างของประสิทธิภาพของตัวแยกประเภท 2? เราสามารถพูดได้ว่า C2 ได้จำแนกอินสแตนซ์ X ที่ถูกต้องมากขึ้นแล้วหรือไม่?

3
การถดถอยของผลลัพธ์ (อัตราส่วนหรือเศษส่วน) ระหว่าง 0 และ 1
ผมคิดว่าการสร้างแบบจำลองการคาดการณ์อัตราส่วน/ขที่≤ ขและ> 0และB > 0 ดังนั้นอัตราส่วนจะอยู่ระหว่าง0และ1a / ba/ba/ba ≤ ba≤ba \le ba > 0a>0a > 0b > 0b>0b > 0000111 ฉันสามารถใช้การถดถอยเชิงเส้นแม้ว่ามันจะไม่ได้ จำกัด อยู่ที่ 0..1 ฉันไม่มีเหตุผลที่จะเชื่อว่าความสัมพันธ์นั้นเป็นเส้นตรง แต่แน่นอนว่ามันมักจะถูกนำมาใช้เป็นโมเดลแรกง่ายๆ ฉันสามารถใช้การถดถอยโลจิสติกได้แม้ว่าโดยปกติจะใช้ในการทำนายความน่าจะเป็นของผลลัพธ์แบบสองสถานะไม่ใช่เพื่อทำนายค่าต่อเนื่องจากช่วง 0..1 หากไม่รู้อะไรเพิ่มเติมคุณจะใช้การถดถอยเชิงเส้นการถดถอยโลจิสติกหรือตัวเลือกที่ซ่อนอยู่cหรือไม่?

5
คะแนนความชอบต่างจากการเพิ่ม covariates ในการถดถอยอย่างไรและเมื่อใดที่พวกเขาต้องการคะแนนหลัง
ฉันยอมรับว่าฉันค่อนข้างใหม่กับคะแนนความชอบและการวิเคราะห์เชิงสาเหตุ สิ่งหนึ่งที่ไม่ชัดเจนสำหรับฉันในฐานะผู้มาใหม่คือ "การปรับสมดุล" โดยใช้คะแนนความชอบมีความแตกต่างทางคณิตศาสตร์จากสิ่งที่เกิดขึ้นเมื่อเราเพิ่ม covariates ลงในการถดถอย มีอะไรแตกต่างกันเกี่ยวกับการผ่าตัดและทำไมมันถึงดีกว่าการเพิ่มประชากรย่อยในการถดถอย ฉันเคยเห็นการศึกษาบางอย่างที่ทำการเปรียบเทียบเชิงประจักษ์ของวิธีการ แต่ฉันไม่เคยเห็นการสนทนาที่ดีเกี่ยวกับคุณสมบัติทางคณิตศาสตร์ของทั้งสองวิธีและทำไม PSM ให้ยืมตัวเองไปสู่การตีความเชิงสาเหตุ ดูเหมือนจะมีความสับสนและการโต้เถียงกันมากมายในสาขานี้ซึ่งทำให้สิ่งต่าง ๆ ยากขึ้น ความคิดใด ๆ เกี่ยวกับสิ่งนี้หรือตัวชี้ไปยังแหล่งข้อมูลที่ดี / กระดาษเพื่อทำความเข้าใจความแตกต่าง? (ฉันค่อย ๆ เดินผ่านหนังสือเวรกรรมของจูเดียเพิร์ลดังนั้นไม่จำเป็นต้องชี้ให้ฉันเห็น)

3
ฉันสามารถคำนวณ
สมมติว่าϕ(⋅)φ(⋅)\phi(\cdot)และΦ(⋅)Φ(⋅)\Phi(\cdot)เป็นฟังก์ชันความหนาแน่นและฟังก์ชันการกระจายของการแจกแจงแบบปกติมาตรฐาน เราจะคำนวณอินทิกรัลได้อย่างไร: ∫∞−∞Φ(w−ab)ϕ(w)dw∫−∞∞Φ(w−ab)ϕ(w)dW\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

1
softmax_cross_entropy_with_logits แตกต่างจาก softmax_cross_entropy_with_logits_v2 อย่างไร
โดยเฉพาะฉันคิดว่าฉันสงสัยเกี่ยวกับคำสั่งนี้: เวอร์ชันหลักของ TensorFlow ในอนาคตจะอนุญาตให้การไล่ระดับสีไหลไปยังอินพุตของฉลากบน backprop ตามค่าเริ่มต้น tf.nn.softmax_cross_entropy_with_logitsซึ่งจะแสดงเมื่อฉันใช้ tf.nn.softmax_cross_entropy_with_logits_v2ในข้อความเดียวกันก็เรียกร้องให้ผมที่จะมีลักษณะที่ ฉันดูเอกสาร แต่ระบุว่าtf.nn.softmax_cross_entropy_with_logits_v2: Backpropagation จะเกิดขึ้นในทั้งการบันทึกและป้ายกำกับ หากต้องการไม่อนุญาตให้ backpagation ลงในฉลากให้ส่งเทนเซอร์ของฉลากผ่าน stop_gradients ก่อนส่งไปยังฟังก์ชันนี้ เมื่อเทียบกับtf.nn.softmax_cross_entropy_with_logits: การแพร่กระจายย้อนหลังจะเกิดขึ้นในบันทึกเท่านั้น เป็นเรื่องใหม่มากกับเรื่อง (ฉันกำลังพยายามหาทางผ่านบทเรียนพื้นฐานบางอย่าง) ข้อความเหล่านี้ไม่ชัดเจน ฉันมีความเข้าใจตื้น ๆ เกี่ยวกับ backpropagation แต่จริงๆแล้วข้อความก่อนหน้านี้หมายถึงอะไร? backpropagation และฉลากเชื่อมต่อกันอย่างไร? และสิ่งนี้จะเปลี่ยนแปลงวิธีที่ฉันทำงานด้วยtf.nn.softmax_cross_entropy_with_logits_v2เมื่อเทียบกับต้นฉบับได้อย่างไร

6
Random Forest - วิธีจัดการกับการสวมใส่ที่มากเกินไป
ฉันมีพื้นฐานด้านวิทยาการคอมพิวเตอร์ แต่ฉันพยายามสอนวิทยาศาสตร์ข้อมูลด้วยตนเองโดยการแก้ปัญหาทางอินเทอร์เน็ต ฉันได้พยายามแก้ไขปัญหานี้ในช่วงสองสามสัปดาห์ที่ผ่านมา (ประมาณ 900 แถวและ 10 ฟีเจอร์) ตอนแรกฉันใช้การถดถอยแบบโลจิสติกส์ แต่ตอนนี้ฉันเปลี่ยนเป็นป่าแบบสุ่ม เมื่อฉันใช้โมเดลฟอเรสต์แบบสุ่มบนข้อมูลการฝึกอบรมของฉันฉันจะได้รับค่าที่สูงมากสำหรับ auc (> 99%) อย่างไรก็ตามเมื่อฉันรันโมเดลเดียวกันกับข้อมูลการทดสอบผลลัพธ์จะไม่ดี (ความแม่นยำประมาณ 77%) สิ่งนี้ทำให้ฉันเชื่อว่าฉันเหมาะสมกว่าข้อมูลการฝึกอบรม อะไรคือวิธีปฏิบัติที่ดีที่สุดเกี่ยวกับการป้องกันการติดตั้งในป่าสุ่ม? ฉันใช้ r และ rstudio เป็นสภาพแวดล้อมการพัฒนาของฉัน ฉันใช้randomForestแพคเกจและได้ยอมรับค่าเริ่มต้นสำหรับพารามิเตอร์ทั้งหมด

3
ความเป็นอิสระทางสถิติหมายถึงการขาดสาเหตุหรือไม่?
ตัวแปรสุ่มสองตัวคือ A และ B มีความเป็นอิสระทางสถิติ นั่นหมายความว่าใน DAG ของกระบวนการ:และแน่นอน(A) แต่นั่นก็หมายความว่าไม่มีประตูหน้าจาก B ถึง A?(A⊥⊥B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P(A|B)=P(A)P(A|B)=P(A)P(A|B)=P(A) เพราะเราก็ควรจะได้รับ(A) ดังนั้นหากเป็นเช่นนั้นความเป็นอิสระทางสถิติหมายถึงการขาดสาเหตุโดยอัตโนมัติหรือไม่?P(A|do(B))=P(A)P(A|do(B))=P(A)P(A|do(B))=P(A)

4
ทำไม sigmoid จึงทำงานแทนอย่างอื่น?
ทำไมฟังก์ชั่น sigmoid มาตรฐานแบบพฤตินัยจึงได้รับความนิยมในเครือข่ายนิวรัลและการถดถอยโลจิสติก11+e−x11+e−x\frac{1}{1+e^{-x}} ทำไมเราไม่ใช้ฟังก์ชั่นที่เปลี่ยนแปลงได้อื่น ๆ อีกมากมายด้วยเวลาการคำนวณที่เร็วขึ้นหรือการสลายตัวที่ช้ากว่า ไม่กี่ตัวอย่างในวิกิพีเดียเกี่ยวกับฟังก์ชั่น sigmoid หนึ่งในรายการโปรดของฉันกับการสลายตัวช้าและการคำนวณอย่างรวดเร็ว|}x1+|x|x1+|x|\frac{x}{1+|x|} แก้ไข คำถามนั้นแตกต่างจากรายการฟังก์ชั่นการเปิดใช้งานที่ครอบคลุมในเครือข่ายนิวรัลที่มีข้อดี / ข้อเสียเนื่องจากฉันสนใจเพียงแค่ 'ทำไม' และสำหรับ sigmoid เท่านั้น

5
การเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ใช้งานได้: การสุ่มเทียบกับการค้นหากริด
ขณะนี้ฉันกำลังผ่านการค้นหาแบบสุ่ม ของ Bengio และ Bergsta สำหรับการเพิ่มประสิทธิภาพพารามิเตอร์มากเกินไป[1]ซึ่งผู้เขียนอ้างว่าการค้นหาแบบสุ่มนั้นมีประสิทธิภาพมากกว่าการค้นหาแบบตารางเพื่อให้ได้ประสิทธิภาพที่เท่าเทียมกันโดยประมาณ คำถามของฉันคือ: คนที่นี่เห็นด้วยกับการเรียกร้องนั้นหรือไม่? ในงานของฉันฉันใช้การค้นหากริดเป็นส่วนใหญ่เนื่องจากการขาดเครื่องมือที่พร้อมใช้งานเพื่อทำการค้นหาแบบสุ่มได้อย่างง่ายดาย ประสบการณ์ของผู้ใช้ที่ใช้กริดกับการค้นหาแบบสุ่มคืออะไร

6
ควรใช้แบบจำลองเมื่อใด
นี่เป็นคำถามที่ง่ายและโง่มาก อย่างไรก็ตามเมื่อฉันอยู่ในโรงเรียนฉันให้ความสนใจน้อยมากกับแนวคิดทั้งหมดของการจำลองในชั้นเรียนและนั่นทำให้ฉันหวาดกลัวเล็กน้อยเกี่ยวกับกระบวนการนั้น คุณสามารถอธิบายขั้นตอนการจำลองในแง่ฆราวาสได้หรือไม่? (อาจใช้สำหรับการสร้างข้อมูลสัมประสิทธิ์การถดถอย ฯลฯ ) อะไรคือสถานการณ์ / ปัญหาที่ใช้งานได้จริงเมื่อเราจะใช้สถานการณ์จำลอง? ฉันต้องการตัวอย่างที่ให้ไว้ใน R
40 simulation 

5
ความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและหมวดหมู่ (ระบุ)
ฉันต้องการหาความสัมพันธ์ระหว่างตัวแปรแบบต่อเนื่อง (ตัวแปรตาม) และหมวดหมู่ (ชื่อ: เพศตัวแปรอิสระ) ข้อมูลต่อเนื่องจะไม่กระจายตามปกติ ก่อนหน้านี้ผมได้คำนวณโดยใช้สเปียร์แมนρอย่างไรก็ตามฉันได้รับแจ้งว่าไม่ถูกต้องρρ\rho ในขณะที่ค้นหาบนอินเทอร์เน็ตฉันพบว่ากล่องควบคุมสามารถให้แนวคิดเกี่ยวกับจำนวนที่เกี่ยวข้อง แต่ผมกำลังมองหาค่าเชิงปริมาณเช่นค่าสัมประสิทธิ์เพียร์สันหรือสเปียร์แมนρคุณช่วยฉันเกี่ยวกับวิธีการทำสิ่งนี้ได้ไหม หรือแจ้งวิธีการใดที่เหมาะสมρρ\rho Point Biserial Coefficient เป็นตัวเลือกที่ถูกต้องหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.