สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ควรใช้ GAM กับ GLM เมื่อใด
ฉันรู้ว่านี่อาจเป็นคำถามที่กว้าง แต่ฉันสงสัยว่ามีข้อสมมติฐานทั่วไปที่บ่งบอกถึงการใช้ GAM (โมเดลเสริมทั่วไป) เหนือ GLM (โมเดลเชิงเส้นทั่วไป) หรือไม่ มีคนบอกฉันเมื่อไม่นานมานี้ว่า GAM ควรใช้เฉพาะเมื่อฉันถือว่าโครงสร้างข้อมูลเป็น "สารเติมแต่ง" เช่นฉันคาดว่าการเพิ่มของ x เพื่อคาดการณ์ y อีกคนหนึ่งชี้ให้เห็นว่า GAM ทำการวิเคราะห์การถดถอยแบบต่างจาก GLM และเป็นที่ต้องการของ GLM เมื่อสามารถอนุมานเชิงเส้นได้ ในอดีตฉันใช้ GAM สำหรับข้อมูลเชิงนิเวศน์เช่น: ไทม์อย่างต่อเนื่อง เมื่อข้อมูลไม่มีรูปร่างเป็นเส้นตรง ฉันมี x หลายตัวเพื่อทำนาย y ที่ฉันคิดว่ามีปฏิสัมพันธ์แบบไม่เชิงเส้นที่ฉันสามารถเห็นภาพโดยใช้ "พล็อตผิว" พร้อมกับการทดสอบทางสถิติ เห็นได้ชัดว่าฉันไม่มีความเข้าใจที่ดีในสิ่งที่ GAM ทำแตกต่างจาก GLM ฉันเชื่อว่าเป็นการทดสอบทางสถิติที่ถูกต้อง (และฉันเห็นการเพิ่มขึ้นของการใช้งาน GAMs อย่างน้อยในวารสารด้านนิเวศวิทยา) แต่ฉันจำเป็นต้องรู้ให้ดีขึ้นเมื่อการใช้งานถูกระบุเหนือการวิเคราะห์การถดถอยอื่น ๆ

1
เหตุใด ReLU เดียวจึงไม่สามารถเรียนรู้ ReLU ได้
จากการติดตามเครือข่ายประสาทของฉันไม่สามารถเรียนรู้ระยะทางแบบยุคลิดฉันได้ง่ายขึ้นและพยายามฝึกฝน ReLU เดี่ยว (ด้วยน้ำหนักสุ่ม) ไปยัง ReLU เดียว นี่คือเครือข่ายที่ง่ายที่สุดที่มีอยู่และยังครึ่งหนึ่งของเวลาที่มันไม่มาบรรจบกัน หากการเดาเริ่มต้นอยู่ในทิศทางเดียวกับเป้าหมายมันจะเรียนรู้ได้อย่างรวดเร็วและแปลงเป็นน้ำหนักที่ถูกต้อง 1: หากการเดาเริ่มต้นคือ "ถอยหลัง" มันจะติดอยู่ที่น้ำหนักเป็นศูนย์และไม่ผ่านไปยังพื้นที่ที่มีการสูญเสียต่ำกว่า: ฉันไม่เข้าใจว่าทำไม โคตรลาดชันไม่ควรทำตามโค้งการสูญเสียไปสู่มินิมาระดับโลกอย่างง่ายดายหรือไม่? รหัสตัวอย่าง: from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, ReLU from tensorflow import keras import numpy as np import matplotlib.pyplot as plt batch = 1000 def tests(): while True: test = np.random.randn(batch) # Generate ReLU …

2
การคำนวณช่วงความมั่นใจสำหรับการถดถอยโลจิสติก
ฉันใช้การถดถอยโลจิสติกแบบทวินามเพื่อระบุว่าการสัมผัสhas_xหรือhas_yส่งผลกระทบต่อโอกาสที่ผู้ใช้จะคลิกบนบางสิ่ง โมเดลของฉันมีดังต่อไปนี้: fit = glm(formula = has_clicked ~ has_x + has_y, data=df, family = binomial()) นี่คือผลลัพธ์จากรุ่นของฉัน: Call: glm(formula = has_clicked ~ has_x + has_y, family = binomial(), data = active_domains) Deviance Residuals: Min 1Q Median 3Q Max -0.9869 -0.9719 -0.9500 1.3979 1.4233 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) …

3
มูลค่าสูงสุดของการผันแปร Kullback-Leibler (KL) คืออะไร
ฉันจะใช้ KL divergence ในรหัสหลามของฉันและฉันได้รับการสอนนี้ ในบทช่วยสอนนั้นการใช้ KL divergence นั้นค่อนข้างง่าย kl = (model * np.log(model/actual)).sum() ดังที่ฉันเข้าใจการกระจายความน่าจะเป็นของmodelและactualควรเป็น <= 1 คำถามของฉันคืออะไรค่าสูงสุดที่เป็นไปได้ / ค่าสูงสุดที่เป็นไปได้คือ k ฉันจำเป็นต้องรู้ค่าสูงสุดที่เป็นไปได้ของระยะทาง kl สำหรับขอบเขตสูงสุดในรหัสของฉัน

4
การยอมรับสมมติฐานว่าง
นี่คือคำถามการอภิปรายเกี่ยวกับจุดตัดของสถิติและวิทยาศาสตร์อื่น ๆ ฉันมักเผชิญปัญหาเดียวกัน: นักวิจัยในสาขาของฉันมักจะบอกว่าไม่มีผลเมื่อค่า p ไม่น้อยกว่าระดับนัยสำคัญ ในตอนแรกฉันมักจะตอบว่านี่ไม่ใช่วิธีการทดสอบสมมติฐาน เมื่อคำถามนี้เกิดขึ้นบ่อยครั้งฉันต้องการจะหารือเกี่ยวกับปัญหานี้กับนักสถิติที่มีประสบการณ์มากกว่า ให้เราพิจารณาบทความล่าสุดในวารสารวิทยาศาสตร์จาก "กลุ่มสำนักพิมพ์ที่ดีที่สุด" Nature Communications Biology (มีหลายตัวอย่าง แต่ให้มุ่งเน้นไปที่หนึ่ง) นักวิจัยตีความผลลัพธ์ที่ไม่มีนัยสำคัญทางสถิติด้วยวิธีต่อไปนี้: ดังนั้นเรื้อรังข้อ จำกัด แคลอรี่ในระดับปานกลางสามารถยืดอายุการใช้งานและเสริมสร้างสุขภาพของเจ้าคณะ แต่มันมีผลต่อสมองสมบูรณ์เรื่องสีเทาโดยไม่มีผลต่อการแสดงความรู้ความเข้าใจ พิสูจน์: อย่างไรก็ตามการแสดงในงานเขาวงกต Barnes นั้นไม่แตกต่างกันระหว่างสัตว์ควบคุมและสัตว์ที่ จำกัด แคลอรี (LME: F = 0.05, p = 0.82; รูปที่ 2a) ในทำนองเดียวกันงานการสลับที่เกิดขึ้นเองไม่ได้เปิดเผยความแตกต่างระหว่างสัตว์ที่ควบคุมและสัตว์ที่ จำกัด แคลอรี่ (LME: F = 1.63, p = 0.22; รูปที่ 2b) ผู้เขียนยังแนะนำให้อธิบายถึงการขาดผลกระทบ - แต่ประเด็นสำคัญไม่ใช่คำอธิบาย …

3
วิธีการแก้ไขปัญหาข้อมูลขาดหายไปในการเรียนรู้ของเครื่อง
ฐานข้อมูลใด ๆ ที่เราต้องการทำนายโดยใช้อัลกอริทึมการเรียนรู้ของเครื่องจะค้นหาค่าที่ขาดหายไปสำหรับคุณลักษณะบางอย่าง มีหลายวิธีในการแก้ไขปัญหานี้เพื่อแยกบรรทัดที่มีค่าหายไปจนกว่าพวกเขาจะเติมค่าเฉลี่ยของลักษณะ ฉันต้องการใช้สำหรับวิธีที่ค่อนข้างแข็งแกร่งซึ่งโดยทั่วไปจะเรียกใช้การถดถอย (หรือวิธีอื่น) ซึ่งตัวแปรตาม (Y) จะเป็นคอลัมน์แต่ละคอลัมน์ที่มีค่าที่หายไป แต่มีเฉพาะแถวของตาราง ที่มีข้อมูลทั้งหมดและทำนายค่าที่ขาดหายไปด้วยวิธีนี้ให้ทำตารางตามตารางและย้ายไปยัง 'คอลัมน์' ถัดไปด้วยค่าที่หายไปและทำซ้ำวิธีจนกว่าทุกอย่างจะเต็ม แต่นั่นทำให้ฉันสงสัย ทำไมคอลัมน์เริ่มต้น ฉันเชื่อว่าคนที่มีค่าที่น้อยที่สุดจะหายไปจนกว่าคนที่มีค่ามากที่สุด มีเกณฑ์ของค่าที่หายไปที่ไม่คุ้มค่าหรือไม่ที่จะพยายามทำให้เสร็จ (ตัวอย่างเช่นหากคุณลักษณะนี้มีเพียง 10% ของค่าที่เติมจะไม่น่าสนใจที่จะยกเว้น) มีการนำไปใช้ในแพคเกจแบบดั้งเดิมหรือวิธีการอื่นที่ทนทานต่อการขาดหรือไม่

2
ข้อผิดพลาด Bayes คืออะไรในการเรียนรู้ของเครื่อง?
http://www.deeplearningbook.org/contents/ml.htmlหน้า 116 อธิบายข้อผิดพลาดของ Bayes ดังต่อไปนี้ โมเดลอุดมคติคือ oracle ที่รู้การกระจายความน่าจะเป็นจริงที่สร้างข้อมูล แม้รูปแบบดังกล่าวจะยังคงเกิดข้อผิดพลาดในปัญหามากมายเนื่องจากอาจมีสัญญาณรบกวนในการกระจาย ในกรณีของการเรียนรู้ภายใต้การดูแลการทำแผนที่จาก x ถึง y อาจจะสุ่มโดยเนื้อแท้หรือ y อาจเป็นฟังก์ชันที่กำหนดขึ้นซึ่งเกี่ยวข้องกับตัวแปรอื่นนอกเหนือจากที่รวมอยู่ใน x ข้อผิดพลาดที่เกิดขึ้นจากการพยากรณ์ทำนายจากการแจกแจงจริง p (x, y) เรียกว่าข้อผิดพลาด Bayes คำถาม โปรดอธิบายข้อผิดพลาด Bayes อย่างสังหรณ์ใจ? แตกต่างจากข้อผิดพลาดลดลงไม่ได้อย่างไร ฉันจะพูดว่า error error = Bias + Variance + Bayes ได้ไหม? ความหมายของ "y อาจเป็นแบบสุ่มโดยเนื้อแท้" คืออะไร?

2
การทดลอง Bernoulli ที่สัมพันธ์กันการกระจายแบบหลายตัวแปรของ Bernoulli?
ฉันลดความซับซ้อนของคำถามการวิจัยที่ฉันมีในที่ทำงาน ลองนึกภาพว่าฉันมี 5 เหรียญและขอเรียกให้ประสบความสำเร็จ เหล่านี้เป็นเหรียญที่มีอคติมากโดยมีโอกาสประสบความสำเร็จ p = 0.1 ตอนนี้ถ้าเหรียญเป็นอิสระแล้วได้รับความน่าจะเป็นของอย่างน้อย 1 หัวหรือมากกว่าง่ายมาก 5 ในสถานการณ์สมมติของฉันการทดลอง Bernoulli ของฉัน (การโยนเหรียญ) ไม่เป็นอิสระ ข้อมูลเดียวที่ฉันสามารถเข้าถึงได้คือความน่าจะเป็นของความสำเร็จ (แต่ละอันคือ p = .1) และความสัมพันธ์เชิงทฤษฎีของเพียร์สันในหมู่ตัวแปรไบนารี1−(1−1/10)51−(1−1/10)51-(1-1/10)^5 มีวิธีการคำนวณความน่าจะเป็นของความสำเร็จหนึ่งครั้งหรือมากกว่านั้นกับข้อมูลนี้หรือไม่? ฉันกำลังพยายามหลีกเลี่ยงวิธีการจำลองสถานการณ์เนื่องจากผลลัพธ์ทางทฤษฎีเหล่านี้จะถูกใช้เพื่อเป็นแนวทางในความแม่นยำของการศึกษาแบบจำลอง ฉันได้รับการพิจารณาในการกระจายตัวของ Bernoulli หลายตัวแปร แต่ฉันไม่คิดว่าฉันสามารถระบุได้อย่างเต็มที่กับความสัมพันธ์และโอกาสที่จะประสบความสำเร็จเพียงเล็กน้อยเท่านั้น เพื่อนคนหนึ่งของฉันแนะนำให้สร้างแบบเกาส์เกาส์ด้วยเบอเนลลีขอบ (ใช้แพ็คเกจ R copula) จากนั้นใช้pMvdc()ฟังก์ชั่นบนตัวอย่างขนาดใหญ่เพื่อให้ได้ความน่าจะเป็นที่ฉันต้องการ แต่ฉันไม่แน่ใจว่าจะทำอย่างไรกับมัน

1
วิธีการตีความเอนโทรปีต่างกันอย่างไร
ฉันเพิ่งอ่านนี้บทความเกี่ยวกับเอนโทรปีของการกระจายความน่าจะเป็นที่ไม่ต่อเนื่อง มันอธิบายวิธีคิดที่ดีเกี่ยวกับเอนโทรปีเป็นบิตจำนวนที่คาดหวัง (อย่างน้อยเมื่อใช้ในการกำหนดเอนโทรปีของคุณ) จำเป็นต้องเข้ารหัสข้อความเมื่อการเข้ารหัสของคุณดีที่สุดเนื่องจากการกระจายความน่าจะเป็นของคำที่คุณใช้เข้าสู่ระบบ2log2\log_2 อย่างไรก็ตามเมื่อขยายไปถึงกรณีอย่างต่อเนื่องเช่นที่นี่ฉันเชื่อว่าวิธีคิดนี้หยุดลงเนื่องจากสำหรับการแจกแจงความน่าจะเป็นแบบต่อเนื่องp ( x ) (โปรดแก้ไขให้ฉันด้วยถ้าผิด) ดังนั้นฉันจึง สงสัยว่ามีวิธีคิดที่ดีเกี่ยวกับความหมายของเอนโทรปีต่อเนื่องเช่นเดียวกับกรณีที่ไม่ต่อเนื่องΣxp ( x ) = ∞∑xp(x)=∞\sum_x p(x) = \inftyp ( x )p(x)p(x)

2
อะไรคือ“ พื้นฐาน” ในกราฟการเรียกคืนที่แม่นยำ
ฉันพยายามเข้าใจเส้นโค้งการเรียกคืนที่แม่นยำฉันเข้าใจว่าความแม่นยำและการเรียกคืนคืออะไร แต่สิ่งที่ฉันไม่เข้าใจคือค่า "พื้นฐาน" ฉันอ่านลิงค์นี้ https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ และฉันไม่เข้าใจส่วนพื้นฐานดังที่แสดงใน "เส้นโค้งความแม่นยำ - การเรียกคืนของตัวจําแนกที่สมบูรณ์แบบ" มันทําอะไรได้บ้าง และเราจะคำนวณได้อย่างไร มันเป็นเพียงพื้นฐานแบบสุ่มที่เราเลือก? ตัวอย่างเช่นฉันมีข้อมูลตัวสั่นด้วยความตื่นเต้นเช่นคุณลักษณะretweet,status_countและอื่น ๆ และป้ายกำกับคลาสของฉันคือFavorited1 หากรายการโปรดและ 0 หากไม่ได้รับความโปรดปรานและฉันใช้ช่องทางที่ไร้เดียงสาและตอนนี้ฉันต้องการวาดเส้นโค้งการจำคืนความแม่นยำ ?

3
ทำไมมีนโยบายอย่างน้อยหนึ่งนโยบายที่ดีกว่าหรือเท่ากับนโยบายอื่น ๆ ทั้งหมดเสมอ
การเรียนรู้การเสริมแรง: การแนะนำ กำลังดำเนินการพิมพ์ครั้งที่สอง Richard S. Sutton และ Andrew G. Barto (c) 2012, pp. 67-68 การแก้ปัญหาการเรียนรู้การเสริมแรงนั้นหมายถึงการค้นหานโยบายที่ได้รับรางวัลมากมายในระยะยาว สำหรับ MDP ที่ จำกัด เราสามารถกำหนดนโยบายที่เหมาะสมได้อย่างแม่นยำด้วยวิธีต่อไปนี้ ฟังก์ชั่นค่ากำหนดการสั่งซื้อบางส่วนผ่านนโยบาย นโยบายถูกกำหนดให้ดีกว่าหรือเท่ากับนโยบายหากผลตอบแทนที่คาดหวังมากกว่าหรือเท่ากับของสำหรับทุกรัฐ กล่าวอีกนัยหนึ่งถ้าหาก , สำหรับทั้งหมด มีนโยบายอย่างน้อยหนึ่งนโยบายที่ดีกว่าหรือเท่ากับนโยบายอื่น ๆ ทั้งหมด นี่เป็นนโยบายที่ดีที่สุดπ ' π ' π ≥ π ' วีπ ( s ) ≥ วีπ ' ( s ) s ∈ Sππ\piπ′π′\pi'π′π′\pi'π≥π′π≥π′\pi \geq …

3
ประโยชน์ของทฤษฎีบท Frisch-Waugh
ฉันควรจะสอนทฤษฎีบท Frish Waugh ในสาขาเศรษฐศาสตร์ซึ่งฉันไม่ได้ศึกษา ฉันเข้าใจคณิตศาสตร์ที่อยู่ข้างหลังและฉันก็หวังว่าความคิดนี้เช่นกัน "ค่าสัมประสิทธิ์ที่คุณได้รับสำหรับค่าสัมประสิทธิ์เฉพาะจากแบบจำลองเชิงเส้นหลายเส้นนั้นเท่ากับสัมประสิทธิ์ของตัวแบบการถดถอยอย่างง่ายถ้าคุณ" กำจัด "อิทธิพลของตัวถดถอยอื่น ๆ ดังนั้นแนวคิดทางทฤษฎีจึงเจ๋งมาก (ถ้าฉันเข้าใจผิดโดยสิ้นเชิงฉันยินดีต้อนรับการแก้ไข) แต่มันมีประเพณีดั้งเดิม / การปฏิบัติบางอย่าง? แก้ไข : ฉันยอมรับคำตอบแล้ว แต่ยังยินดีที่จะมีคำตอบใหม่ที่นำตัวอย่าง / แอปพลิเคชันอื่นมาใช้

5
มันจะดีกว่าที่จะทำการวิเคราะห์ข้อมูลเชิงสำรวจในชุดข้อมูลการฝึกอบรมเท่านั้น?
ฉันกำลังทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ในชุดข้อมูล จากนั้นฉันจะเลือกคุณสมบัติบางอย่างเพื่อทำนายตัวแปรตาม คำถามคือ: ฉันควรทำ EDA บนชุดข้อมูลการฝึกอบรมของฉันเท่านั้นหรือไม่ หรือฉันควรเข้าร่วมการฝึกอบรมและการทดสอบชุดข้อมูลจากนั้นทำ EDA กับพวกเขาทั้งสองและเลือกคุณสมบัติตามการวิเคราะห์นี้?

2
ROC เฉลี่ยสำหรับการตรวจสอบความถูกต้องข้าม 10 เท่าพร้อมการประมาณการความน่าจะเป็น
ฉันวางแผนที่จะใช้ซ้ำ (10 ครั้ง) แบ่งการตรวจสอบข้ามแบบ 10 เท่าบนชั้นประมาณ 10,000 รายโดยใช้อัลกอริทึมการเรียนรู้ของเครื่อง ทุกครั้งที่การทำซ้ำจะกระทำกับเมล็ดสุ่มที่แตกต่างกัน ในกระบวนการนี้ฉันสร้างการประมาณความน่าจะเป็น 10 อินสแตนซ์สำหรับแต่ละกรณี 1 อินสแตนซ์ของการประมาณความน่าจะเป็นสำหรับแต่ละการทำซ้ำ 10 ครั้งของการตรวจสอบความถูกต้องข้าม 10 เท่า ฉันสามารถเฉลี่ย 10 ความน่าจะเป็นสำหรับแต่ละกรณีและจากนั้นสร้างเส้นโค้ง ROC เฉลี่ยใหม่ (แทนผลลัพธ์ของ CV 10 เท่าซ้ำ) ซึ่งสามารถเปรียบเทียบกับเส้นโค้ง ROC อื่น ๆ โดยการเปรียบเทียบแบบคู่
15 roc 

1
ปัญหาพารามิเตอร์เล็กน้อย
ฉันมักจะดิ้นรนเพื่อให้ได้แก่นแท้ที่แท้จริงของปัญหาพารามิเตอร์โดยบังเอิญ ฉันอ่านหลายครั้งว่าตัวประมาณค่าผลกระทบคงที่ของโมเดลข้อมูลแผงไม่เชิงเส้นสามารถลำเอียงอย่างรุนแรงเพราะปัญหาพารามิเตอร์ "ที่รู้จักกันดี" เมื่อฉันขอคำอธิบายที่ชัดเจนของปัญหานี้คำตอบทั่วไปคือ: สมมติว่าข้อมูลพาเนลมีบุคคล N คนในช่วงเวลา T ถ้า T ได้รับการแก้ไขเนื่องจาก N ที่เพิ่มขึ้นการประมาณค่าโควาเรียตจะกลายเป็นอคติ สิ่งนี้เกิดขึ้นเนื่องจากจำนวนของพารามิเตอร์รบกวนเพิ่มขึ้นอย่างรวดเร็วเมื่อ N เพิ่มขึ้น ฉันจะขอบคุณมาก คำอธิบายที่แม่นยำยิ่งขึ้น แต่ก็ยังง่าย (ถ้าเป็นไปได้) และ / หรือตัวอย่างที่เป็นรูปธรรมที่ฉันสามารถออกกำลังด้วย R หรือ Stata

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.