สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
ลองคิดเหมือนเบย์เซียนลองดูบ่อยครั้ง: นั่นหมายความว่ายังไง?
ฉันกำลังดูสไลด์บรรยายในหลักสูตรวิทยาศาสตร์ข้อมูลที่สามารถพบได้ที่นี่: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf ฉันโชคไม่ดีที่ไม่สามารถดูวิดีโอสำหรับการบรรยายนี้และ ณ จุดหนึ่งบนสไลด์พรีเซนเตอร์มีข้อความต่อไปนี้: หลักการสำคัญบางประการ คิดเหมือนชาว Bayesian ทำเครื่องหมายเหมือนเป็นผู้ใช้บ่อย (การกระทบยอด) ไม่มีใครรู้ว่าสิ่งที่จริงหมายถึงอะไร ฉันมีความรู้สึกว่ามีความเข้าใจที่ดีเกี่ยวกับโรงเรียนแห่งความคิดสองแห่งที่จะรวบรวมจากสิ่งนี้

11
ทำไมการสร้างบิตสุ่ม 8 ชุดใน (0, 255)
ฉันกำลังสร้างบิตสุ่ม 8 บิต (ทั้ง 0 หรือ 1) และต่อกันเข้าด้วยกันเพื่อสร้างหมายเลข 8 บิต การจำลองแบบหลามอย่างง่ายทำให้ได้การแจกแจงแบบสม่ำเสมอบนชุดแยก [0, 255] ฉันพยายามหาเหตุผลว่าทำไมเรื่องนี้ถึงสมเหตุสมผลในหัวของฉัน ถ้าฉันเปรียบเทียบสิ่งนี้กับการโยนเหรียญ 8 เหรียญค่าที่คาดหวังจะไม่อยู่ที่ประมาณ 4 หัว / 4 ก้อยหรือไม่ ดังนั้นสำหรับฉันแล้วมันก็สมเหตุสมผลแล้วที่ผลลัพธ์ของฉันควรสะท้อนถึงจุดที่อยู่ตรงกลางของช่วง กล่าวอีกนัยหนึ่งเหตุใดลำดับของเลขศูนย์ 8 หรือ 8 อันดูเหมือนจะเท่ากันอย่างน่าจะเป็นลำดับที่ 4 และ 4 หรือ 5 และ 3 เป็นต้น สิ่งที่ฉันหายไปที่นี่?

2
การไล่ระดับสีเพื่อเพิ่มการถดถอยเชิงเส้น - ทำไมมันไม่ทำงาน?
ในขณะที่เรียนรู้เกี่ยวกับการไล่ระดับสีแบบค่อยเป็นค่อยไปฉันไม่เคยได้ยินข้อ จำกัด ใด ๆ เกี่ยวกับคุณสมบัติของ "ตัวจําแนกแบบอ่อน" ที่วิธีใช้ในการสร้างและสร้างแบบจําลองทั้งหมด อย่างไรก็ตามฉันไม่สามารถจินตนาการแอปพลิเคชันของ GB ที่ใช้การถดถอยเชิงเส้นและในความเป็นจริงเมื่อฉันทำการทดสอบบางอย่าง - มันไม่ทำงาน ฉันกำลังทดสอบวิธีมาตรฐานที่สุดด้วยการไล่ระดับสีของผลรวมของส่วนที่เหลือกำลังสองและการเพิ่มแบบจำลองที่ตามมาเข้าด้วยกัน ปัญหาที่เห็นได้ชัดคือส่วนที่เหลือจากแบบจำลองแรกมีประชากรในลักษณะที่ไม่มีเส้นการถดถอยให้เหมาะสมอีกต่อไป การสังเกตอีกอย่างของฉันคือผลรวมของตัวแบบการถดถอยเชิงเส้นที่ตามมาสามารถแสดงเป็นตัวแบบการถดถอยแบบเดียวได้เช่นกัน (การเพิ่มการสกัดกั้นทั้งหมดและสัมประสิทธิ์ที่สอดคล้องกัน) ดังนั้นฉันจึงไม่สามารถจินตนาการได้ว่า การสังเกตครั้งสุดท้ายคือการถดถอยเชิงเส้น (วิธีการทั่วไปมากที่สุด) ใช้ผลรวมของค่าคงที่กำลังสองเป็นฟังก์ชันการสูญเสียซึ่งเป็นค่าเดียวกับที่ GB ใช้ ฉันคิดเกี่ยวกับการลดอัตราการเรียนรู้หรือใช้เพียงชุดย่อยของตัวทำนายสำหรับการวนซ้ำแต่ละครั้ง แต่ก็ยังสามารถสรุปได้ถึงการนำเสนอแบบจำลองเดียวในที่สุดดังนั้นฉันคิดว่ามันจะไม่ทำให้ดีขึ้น สิ่งที่ฉันหายไปที่นี่? การถดถอยเชิงเส้นอย่างใดที่ไม่เหมาะสมที่จะใช้กับการไล่ระดับสีไล่โทนสี? เป็นเพราะการถดถอยเชิงเส้นใช้ผลรวมของส่วนที่เหลือกำลังสองเป็นฟังก์ชันการสูญเสียหรือไม่? มีข้อ จำกัด บางประการเกี่ยวกับตัวพยากรณ์ที่อ่อนแอเพื่อให้สามารถใช้กับการไล่ระดับสีไล่โทนสีได้หรือไม่?

2
การทำตาข่ายสุทธิแบบยืดหยุ่นคืออะไรและจะแก้ไขข้อเสียของ Ridge (
การปรับสภาพสุทธิแบบยืดหยุ่นเป็นที่นิยมของ Lasso & Ridge เสมอเนื่องจากดูเหมือนว่าจะแก้ไขข้อเสียของวิธีการเหล่านี้ สัญชาตญาณคืออะไรและอะไรคือคณิตศาสตร์ที่อยู่เบื้องหลังตาข่ายยืดหยุ่น

4
LSTM ป้องกันปัญหาการไล่ระดับสีที่หายไปได้อย่างไร
LSTM ถูกคิดค้นโดยเฉพาะเพื่อหลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไป มันควรจะทำที่มีข้อผิดพลาดคงที่ม้าหมุน (CEC) ซึ่งในแผนภาพด้านล่าง (จากGreff et al. ) สอดคล้องกับวงรอบของเซลล์ (ที่มา: deeplearning4j.org ) และฉันเข้าใจว่าส่วนนั้นสามารถเห็นได้ว่าเป็นฟังก์ชันตัวตนดังนั้นอนุพันธ์จึงเป็นหนึ่งและการไล่ระดับสีคงที่ สิ่งที่ฉันไม่เข้าใจคือวิธีที่มันไม่หายไปเนื่องจากฟังก์ชั่นการเปิดใช้งานอื่น ๆ ? การป้อนข้อมูลการส่งออกและลืมประตูใช้ sigmoid ซึ่งเป็นอนุพันธ์ที่มากที่สุด 0.25, และ g h และประเพณีtanh backpropagating ผ่านสิ่งที่ไม่ทำให้การไล่ระดับสีหายไปได้อย่างไร

7
ทำไมสมมติฐานว่างจึงมักถูกปฏิเสธ?
ฉันหวังว่าฉันจะเข้ากับชื่อได้ บ่อยครั้งที่สมมติฐานว่างถูกสร้างขึ้นด้วยความตั้งใจที่จะปฏิเสธมัน มีเหตุผลสำหรับสิ่งนี้หรือเป็นเพียงแค่การประชุมหรือไม่?

6
วิธีการจำลองทั้งหมดเป็นรูปแบบของ Monte Carlo หรือไม่?
มีวิธีการจำลองที่ไม่ใช่ Monte Carlo หรือไม่? วิธีการจำลองทั้งหมดเกี่ยวข้องกับการแทนที่ตัวเลขสุ่มในฟังก์ชันเพื่อค้นหาช่วงของค่าสำหรับฟังก์ชัน ดังนั้นวิธีการจำลองทั้งหมดในสาระสำคัญของวิธี Monte Carlo คืออะไร?

6
ประมาณ
ฉันได้ดูการจำลอง Monte Carlo เมื่อเร็ว ๆ นี้และได้ใช้มันกับค่าคงที่โดยประมาณเช่นππ\pi (วงกลมภายในสี่เหลี่ยมมุมฉากสัดส่วนตามสัดส่วน) อย่างไรก็ตามฉันไม่สามารถคิดถึงวิธีการที่สอดคล้องกันในการประมาณค่าของeee [หมายเลขของออยเลอร์] โดยใช้การรวม Monte Carlo คุณมีพอยน์เตอร์เกี่ยวกับวิธีการนี้สามารถทำได้หรือไม่?

6
วิธีที่ดีที่สุดสำหรับช่วงเวลาสั้น ๆ
ฉันมีคำถามที่เกี่ยวข้องกับการสร้างแบบจำลองชุดเวลาสั้น ๆ มันไม่ได้เป็นคำถามว่าจะสร้างแบบจำลองแต่ได้อย่างไร คุณจะแนะนำวิธีใดในการสร้างแบบจำลอง (มาก) ช่วงเวลาสั้น ๆ (พูดถึงความยาว ) โดย "ดีที่สุด" ฉันหมายถึงที่นี่ว่าแข็งแกร่งที่สุดนั่นคือโอกาสที่จะเกิดข้อผิดพลาดน้อยที่สุดเนื่องจากการสังเกตจำนวน จำกัด ด้วยการสังเกตแบบสั้นชุดเดียวอาจมีผลต่อการคาดการณ์ดังนั้นวิธีการนี้ควรให้การประมาณข้อผิดพลาดที่รอบคอบและความแปรปรวนที่อาจเกิดขึ้นซึ่งเชื่อมต่อกับการคาดการณ์ โดยทั่วไปฉันสนใจชุดเวลา univariate แต่ก็น่าสนใจที่จะรู้เกี่ยวกับวิธีการอื่นT≤20T≤20T \leq 20

5
การทดสอบความสัมพันธ์อัตโนมัติ: Ljung-Box กับ Breusch-Godfrey
ฉันเคยเห็นการทดสอบ Ljung-Box ใช้ค่อนข้างบ่อยสำหรับการทดสอบความสัมพันธ์อัตโนมัติในข้อมูลดิบหรือในแบบจำลองที่เหลือ ฉันเกือบลืมไปแล้วว่ามีการทดสอบความสัมพันธ์แบบอัตโนมัติอีกครั้งหนึ่งนั่นคือการทดสอบ Breusch-Godfrey คำถาม:อะไรคือความแตกต่างที่สำคัญและความเหมือนกันของการทดสอบ Ljung-Box และ Breusch-Godfrey และเมื่อใดที่หนึ่งจะได้รับความนิยมมากกว่าอื่น ๆ ? (ยินดีต้อนรับการอ้างอิงอย่างใดฉันไม่สามารถหาการเปรียบเทียบใด ๆของการทดสอบทั้งสองแม้ว่าฉันจะดูในหนังสือสองสามเล่มและค้นหาเนื้อหาออนไลน์ฉันสามารถหาคำอธิบายของการทดสอบแต่ละครั้งแยกกันแต่สิ่งที่ฉันสนใจคือ การเปรียบเทียบของทั้งสอง)

4
การแจกแจงจะมีค่าเฉลี่ยและความแปรปรวนไม่สิ้นสุดได้อย่างไร
มันจะได้รับการชื่นชมถ้าตัวอย่างต่อไปนี้จะได้รับ: การแจกแจงที่มีค่าเฉลี่ยไม่สิ้นสุดและความแปรปรวนแบบไม่สิ้นสุด การแจกแจงที่มีค่าเฉลี่ยไม่สิ้นสุดและความแปรปรวนแน่นอน การกระจายที่มีค่าเฉลี่ย จำกัด และความแปรปรวนอนันต์ การแจกแจงที่มีค่าเฉลี่ยและความแปรปรวนแน่นอน มันมาจากฉันเห็นคำศัพท์ที่ไม่คุ้นเคยเหล่านี้ (ค่าเฉลี่ยอนันต์, ความแปรปรวนอนันต์) ที่ใช้ในบทความที่ฉันอ่านอ่านและอ่านหัวข้อบนฟอรัม / เว็บไซต์ Wilmottและไม่พบคำอธิบายที่ชัดเจนเพียงพอ ฉันยังไม่พบคำอธิบายใด ๆ ในหนังสือเรียนของฉันเอง

2
การถดถอยหลายครั้งหรือสัมประสิทธิ์สหสัมพันธ์บางส่วน? และความสัมพันธ์ระหว่างคนทั้งสอง
ฉันไม่รู้ด้วยซ้ำว่าคำถามนี้สมเหตุสมผลหรือไม่ แต่อะไรคือความแตกต่างระหว่างการถดถอยหลายครั้งและสหสัมพันธ์บางส่วน (นอกเหนือจากความแตกต่างที่ชัดเจนระหว่างสหสัมพันธ์และการถดถอยซึ่งไม่ใช่สิ่งที่ฉันกำลังตั้งเป้าไว้) ฉันต้องการหาข้อมูลต่อไปนี้: ฉันมีตัวแปรอิสระสองตัว ( , ) และอีกหนึ่งตัวแปรขึ้นอยู่กับ ( ) ตอนนี้ทีละตัวแปรอิสระไม่ได้มีความสัมพันธ์กับตัวแปรตาม แต่สำหรับกำหนดจะลดลงเมื่อลดลง ดังนั้นฉันจะวิเคราะห์ว่าโดยวิธีการถดถอยหลายครั้งหรือความสัมพันธ์บางส่วน ?x1x1x_1x2x2x_2yyyx1x1x_1 yyyx2x2x_2 แก้ไขเพื่อหวังปรับปรุงคำถามของฉัน: ฉันพยายามเข้าใจความแตกต่างระหว่างการถดถอยหลายครั้งและสหสัมพันธ์บางส่วน ดังนั้นเมื่อลดลงสำหรับกำหนดเมื่อลดลงนั่นเป็นเพราะผลรวมของและต่อ (การถดถอยหลายครั้ง) หรือเป็นเพราะการลบผลกระทบของ (ความสัมพันธ์บางส่วน)?yyyx1x1x_1x2x2x_2x1x1x_1x2x2x_2yyyx1x1x_1

3
PCA และทางแยก / การทดสอบรถไฟ
ฉันมีชุดข้อมูลที่ฉันมีฉลากไบนารีหลายชุด สำหรับฉลากแต่ละชุดฉันจะฝึกอบรมตัวจําแนกโดยประเมินจากการตรวจสอบความถูกต้องข้าม ฉันต้องการลดมิติข้อมูลโดยใช้การวิเคราะห์องค์ประกอบหลัก (PCA) คำถามของฉันคือ: เป็นไปได้ไหมที่จะทำ PCA หนึ่งครั้งสำหรับชุดข้อมูลทั้งหมดแล้วใช้ชุดข้อมูลใหม่ที่มีมิติข้อมูลต่ำกว่าสำหรับการตรวจสอบข้ามตามที่อธิบายไว้ข้างต้น หรือฉันต้องทำPCA แยกต่างหากสำหรับชุดฝึกอบรมทุกชุด (ซึ่งหมายถึงการทำ PCA แยกต่างหากสำหรับตัวแยกประเภทและสำหรับการตรวจสอบข้าม) ในอีกด้านหนึ่ง PCA ไม่ได้ใช้ฉลากใด ๆ ในทางกลับกันมันใช้ข้อมูลทดสอบเพื่อทำการเปลี่ยนแปลงดังนั้นฉันจึงกลัวว่ามันจะทำให้เกิดอคติได้ ฉันควรพูดถึงว่านอกเหนือจากการบันทึกงานบางอย่างให้ฉันทำ PCA เพียงครั้งเดียวในชุดข้อมูลทั้งหมดจะช่วยให้ฉันเห็นภาพชุดข้อมูลสำหรับชุดฉลากทั้งหมดในครั้งเดียว หากฉันมี PCA ที่แตกต่างกันสำหรับแต่ละชุดฉลากฉันจะต้องเห็นภาพชุดฉลากแต่ละชุดแยกกัน

5
วิธีแก้ปัญหาความขัดแย้งของซิมป์สัน
ความขัดแย้งของ Simpson เป็นปริศนาคลาสสิกที่กล่าวถึงในหลักสูตรสถิติเบื้องต้นทั่วโลก อย่างไรก็ตามหลักสูตรของฉันคือเนื้อหาที่จะต้องทราบว่ามีปัญหาเกิดขึ้นและไม่ได้ให้การแก้ปัญหา ฉันต้องการทราบวิธีแก้ไขข้อขัดแย้ง นั่นคือเมื่อเผชิญหน้ากับความขัดแย้งของ Simpson ที่สองตัวเลือกที่แตกต่างกันดูเหมือนจะแข่งขันกันเพื่อให้เป็นทางเลือกที่ดีที่สุดขึ้นอยู่กับวิธีการแบ่งพาร์ติชันข้อมูลตัวเลือกใดควรเลือก? เพื่อให้คอนกรีตปัญหาให้พิจารณาตัวอย่างแรกที่ให้ไว้ในบทความวิกิพีเดียที่เกี่ยวข้อง มันขึ้นอยู่กับการศึกษาจริงเกี่ยวกับการรักษานิ่วในไต สมมติว่าฉันเป็นหมอและการทดสอบพบว่าผู้ป่วยมีนิ่วในไต ใช้เฉพาะข้อมูลที่ให้ไว้ในตารางฉันต้องการตรวจสอบว่าฉันควรนำการรักษา A หรือการรักษา B มาใช้หรือไม่ดูเหมือนว่าถ้าฉันรู้ขนาดของหินแล้วเราควรเลือกการรักษา A แต่ถ้าเราไม่ทำ เราควรเลือกการรักษาแบบ B แต่ให้คิดวิธีอื่นที่น่าเชื่อถือเพื่อให้ได้คำตอบ ถ้าหินมีขนาดใหญ่เราควรเลือก A และถ้ามันเล็กเราควรเลือก A อีกครั้งดังนั้นแม้ว่าเราจะไม่ทราบขนาดของหินโดยวิธีการของคดีเราเห็นว่าเราน่าจะชอบ A. สิ่งนี้ขัดแย้งกับเหตุผลก่อนหน้าของเรา ดังนั้น: ผู้ป่วยเดินเข้าไปในสำนักงานของฉัน การทดสอบพบว่าพวกเขามีนิ่วในไต แต่ไม่ได้ให้ข้อมูลเกี่ยวกับขนาดของพวกเขา การรักษาแบบไหนที่ฉันแนะนำ มีวิธีแก้ไขปัญหานี้ที่ยอมรับได้หรือไม่? Wikipedia ให้คำแนะนำอย่างละเอียดโดยใช้ "เครือข่าย Bayesian ที่เป็นสาเหตุ" และการทดสอบ "back-door" แต่ฉันไม่รู้ว่าสิ่งเหล่านี้คืออะไร

1
Quantile regression: ข้อผิดพลาดมาตรฐานใด
summary.rqฟังก์ชั่นจากบทความ quantregให้ความหลากหลายของตัวเลือกสำหรับการประมาณการข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอย quantile สถานการณ์พิเศษอะไรบ้างที่แต่ละสถานการณ์มีความเหมาะสมที่สุด "อันดับ" ซึ่งสร้างช่วงความเชื่อมั่นสำหรับพารามิเตอร์ที่ประเมินโดยการคว่ำการทดสอบยศตามที่อธิบายไว้ใน Koenker (1994) ตัวเลือกเริ่มต้นจะถือว่าความผิดพลาดคือ iid ในขณะที่ตัวเลือก iid = FALSE ใช้ข้อเสนอของ Koenker Machado (1999) ดูเอกสารประกอบสำหรับ rq.fit.br สำหรับข้อโต้แย้งเพิ่มเติม "iid" ซึ่งสันนิษฐานว่าข้อผิดพลาดคือ iid และคำนวณการประมาณค่าเมทริกซ์ความแปรปรวนร่วมแบบ asymptotic เช่นเดียวกับใน KB (1978) "nid" ซึ่งทึกทักท้องถิ่น (เป็นเอกภาพ) เป็นเชิงเส้น (ใน x) ของฟังก์ชั่นที่เป็นเงื่อนไขและคำนวณคำนวณแซนวิชฮิวเบอร์โดยใช้ประมาณการท้องถิ่นของกระจัดกระจาย "เคอร์" ซึ่งใช้การประเมินเคอร์เนลของแซนด์วิชตามที่เสนอโดย Powell (1990) "boot" ซึ่งใช้หนึ่งในหลาย ๆ ทางเลือกในการบู๊ตที่เป็นไปได้เพื่อประเมินข้อผิดพลาดมาตรฐาน ฉันได้อ่านเอกสารเชิงประจักษ์อย่างน้อย 20 เรื่องซึ่งมีการนำไปใช้ในชุดเวลาหรือมิติตัดขวางและไม่เคยเห็นการกล่าวถึงตัวเลือกข้อผิดพลาดมาตรฐาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.