สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

26
หนังสือที่มีอิทธิพลมากที่สุดเล่มเดียวที่นักสถิติทุกคนควรอ่านคืออะไร
หากคุณสามารถย้อนเวลากลับไปและบอกตัวเองให้อ่านหนังสือเล่มใดเล่มหนึ่งเมื่อเริ่มต้นอาชีพของคุณในฐานะนักสถิติหนังสือเล่มไหนจะเป็นอย่างไร
77 references 

7
สถิติ 'ปัญหาใหญ่' ในสถิติคืออะไร?
คณิตศาสตร์มีปัญหาในสหัสวรรษที่มีชื่อเสียง(และในอดีตคือฮิลแบร์ตที่ 23 ) คำถามที่ช่วยกำหนดทิศทางของสนาม ฉันมีความคิดเล็กน้อยว่าสถิติของ Riemann Hypotheses และ P vs. NP เป็นอย่างไร ดังนั้นคำถามเปิดที่ครอบคลุมอยู่ในสถิติคืออะไร แก้ไขเพื่อเพิ่ม: เป็นตัวอย่างของคำตอบทั่วไป (ถ้าไม่เจาะจง) ที่ฉันกำลังมองหาฉันพบการบรรยาย "Hilbert's 23" - บรรยายโดย David Donoho ในการประชุม "ความท้าทายทางคณิตศาสตร์ของศตวรรษที่ 21": การวิเคราะห์ข้อมูลมิติสูง: คำสาปและพรของมิติ ดังนั้นคำตอบที่อาจเกิดขึ้นสามารถพูดคุยเกี่ยวกับข้อมูลขนาดใหญ่ได้และทำไมจึงเป็นสิ่งสำคัญประเภทของความท้าทายทางสถิติของข้อมูลมิติสูงโพสท่าและวิธีการที่จำเป็นต้องพัฒนาหรือคำถามที่ต้องตอบคำถามเพื่อช่วยแก้ปัญหา
77 history 

9
นักคณิตศาสตร์ต้องการความรู้ที่เท่าเทียมกับระดับสถิติที่มีคุณภาพ
ฉันรู้ว่าคนรักที่จะปิดซ้ำกันดังนั้นฉันไม่ได้ขออ้างอิงเพื่อเริ่มเรียนรู้สถิติ (ตามที่นี่ ) ฉันมีปริญญาเอกในวิชาคณิตศาสตร์ แต่ไม่เคยเรียนสถิติ เส้นทางที่สั้นที่สุดไปสู่ความรู้ที่เทียบเท่ากับระดับสถิติ BS ที่ดีที่สุดคืออะไรและฉันจะวัดได้อย่างไรเมื่อฉันประสบความสำเร็จ ถ้ารายชื่อหนังสือพอเพียง (สมมติว่าฉันทำแบบฝึกหัดให้พูด) นั่นยอดเยี่ยมมาก ใช่ฉันคาดหวังว่าปัญหาที่เกิดขึ้นจะเป็นส่วนหนึ่งของการเรียนรู้โดยปริยาย แต่ฉันต้องการติดตามให้เร็วที่สุดเท่าที่จะทำได้ ฉันไม่ได้กำลังมองหาการรักษาอย่างเข้มงวดเมามันเว้นแต่ว่าเป็นส่วนหนึ่งของวิชาเอกสถิติโดยทั่วไปเรียนรู้


14
อะไรคือความหมายของ“ แบบจำลองทั้งหมดผิด แต่บางรุ่นมีประโยชน์”
"โดยพื้นฐานแล้วทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์" --- กล่องจอร์จสอี; นอร์แมนอาร์เดรเปอร์ (1987) การสร้างแบบจำลองและการตอบโต้พื้นผิวหน้า 424 ไวลีย์ ไอ 0471810339 ความหมายของวลีข้างต้นคืออะไร?
76 modeling 

5
อะไรคือทางเลือกที่ทันสมัยใช้ง่ายในการถดถอยแบบขั้นตอน
ฉันมีชุดข้อมูลที่มีตัวแปรอิสระประมาณ 30 ตัวและต้องการสร้างโมเดลเชิงเส้นทั่วไป (GLM) เพื่อสำรวจความสัมพันธ์ระหว่างพวกเขากับตัวแปรตาม ฉันรู้ว่าวิธีการที่ฉันถูกสอนสำหรับสถานการณ์นี้ถดถอยแบบขั้นตอนขณะนี้ถือว่าบาปสถิติ ควรใช้วิธีการแบบจำลองที่ทันสมัยในสถานการณ์นี้อย่างไร

3
การเลือกคุณสมบัติและการตรวจสอบความถูกต้องข้าม
ฉันเพิ่งอ่านจำนวนมากบนไซต์นี้ (@Aniko, @Dikran Marsupial, @Erik) และที่อื่น ๆ เกี่ยวกับปัญหาการ overfitting ที่เกิดขึ้นกับการตรวจสอบข้าม - (Smialowski et al 2010 ชีวสารสนเทศศาสตร์, Hastie, องค์ประกอบของการเรียนรู้ทางสถิติ) ข้อเสนอแนะคือการที่ใด ๆการเลือกคุณลักษณะภายใต้การดูแล (โดยใช้ความสัมพันธ์ที่มีป้ายชื่อ class) ดำเนินการด้านนอกของประมาณการผลการดำเนินงานรูปแบบการใช้การตรวจสอบข้าม (หรือรูปแบบวิธีการอื่นเช่นการประเมินความร่วมมือ) อาจส่งผลให้อิง สิ่งนี้ดูเหมือนจะไม่ง่ายสำหรับฉัน - แน่นอนถ้าคุณเลือกชุดคุณลักษณะและประเมินโมเดลของคุณโดยใช้เฉพาะคุณสมบัติที่เลือกโดยใช้การตรวจสอบความถูกต้องไขว้กันคุณจะได้รับการประเมินแบบไม่เอนเอียง ของประชากร) ด้วยขั้นตอนนี้เราไม่สามารถอ้างสิทธิ์ชุดคุณลักษณะที่ดีที่สุด แต่สามารถรายงานประสิทธิภาพของคุณลักษณะที่เลือกซึ่งตั้งค่าไว้บนข้อมูลที่มองไม่เห็นว่าถูกต้องได้หรือไม่ ฉันยอมรับว่าการเลือกคุณสมบัติตามชุดข้อมูลทั้งหมดอาจมีการรั่วไหลของข้อมูลระหว่างชุดทดสอบและชุดรถไฟ แต่ถ้าชุดคุณลักษณะเป็นแบบคงที่หลังจากการเลือกเริ่มต้นและไม่มีการปรับแต่งอื่น ๆ แน่นอนว่ามันถูกต้องที่จะรายงานตัวชี้วัดประสิทธิภาพข้ามการตรวจสอบแล้ว? ในกรณีของฉันฉันมี 56 คุณสมบัติและ 259 เคสดังนั้น #case> #features คุณสมบัติที่ได้รับมาจากข้อมูลเซ็นเซอร์ ขออภัยถ้าคำถามของฉันดูเหมือนอนุพันธ์ แต่นี่เป็นจุดสำคัญที่จะชี้แจง แก้ไข: ในการดำเนินการเลือกคุณลักษณะภายในการตรวจสอบข้ามในชุดข้อมูลรายละเอียดข้างต้น (ขอบคุณคำตอบดังต่อไปนี้) ผมสามารถยืนยันได้ว่าคุณสมบัติการเลือกก่อนที่จะข้ามการตรวจสอบในชุดข้อมูลนี้แนะนำอย่างมีนัยสำคัญอคติ ความลำเอียง …

1
ช่วยฉันเข้าใจ Support Vector Machines
ฉันเข้าใจพื้นฐานของจุดมุ่งหมายของเครื่องเวกเตอร์สนับสนุนในแง่ของการจำแนกอินพุตที่กำหนดเป็นคลาสที่แตกต่างกันหลายอย่าง แต่สิ่งที่ฉันไม่เข้าใจคือรายละเอียดบางอย่างที่น่าสนใจ สำหรับผู้เริ่มฉันสับสนเล็กน้อยจากการใช้ตัวแปรสแลค วัตถุประสงค์ของพวกเขาคืออะไร? ฉันกำลังทำปัญหาการจำแนกประเภทที่ฉันได้อ่านค่าความดันจากเซ็นเซอร์ที่ฉันวางไว้บนพื้นรองเท้าของรองเท้า ตัวแบบจะนั่งยืนและเดินเป็นเวลาสองสามนาทีในขณะที่ข้อมูลความดันถูกบันทึก ฉันต้องการฝึกฝนตัวจําแนกเพื่อให้สามารถระบุได้ว่าบุคคลนั้นกำลังนั่งยืนหรือเดินและสามารถทำสิ่งนั้นสำหรับข้อมูลการทดสอบในอนาคต ฉันต้องลองตัวจําแนกประเภทใด วิธีที่ดีที่สุดสำหรับฉันในการฝึกอบรมตัวจําแนกจากข้อมูลที่ฉันจับคืออะไร? ฉันมี 1,000 รายการสำหรับการนั่งยืนและเดิน (รวม 3x1000 = 3000) และพวกเขาทั้งหมดมีรูปแบบเวกเตอร์คุณลักษณะต่อไปนี้ (pressurefromsensor1, pressurefromsensor2, pressurefromsensor3, pressurefromsensor4)

6
การเลือกคุณสมบัติสำหรับรุ่น“ ขั้นสุดท้าย” เมื่อทำการตรวจสอบข้ามในการเรียนรู้ของเครื่อง
ฉันสับสนเล็กน้อยเกี่ยวกับการเลือกคุณสมบัติและการเรียนรู้ของเครื่องและฉันสงสัยว่าคุณจะช่วยฉันออกไปได้ไหม ฉันมีชุดข้อมูลขนาดเล็กที่แบ่งออกเป็นสองกลุ่มและมีคุณสมบัติ 1,000 รายการ เป้าหมายของฉันคือการได้รับยีนจำนวนเล็กน้อย (คุณสมบัติของฉัน) (10-20) ในลายเซ็นที่ฉันจะใช้กับชุดข้อมูลอื่น ๆ ในทางทฤษฎีเพื่อจำแนกตัวอย่างเหล่านั้นอย่างเหมาะสมที่สุด เนื่องจากฉันไม่มีตัวอย่างจำนวนมาก (<100) ฉันไม่ได้ใช้ชุดการทดสอบและการฝึกอบรม แต่ใช้การตรวจสอบความถูกต้องแบบลาออกหนึ่งครั้งเพื่อช่วยในการกำหนดความทนทาน ฉันได้อ่านแล้วว่าควรดำเนินการเลือกคุณสมบัติสำหรับตัวอย่างแต่ละตัวอย่าง เลือกหนึ่งตัวอย่างเป็นชุดทดสอบ ในตัวอย่างที่เหลือดำเนินการเลือกคุณสมบัติ ใช้อัลกอริทึมการเรียนรู้ของเครื่องกับตัวอย่างที่เหลือโดยใช้คุณสมบัติที่เลือก ทดสอบว่าชุดการทดสอบนั้นได้รับการจัดประเภทอย่างถูกต้องหรือไม่ ไปที่ 1 หากคุณทำสิ่งนี้คุณอาจได้รับยีนที่แตกต่างกันในแต่ละครั้งดังนั้นคุณจะได้รับตัวจําแนกยีนที่เหมาะสมที่สุดได้อย่างไร? นั่นคือขั้นตอนที่ 6 สิ่งที่ฉันหมายถึงอย่างดีที่สุดคือการรวบรวมยีนที่ควรมีการศึกษาเพิ่มเติม ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลมะเร็ง / ปกติและฉันต้องการค้นหา 10 อันดับแรกของยีนที่จะจัดประเภทเนื้องอกตาม SVM ฉันต้องการทราบชุดของยีนรวมถึงพารามิเตอร์ SVM ที่สามารถใช้ในการทดลองเพิ่มเติมเพื่อดูว่าสามารถใช้เป็นการทดสอบวินิจฉัยได้หรือไม่

3
ทำไม Lasso ถึงเลือก Variable
ฉันได้อ่านองค์ประกอบของการเรียนรู้ทางสถิติแล้วและฉันอยากจะรู้ว่าทำไม Lasso ถึงเลือกตัวแปรและการถดถอยแบบสันไม่ได้ ทั้งสองวิธีลดผลรวมการตกค้างของสี่เหลี่ยมและมีข้อ จำกัด เกี่ยวกับค่าที่เป็นไปได้ของพารามิเตอร์\สำหรับคล้องข้อ จำกัด คือ , ในขณะที่สำหรับสันมันเป็นสำหรับบางคนทีββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt ฉันเคยเห็นรูป Diamond vs ellipse ในหนังสือแล้วและฉันมีสัญชาตญาณว่าทำไม Lasso ถึงมุมของภูมิภาคที่ถูก จำกัด ซึ่งหมายความว่าหนึ่งในสัมประสิทธิ์ถูกตั้งค่าเป็นศูนย์ อย่างไรก็ตามสัญชาตญาณของฉันค่อนข้างอ่อนแอและฉันไม่มั่นใจ มันควรจะเห็นง่าย แต่ฉันไม่รู้ว่าทำไมเรื่องนี้ถึงเป็นจริง ดังนั้นฉันเดาว่าฉันกำลังมองหาเหตุผลทางคณิตศาสตร์หรือคำอธิบายที่เข้าใจง่ายว่าทำไมรูปทรงของผลรวมที่เหลือของกำลังสองมีแนวโน้มที่จะเข้ามุมของ ขอบเขต จำกัด (ในขณะที่สถานการณ์นี้ไม่น่าจะเกิดขึ้นถ้า ข้อ จำกัด คือ )||β||1||β||1||\beta||_1||β||2||β||2||\beta||_2

3
เหตุใดการถดถอยแบบลอจิสติกจึงไม่เรียกว่าการจำแนกแบบลอจิสติก
ตั้งแต่ถดถอยโลจิสติเป็นสถิติรูปแบบการจัดหมวดหมู่การจัดการกับตัวแปรตามเด็ดขาดทำไมไม่ได้เรียกว่าโลจิสติกการจัดประเภท ? ไม่ควรจองชื่อ "การถดถอย" กับตัวแบบที่เกี่ยวข้องกับตัวแปรตามแบบต่อเนื่อง

3
วิธีที่ดีที่สุดที่จะนำเสนอป่าสุ่มในสิ่งพิมพ์?
ฉันกำลังใช้อัลกอริธึมป่าแบบสุ่มเป็นตัวจําแนกที่มีประสิทธิภาพของสองกลุ่มในการศึกษาขนาดเล็กที่มีคุณสมบัติ 1,000 รายการ วิธีที่ดีที่สุดที่จะนำเสนอป่าสุ่มเพื่อให้มีข้อมูลเพียงพอที่จะทำให้มันทำซ้ำได้ในกระดาษคืออะไร? มีวิธีการลงจุดใน R เพื่อทำแผนผังต้นไม้จริงหรือไม่หากมีคุณสมบัติจำนวนน้อย? OOB ประมาณการอัตราข้อผิดพลาดเป็นสถิติที่ดีที่สุดในการอ้าง?

5
โปรดอธิบายความขัดแย้งที่รอคอย
ไม่กี่ปีที่ผ่านมาฉันออกแบบเครื่องตรวจจับรังสีที่ทำงานโดยการวัดช่วงเวลาระหว่างเหตุการณ์แทนที่จะนับพวกเขา ข้อสันนิษฐานของฉันคือเมื่อทำการวัดตัวอย่างที่ไม่ต่อเนื่องกันโดยเฉลี่ยฉันจะวัดครึ่งหนึ่งของช่วงเวลาที่เกิดขึ้นจริง อย่างไรก็ตามเมื่อฉันทดสอบวงจรด้วยแหล่งที่ได้รับการสอบเทียบการอ่านเป็นปัจจัยที่มีค่าสูงเกินไปซึ่งหมายความว่าฉันทำการวัดช่วงเวลาเต็ม ในหนังสือเก่าเกี่ยวกับความน่าจะเป็นและสถิติฉันพบส่วนเกี่ยวกับสิ่งที่เรียกว่า "The Waiting Paradox" มันนำเสนอตัวอย่างที่มีรถบัสมาถึงที่ป้ายรถเมล์ทุก 15 นาทีและผู้โดยสารมาถึงโดยการสุ่มมันระบุว่าผู้โดยสารโดยเฉลี่ยจะรอเต็ม 15 นาที ฉันไม่เคยเข้าใจคณิตศาสตร์ที่นำเสนอด้วยตัวอย่างและยังคงมองหาคำอธิบายต่อไป หากใครบางคนสามารถอธิบายได้ว่าทำไมมันเป็นเช่นนั้นเพื่อให้ผู้โดยสารรอช่วงเวลาเต็มฉันจะนอนหลับดีขึ้น

3
การวินิจฉัยสำหรับการถดถอยโลจิสติก?
สำหรับการถดถอยเชิงเส้นเราสามารถตรวจสอบพล็อตการวินิจฉัย (พล็อตส่วนที่เหลือพล็อต QQ ปกติ ฯลฯ ) เพื่อตรวจสอบว่าข้อสันนิษฐานของการถดถอยเชิงเส้นถูกละเมิดหรือไม่ สำหรับการถดถอยโลจิสติกฉันมีปัญหาในการค้นหาทรัพยากรที่อธิบายถึงวิธีการวินิจฉัยแบบจำลองการถดถอยโลจิสติกพอดี ขุดบันทึกบางหลักสูตรสำหรับ GLM เพียงแค่ระบุว่าการตรวจสอบส่วนที่เหลือจะไม่เป็นประโยชน์สำหรับการดำเนินการวินิจฉัยสำหรับการถดถอยแบบโลจิสติก เมื่อมองไปรอบ ๆ อินเทอร์เน็ตก็ดูเหมือนจะมีขั้นตอน "การวินิจฉัย" ที่หลากหลายเช่นการตรวจสอบความเบี่ยงเบนของแบบจำลองและการทดสอบไคสแควร์ แต่แหล่งข้อมูลอื่นระบุว่าสิ่งนี้ไม่เหมาะสมและคุณควรทำการ Hosmer-Lemeshow ทดสอบ. จากนั้นฉันพบแหล่งข้อมูลอื่นที่ระบุว่าการทดสอบนี้อาจขึ้นอยู่กับการจัดกลุ่มที่แท้จริงและค่าการตัด (อาจไม่น่าเชื่อถือ) แล้วเราควรวินิจฉัยว่าการถดถอยแบบโลจิสติกส์นั้นเหมาะสมอย่างไร

29
ตัวอย่างสำหรับการสอน: ความสัมพันธ์ไม่ได้หมายถึงสาเหตุ
มีการพูดกันว่า: "ความสัมพันธ์ไม่ได้หมายถึงสาเหตุ" เมื่อฉันสอนฉันมักจะใช้ตัวอย่างมาตรฐานต่อไปนี้เพื่ออธิบายประเด็นนี้: จำนวนนกกระสาและอัตราการเกิดในเดนมาร์ก จำนวนนักบวชในอเมริกาและโรคพิษสุราเรื้อรัง; ในการเริ่มต้นของศตวรรษที่ 20 มันก็สังเกตเห็นว่ามีความสัมพันธ์ที่แข็งแกร่งระหว่าง 'จำนวนของวิทยุ' และ 'จำนวนของคนที่อยู่ในโรงพยาบาลบ้า' และสิ่งที่ฉันชอบ: โจรสลัดทำให้โลกร้อนขึ้น อย่างไรก็ตามฉันไม่ได้มีการอ้างอิงใด ๆ สำหรับตัวอย่างเหล่านี้และในขณะที่สนุกพวกเขาเป็นเท็จอย่างเห็นได้ชัด ใครบ้างมีตัวอย่างที่ดีอื่น ๆ ?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.