สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
ผู้เชี่ยวชาญเป็นอันตรายหรือไม่?
ฉันกำลังอ่าน"บทบาทของหมากรุกในการวิจัยปัญญาประดิษฐ์" ( pdf ) และน่าสนใจมันบอกว่า: ประสบการณ์ [... ] แสดงให้เห็นว่าข้อมูลจากผู้เชี่ยวชาญหมากรุกในขณะที่มีประโยชน์โดยทั่วไปไม่สามารถเชื่อถือได้อย่างสมบูรณ์ ตัวอย่างที่ดีของเรื่องนี้คือฟังก์ชั่นการประเมินความคิดลึก การเปลี่ยนแปลงหลายอย่างโดยผู้เชี่ยวชาญหมากรุกที่มีความสามารถของมนุษย์ล้มเหลวในการปรับปรุงที่สำคัญและบางครั้งก็ส่งผลกระทบต่อประสิทธิภาพของเครื่อง ที่นี่ผู้เชี่ยวชาญของมนุษย์พร้อมด้วยความเชี่ยวชาญของพวกเขาแนะนำอคติของพวกเขาเองในโปรแกรม วิธีหนึ่งในการแก้ไขปัญหานี้คือการ จำกัด ประเภทและจำนวนอินพุตของผู้เชี่ยวชาญที่ได้รับอนุญาตในโปรแกรม ในขณะที่มีเครื่องจักร "ความรู้ฟรี" เกือบ เป็นความจริงเพียงใดในการวิจัยและการปฏิบัติที่ทันสมัย? นั่นเป็นปัญหาใหญ่หรือเป็นเพียงบางอย่างที่เฉพาะเจาะจงกับเกมหมากรุก?

3
กระบวนการวิเคราะห์ข้อมูลที่ดีจริง ๆ คืออะไร?
ฉันต้องการทราบหรือมีการอ้างอิงเกี่ยวกับกระบวนการวิเคราะห์ของนักวิเคราะห์ข้อมูลทางสถิติซึ่งส่วนใหญ่ผ่านสำหรับแต่ละโครงการวิเคราะห์ข้อมูล หากฉันสร้าง "รายการ" เพื่อทำโครงการวิเคราะห์ข้อมูลให้เสร็จสมบูรณ์นักวิเคราะห์จะต้อง: รวบรวมข้อกำหนดแรกสำหรับโครงการ วางแผน / ออกแบบการวิเคราะห์ข้อมูลของเขาตามความต้องการเหล่านั้นมาก่อน ประมวลผลข้อมูลล่วงหน้าจริง ๆ ดำเนินการวิเคราะห์ข้อมูลและ การเขียนรายงานตามผลการวิเคราะห์ของเขา สำหรับคำถามนี้ฉันสนใจรายละเอียดเพิ่มเติมของขั้นตอนที่ 2 แต่ฉันเข้าใจว่านี่ไม่ชัดเจนนักเนื่องจากนักวิเคราะห์อาจต้องเปลี่ยนแผนหรือการออกแบบตามผลการวิเคราะห์ข้อมูล มีการอ้างอิงเกี่ยวกับเรื่องนี้หรือไม่?

2
LASSO / LARS เทียบกับวิธีทั่วไป (GETS)
ฉันสงสัยว่าทำไมการเลือกรูปแบบ LASSO และ LARS ถึงได้รับความนิยมถึงแม้ว่าพวกเขาจะเป็นเพียงรูปแบบของการเลือกไปข้างหน้าอย่างชาญฉลาด (และทำให้ต้องพึ่งพาเส้นทาง) ในทำนองเดียวกันทำไม General to Specific (GETT) จึงมีวิธีการในการเลือกรูปแบบเป็นส่วนใหญ่ถึงแม้ว่าพวกเขาจะทำได้ดีกว่า LARS / LASSO เพราะพวกเขาไม่ประสบปัญหาการถดถอยขั้นตอนที่ชาญฉลาด? (การอ้างอิงพื้นฐานสำหรับ GETS: http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf - อัลกอริทึมใหม่ในการเริ่มต้นนี้ด้วยการค้นหาแบบกว้างและแผนผังที่หลีกเลี่ยงการพึ่งพาพา ธ และแสดงให้เห็นถึง มักจะทำได้ดีกว่า LASSO / LARS) ดูเหมือนแปลก ๆ LARS / LASSO ดูเหมือนจะได้รับการเปิดเผยและการอ้างอิงมากกว่า General to Specific (GET) ทุกคนมีความคิดอะไรบ้าง? ไม่พยายามเริ่มการถกเถียงอย่างจริงจังมองหาคำอธิบายที่สมเหตุสมผลว่าทำไมวรรณกรรมดูเหมือนจะให้ความสำคัญกับ LASSO / LARS มากกว่า GET และมีคนเพียงไม่กี่คนที่ชี้ให้เห็นถึงข้อบกพร่องของ LASSO / LARS

2
ภาษาใดที่ใช้สำหรับการโปรแกรมเชิงพันธุกรรม
เป็นส่วนหนึ่งของการมอบหมายฉันจะต้องเขียนอัลกอริทึมการเขียนโปรแกรมทางพันธุกรรมที่จะทำนายระดับมลพิษในชั้นบรรยากาศ ตั้งแต่ผมเคยมีประสบการณ์ในการทำงานชี้ทุกคนสามารถฉันตัวชี้ไปยังข้อเสนอของภาษาโปรแกรมที่พัฒนาโปรแกรมจะถูกเขียน ความชัดเจน:ฉันไม่ได้ถามว่าภาษาใดที่ฉันจะเขียนอัลกอริธึมทางพันธุกรรมเอง (เนื่องจากฉันจะสามารถตัดสินใจเองได้) ฉันจะถามในภาษาโปรแกรมที่โปรแกรมที่พัฒนาขึ้นควรถูกสร้างขึ้น อาจารย์ผู้สอนของฉันแนะนำ Lisp แต่ฉันไม่ชอบความคิดนี้ --- ก่อนอื่นฉันต้องทำงานกับต้นไม้บทคัดย่อบางชนิดที่สองอย่างน่าเชื่อถือที่ทำไขว้บนโครงสร้างต้นไม้อาจเป็นเรื่องยุ่งเหยิง ฉันอยากจะใช้สิ่งที่มีความมุ่งมั่นในการเขียนโปรแกรมทางพันธุกรรมเช่นเฉือน / A SlashA ไม่ต้องการทำงานกับ AST --- โปรแกรมใน bytecode เป็นเพียงอาร์เรย์ของ ints ที่สามารถเปลี่ยนแปลงได้ใน fasion ใด ๆ ที่จำเป็นเนื่องจากทุก int array แทน slash / A บางโปรแกรม ข้อสังเกตเพิ่มเติม: ฉันต้องการหลีกเลี่ยงการจัดการ AST! ปัญหานี้เป็นเรื่องยาก (อาจไม่ยากเท่ากับการคาดการณ์มูลค่าหุ้น) นี่เป็นเพราะความจริงที่ว่า (ส่วนใหญ่) เราไม่มีข้อมูลอินพุตที่เพียงพอ (มีพารามิเตอร์ที่ซ่อนอยู่บางส่วน) การสร้างแบบจำลองที่มีประสิทธิภาพที่ดีกว่าแบบจำลองที่ให้ผลตอบแทนนั้นค่อนข้างท้าทาย (โมเดลเฉลี่ย 35% MAPE) แบบจำลองส่วนใหญ่มี MAPE ประมาณ 25% …

4
การจำแนกประเภทที่มีข้อมูลไขมันสูง
ฉันจำเป็นต้องฝึกอบรมลักษณนามเชิงเส้นบนแล็ปท็อปของฉันด้วยจุดข้อมูลนับแสนและคุณลักษณะประมาณหมื่น ตัวเลือกของฉันคืออะไร? สถานะของศิลปะสำหรับปัญหาประเภทนี้คืออะไร? ดูเหมือนว่าเชื้อสายการไล่ระดับสีแบบสุ่มจะเป็นทิศทางที่สดใสและความรู้สึกของฉันคือว่านี่คือศิลปะ: "Pegasos: Primal Estlated Sub-GrAdient SOlver สำหรับ SVM" Shai Shalev-Shwartz, Yoram นักร้อง, Nathan Srebro, Andrew Cotter "การเขียนโปรแกรมคณิตศาสตร์, Series B, 127 (1): 3-30, ปี: 2007" ฉันทามตินี้หรือไม่ ฉันควรมองไปในทิศทางอื่นไหม?

2
จะเลือกระดับนัยสำคัญสำหรับชุดข้อมูลขนาดใหญ่ได้อย่างไร
ฉันทำงานกับชุดข้อมูลโดยมี N ประมาณ 200,000 ในการถดถอยฉันเห็นค่านัยสำคัญน้อยมาก << 0.001 ที่เกี่ยวข้องกับขนาดเอฟเฟกต์ที่เล็กมากเช่น r = 0.028 สิ่งที่ฉันอยากรู้คือมีวิธีหลักการในการตัดสินใจเลือกขีด จำกัด นัยสำคัญที่เหมาะสมเมื่อเทียบกับขนาดตัวอย่างหรือไม่ มีข้อควรพิจารณาอื่น ๆ ที่สำคัญเกี่ยวกับการตีความขนาดของเอฟเฟกต์กับตัวอย่างขนาดใหญ่เช่นนี้หรือไม่?

2
จะทำการตรวจสอบข้ามกับโมเดลอันตรายตามสัดส่วนของ Cox ได้อย่างไร
สมมติว่าฉันได้สร้างแบบจำลองการทำนายสำหรับการเกิดโรคเฉพาะในชุดข้อมูลหนึ่ง (ชุดข้อมูลการสร้างแบบจำลอง) และตอนนี้ต้องการตรวจสอบว่ารูปแบบการทำงานในชุดข้อมูลใหม่ได้ดีเพียงใด (ชุดข้อมูลการตรวจสอบความถูกต้อง) สำหรับแบบจำลองที่สร้างขึ้นด้วยการถดถอยโลจิสติกฉันจะคำนวณความน่าจะเป็นที่คาดการณ์สำหรับแต่ละคนในชุดข้อมูลการตรวจสอบความถูกต้องตามค่าสัมประสิทธิ์แบบจำลองที่ได้จากชุดข้อมูลการสร้างแบบจำลองแล้วหลังจากแยกขั้ว ที่ช่วยให้ฉันสามารถคำนวณอัตราบวกที่แท้จริง (ความไว) และอัตราลบที่แท้จริง (ความจำเพาะ) ยิ่งกว่านั้นฉันสามารถสร้างเส้นโค้ง ROC ทั้งหมดได้โดยการปรับค่า cutoff แล้วรับ AUC สำหรับกราฟ ROC ตอนนี้สมมติว่าฉันมีข้อมูลการอยู่รอด ดังนั้นฉันใช้โมเดลอันตรายตามสัดส่วนของ Cox ในชุดข้อมูลการสร้างแบบจำลองและตอนนี้ต้องการตรวจสอบว่าแบบจำลองนั้นทำงานได้ดีเพียงใดในชุดข้อมูลการตรวจสอบความถูกต้อง เนื่องจากความเสี่ยงพื้นฐานไม่ใช่ฟังก์ชันพารามิเตอร์ในโมเดล Cox ฉันไม่เห็นว่าฉันจะได้รับโอกาสรอดชีวิตที่คาดการณ์ไว้สำหรับแต่ละคนในชุดข้อมูลการตรวจสอบตามค่าสัมประสิทธิ์แบบจำลองที่ได้จากชุดข้อมูลการสร้างแบบจำลองอย่างไร ดังนั้นฉันจะไปเกี่ยวกับการตรวจสอบว่าแบบจำลองทำงานได้ดีในชุดข้อมูลการตรวจสอบได้อย่างไร มีวิธีการที่กำหนดไว้สำหรับการทำเช่นนี้หรือไม่? และถ้าใช่จะมีการใช้งานในซอฟต์แวร์ใด ๆ หรือไม่? ขอบคุณล่วงหน้าสำหรับคำแนะนำใด ๆ !

2
การแบ่งพาร์ติชันต้นไม้ใน R: party vs. rpart
ไม่นานมานี้ตั้งแต่ฉันดูที่การแยกต้นไม้ ครั้งล่าสุดที่ฉันทำสิ่งนี้ฉันชอบปาร์ตี้ใน R (สร้างโดย Hothorn) แนวคิดของการอนุมานแบบมีเงื่อนไขผ่านการสุ่มตัวอย่างทำให้ฉันมีเหตุผล แต่ rpart ก็มีการอุทธรณ์ ในแอปพลิเคชันปัจจุบัน (ฉันไม่สามารถให้รายละเอียดได้ แต่เกี่ยวข้องกับการพยายามกำหนดว่าใครจะเข้าคุกในกลุ่มตัวอย่างขนาดใหญ่ของผู้ถูกจับกุม) ฉันไม่สามารถใช้วิธีการขั้นสูงเช่นป่าสุ่มการบรรจุถุงการส่งเสริมเป็นต้น - ฉันต้องการความสะดวก กฎ. ฉันจะยังชอบที่จะมีบางส่วนที่ควบคุมด้วยตนเองมากกว่าที่โหนดแยกตามที่แนะนำในวอชิงตันโพสต์และนักร้อง (2010) ซ้ำพาร์ทิชันและการประยุกต์ใช้ ฟรีแวร์ที่มาพร้อมกับหนังสือเล่มนี้อนุญาตให้ทำเช่นนี้ได้ แต่จะค่อนข้างดั้งเดิมในการป้อนข้อมูลของผู้ใช้ คำแนะนำหรือข้อเสนอแนะ?
15 r  cart  rpart  partitioning 

3
วิธีที่ดีในการสอน R ในห้องปฏิบัติการคอมพิวเตอร์คืออะไร
มีการคำถามที่ดีหลายประการและชุดของคำตอบในหนังสือเบื้องต้นหรือวิธีการเรียนรู้เช่น R ที่นี่และที่นี่ แต่ฉันมีปัญหาแตกต่างกันเล็กน้อย - วิธีที่ดีที่สุดในการใช้งานเซสชั่นนานหนึ่งชั่วโมง (หรือหลายครั้ง) ในห้องปฏิบัติการคอมพิวเตอร์ที่จะทำให้ผู้คนเริ่มต้นใน R คุ้นเคยกับวิธีการพื้นฐาน ฯลฯ แผนปัจจุบันของฉันคือการทำงานอย่างมีประสิทธิภาพผ่านบทเบื้องต้นของสิ่งที่ต้องการ SimpleR ของ Verzani จากนั้นแนะนำชุดข้อมูลที่คุ้นเคย แต่มีวิธีอื่นที่ผู้คนพบว่ามีประโยชน์หรือไม่ ตัวอย่างเช่นมันเป็นการดีที่จะแนะนำข้อมูลจริงทันทีหรือปัญหาที่อยู่ในทางที่เป็นนามธรรมมากขึ้น? ฉันควรใช้วิธีนี้อย่างถี่ถ้วนเพื่อใช้วงเล็บเหลี่ยมหรือกระตุ้นผู้คนด้วยตัวอย่างของกราฟิกขัดแตะ? กลุ่มเป้าหมายของฉันคุ้นเคยกับสถิติ (แม้ว่าไม่ใช่ผู้เชี่ยวชาญ) และผู้ใช้ SPSS ที่มีความเชี่ยวชาญ ไม่คุ้นเคยกับภาษาการเขียนโปรแกรมนอกเหนือจากแมโครและการเขียนสคริปต์ที่คุณจะได้รับใน SPSS และสิ่งที่คล้ายกัน คำแนะนำหรือการอ้างอิงถึงแผนการสอนใด ๆ จะได้รับการชื่นชม อย่างไรก็ตามฉันไม่ต้องการคัดลอกรายชื่อวัสดุออนไลน์จำนวนมากที่แนะนำ R - อ้างอิงอย่างเคร่งครัดกับคำถามแบบตัวต่อตัว
15 r  teaching 

1
ต้นไม้การตัดสินใจแยกควรนำไปใช้อย่างไรเมื่อทำนายตัวแปรต่อเนื่อง
ฉันกำลังเขียนการนำป่าสุ่มมาใช้ แต่ฉันเชื่อว่าคำถามนี้มีความเฉพาะเจาะจงกับต้นไม้ตัดสินใจ (เป็นอิสระจาก RFs) บริบทคือฉันกำลังสร้างโหนดในแผนผังการตัดสินใจและทั้งการทำนายและตัวแปรเป้าหมายนั้นต่อเนื่อง โหนดมีเกณฑ์แยกเพื่อแบ่งพาร์ติชันข้อมูลออกเป็นสองชุดและฉันสร้างการทำนายใหม่สำหรับแต่ละชุดย่อยตามค่าเป้าหมายเฉลี่ยในแต่ละชุด นี่เป็นวิธีที่ถูกต้องหรือไม่? เหตุผลที่ฉันถามคือเมื่อทำนายตัวแปรไบนารีฉันเชื่อว่าวิธีการทั่วไป (ถูกต้อง?) คือการแบ่งข้อมูลออกเป็น 0 และ 1 ชุดย่อยโดยไม่ต้องเฉลี่ยค่าเฉลี่ยในแถวข้อมูลในแต่ละชุดย่อย การแยกตามมาจะแบ่งออกเป็นชุดย่อยที่ละเอียดยิ่งขึ้นและรับค่าเฉลี่ยในแต่ละการแยกผลลัพธ์ที่ตามมาแยก (ลดลงต้นไม้การตัดสินใจ) ปฏิบัติการในสิ่งที่ตอนนี้ตัวแปรต่อเนื่องมากกว่าตัวแปรไบนารี (เพราะเราทำงานในค่าความผิดพลาดที่เหลือ เป้าหมาย) คำถามข้างเคียง: ความแตกต่างระหว่างทั้งสองวิธีนั้นมีความสำคัญหรือไม่หรือพวกเขาจะให้ผลลัพธ์ที่เหมือนกันสำหรับต้นไม้การตัดสินใจที่สมบูรณ์หรือไม่

2
การวิเคราะห์แบบรันไทม์ของอัลกอริทึมการเรียนรู้ของเครื่องทั่วไป
ไม่มีใครอ้างอิงถึงบทสรุปของการวิเคราะห์แบบรันไทม์สำหรับอัลกอริทึมการเรียนรู้ของเครื่องทั่วไป (รสชาติที่แตกต่างของ NN, SVMs ฯลฯ )

1
ความหนาแน่นของการแจกแจงปกติตามขนาดที่เพิ่มขึ้น
คำถามที่ฉันต้องการถามคือ: สัดส่วนของตัวอย่างภายใน 1 SD ของค่าเฉลี่ยของการแจกแจงปกติแตกต่างกันอย่างไรเมื่อจำนวนของตัวแปรเพิ่มขึ้น (เกือบ) ทุกคนรู้ว่าในการแจกแจงปกติแบบ 1 มิตินั้น 68% ของตัวอย่างสามารถพบได้ในค่าเบี่ยงเบนมาตรฐาน 1 ค่าเฉลี่ย ในมิติที่ 2, 3, 4, ... ฉันรู้ว่ามันลดน้อยลง ... แต่เท่าไหร่ (แม่นยำ)? การมีตารางแสดงตัวเลขสำหรับ 1, 2, 3 ... 10 มิติเช่นเดียวกับ 1, 2, 3 ... 10 SDs ทุกคนสามารถชี้ไปที่ตารางดังกล่าวได้หรือไม่ บริบทเพิ่มเติมเล็กน้อย - ฉันมีเซ็นเซอร์ที่ให้ข้อมูลสูงสุด 128 ช่อง แต่ละช่องอาจมีสัญญาณรบกวนทางไฟฟ้า (เป็นอิสระ) เมื่อฉันรู้สึกถึงวัตถุการปรับเทียบฉันสามารถเฉลี่ยการวัดที่เพียงพอและได้รับค่าเฉลี่ยในช่องสัญญาณ 128 พร้อมกับค่าเบี่ยงเบนมาตรฐานส่วนบุคคล 128 แบบ แต่ ... …

3
ฉันจะประเมินเหตุการณ์ที่ไม่ซ้ำนับจากการสุ่มตัวอย่างข้อมูลได้อย่างไร
สมมติว่าฉันมีค่าSSSซึ่งบางครั้งก็ทำซ้ำ ฉันต้องการประเมินจำนวนรวมของค่าที่ไม่ซ้ำกันในชุดใหญ่ หากฉันสุ่มตัวอย่างค่าและพิจารณาว่ามีค่าที่ไม่ซ้ำกันของฉันสามารถใช้สิ่งนี้เพื่อประเมินจำนวนค่าที่ไม่ซ้ำในชุดขนาดใหญ่ได้หรือไม่T uTTTTยูTยูT_u

3
เมื่อใดที่ควรพิจารณาใช้ GMM
หนึ่งในสิ่งที่ทำให้เศรษฐมิติมีเอกลักษณ์คือการใช้เทคนิควิธีการทั่วไปในช่วงเวลา ปัญหาประเภทใดที่ทำให้ GMM เหมาะสมกว่าเทคนิคการประมาณแบบอื่น ๆ การใช้ GMM ซื้อคุณในแง่ของประสิทธิภาพหรือลดอคติหรือการประมาณค่าพารามิเตอร์ที่เฉพาะเจาะจงมากขึ้นคืออะไร ในทางกลับกันคุณสูญเสียอะไรจากการใช้ GMM ผ่าน MLE เป็นต้น

4
ความสัมพันธ์คืออะไรหากค่าเบี่ยงเบนมาตรฐานของตัวแปรหนึ่งตัวคือ 0
ดังที่ฉันเข้าใจเราสามารถได้สหสัมพันธ์โดยการทำให้ความแปรปรวนร่วมเป็นปกติโดยใช้สมการ ρi,j=cov(Xi,Xj)σiσjρi,j=cov(Xi,Xj)σiσj\rho_{i,j}=\frac{cov(X_i, X_j)}{\sigma_i \sigma_j} ที่เป็นค่าเบี่ยงเบนมาตรฐานของx_iσi=E[(Xi−μi)2]−----------√σผม=E[(Xผม-μผม)2]\sigma_i=\sqrt{E[(X_i-\mu_i)^2]}XผมXผมX_i ความกังวลของฉันคืออะไรถ้าค่าเบี่ยงเบนมาตรฐานเท่ากับศูนย์? มีเงื่อนไขใด ๆ ที่รับประกันได้หรือไม่ว่าจะไม่เป็นศูนย์? ขอบคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.