สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
จะอธิบายได้อย่างไรว่าเคอร์เนลคืออะไร
ตัวแยกประเภทการเรียนรู้ของเครื่องจำนวนมาก (เช่นสนับสนุนเครื่องเวกเตอร์) อนุญาตให้หนึ่งเพื่อระบุเคอร์เนล อะไรจะเป็นวิธีที่ใช้งานง่ายในการอธิบายว่าเคอร์เนลคืออะไร? แง่มุมหนึ่งที่ฉันนึกถึงก็คือความแตกต่างระหว่างเมล็ดเชิงเส้นและไม่ใช่เชิงเส้น ในแง่ง่ายฉันสามารถพูดถึง 'ฟังก์ชั่นการตัดสินใจเชิงเส้น' และ 'ฟังก์ชั่นการตัดสินใจที่ไม่ใช่เชิงเส้น' อย่างไรก็ตามฉันไม่แน่ใจว่าการเรียกเคอร์เนล 'ฟังก์ชั่นการตัดสินใจ' เป็นความคิดที่ดีหรือไม่ ข้อเสนอแนะ?


6
เป็นไปได้ไหมที่จะฝึกโครงข่ายใยประสาทเทียมโดยไม่ต้องทำ backpropagation
หนังสือและแบบฝึกหัดเกี่ยวกับโครงข่ายประสาทหลายเล่มใช้เวลากับอัลกอริธึม backpropagation เป็นหลักซึ่งเป็นเครื่องมือในการคำนวณการไล่ระดับสี สมมติว่าเรากำลังสร้างแบบจำลองที่มีพารามิเตอร์ / น้ำหนักประมาณ ~ 10K เป็นไปได้ไหมที่จะใช้การเพิ่มประสิทธิภาพโดยใช้อัลกอริธึมการเพิ่มประสิทธิภาพไล่ระดับสีฟรี? ฉันคิดว่าการคำนวณการไล่ระดับตัวเลขจะช้าเกินไป แต่วิธีการอื่น ๆ เช่น Nelder-Mead, Simulated Annealing หรือ Algorithm ทางพันธุกรรม? อัลกอริธึมทั้งหมดจะได้รับผลกระทบจากมินิมาท้องถิ่นทำไมจึงต้องหมกมุ่นกับการไล่ระดับสี


2
เรารู้มากแค่ไหนเกี่ยวกับการแฮ็ก p-in“ ในป่า”?
วลีp -hacking (เช่น: "data dredging" , "snooping" หรือ "Fishing") หมายถึงการทุจริตต่อหน้าที่ทางสถิติหลายรูปแบบซึ่งผลลัพธ์กลายเป็นนัยสำคัญทางสถิติเชิงประจักษ์ มีหลายวิธีในการจัดหาผลลัพธ์ "ที่สำคัญกว่า" ซึ่งรวมถึง แต่ไม่ จำกัด เพียง: วิเคราะห์เฉพาะชุดย่อย "น่าสนใจ" ของข้อมูลซึ่งพบรูปแบบ ล้มเหลวในการปรับอย่างเหมาะสมสำหรับการทดสอบหลายรายการโดยเฉพาะการทดสอบหลังการทดสอบและความล้มเหลวในการรายงานการทดสอบที่ไม่ได้มีนัยสำคัญ ลองการทดสอบที่แตกต่างกันของสมมติฐานเดียวกันเช่นทั้งการทดสอบแบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์ ( มีการพูดคุยกันในหัวข้อนี้ ) แต่มีการรายงานที่สำคัญที่สุดเท่านั้น ทำการทดลองกับการรวม / แยกจุดข้อมูลจนกว่าจะได้ผลลัพธ์ที่ต้องการ โอกาสครั้งหนึ่งเกิดขึ้นเมื่อ "การทำความสะอาดข้อมูลผิดปกติ" แต่เมื่อใช้คำจำกัดความที่คลุมเครือ (เช่นในการศึกษาทางเศรษฐมิติของ "ประเทศที่พัฒนาแล้ว" คำจำกัดความที่แตกต่างกันทำให้เกิดกลุ่มประเทศที่แตกต่างกัน) หรือเกณฑ์การคัดเลือกเชิงคุณภาพ อาจเป็นข้อโต้แย้งที่สมดุลอย่างละเอียดว่าวิธีการศึกษาเฉพาะนั้นมีความแข็งแกร่งเพียงพอที่จะรวม); ตัวอย่างก่อนหน้านี้เกี่ยวข้องกับการหยุดที่ไม่จำเป็นเช่นการวิเคราะห์ชุดข้อมูลและตัดสินใจว่าจะรวบรวมข้อมูลมากขึ้นหรือไม่ขึ้นอยู่กับข้อมูลที่เก็บจนถึงปัจจุบัน ("นี่เป็นสิ่งสำคัญเกือบจะเป็นไปได้ลองวัดนักเรียนอีกสามคน!") ในการวิเคราะห์ การทดลองระหว่างการปรับตัวแบบจำลองโดยเฉพาะอย่างยิ่ง covariates ที่จะรวม แต่ยังเกี่ยวกับการแปลงข้อมูล / รูปแบบการทำงาน ดังนั้นเราจึงรู้ว่าการแฮ็คpสามารถทำได้ มันมักจะถูกระบุว่าเป็นหนึ่งใน"อันตรายของp-value "และถูกกล่าวถึงในรายงาน ASA เกี่ยวกับนัยสำคัญทางสถิติที่กล่าวถึงที่นี่ในการตรวจสอบข้ามดังนั้นเราจึงรู้ว่ามันเป็นสิ่งที่ไม่ดี …

30
คุณจะแนะนำหนังสือเล่มใดสำหรับนักวิทยาศาสตร์ที่ไม่ใช่นักสถิติ
คุณจะแนะนำหนังสือเล่มใดสำหรับนักวิทยาศาสตร์ที่ไม่ใช่นักสถิติ การจัดส่งที่ชัดเจนเป็นที่นิยมมากที่สุด รวมถึงคำอธิบายเกี่ยวกับเทคนิคและวิธีการที่เหมาะสมสำหรับงานทั่วไป: การวิเคราะห์อนุกรมเวลาการนำเสนอและการรวมกลุ่มของชุดข้อมูลขนาดใหญ่
94 references 

13
วิธีที่ดีที่สุดในการระบุค่าผิดปกติในข้อมูลหลายตัวแปรคืออะไร
สมมติว่าฉันมีชุดข้อมูลหลายตัวแปรขนาดใหญ่ที่มีตัวแปรอย่างน้อยสามตัว ฉันจะหาผู้ผิดได้อย่างไร Scatterplots แบบ Pairwise จะไม่ทำงานอย่างที่เป็นไปได้สำหรับค่าที่มีอยู่ใน 3 มิติที่ไม่ได้เป็นค่าที่เกินในพื้นที่ย่อย 2 มิติใด ๆ ฉันไม่ได้คิดถึงปัญหาการถดถอย แต่เป็นข้อมูลหลายตัวแปรที่แท้จริง ดังนั้นคำตอบที่เกี่ยวข้องกับการถดถอยที่แข็งแกร่งหรือการใช้ประโยชน์จากการคำนวณนั้นไม่มีประโยชน์ ความเป็นไปได้อย่างหนึ่งคือการคำนวณคะแนนองค์ประกอบหลักและมองหาค่าที่ผิดเพี้ยนในการกระจาย bivariate ของสองคะแนนแรก นั่นจะรับประกันได้หรือไม่ มีแนวทางที่ดีกว่านี้ไหม?

5
รายการฟังก์ชั่นการเปิดใช้งานที่ครอบคลุมในโครงข่ายประสาทเทียมด้วยข้อดี / ข้อเสีย
มีเอกสารอ้างอิงใดบ้างที่ให้รายการฟังก์ชั่นการเปิดใช้งานที่ครอบคลุมในโครงข่ายประสาทเทียมพร้อมกับข้อดี / ข้อเสียของพวกเขา

6
การทดสอบการตรวจสอบข้อมูลที่สำคัญ
ในบทบาทงานของฉันฉันมักจะทำงานกับชุดข้อมูลของคนอื่นไม่ใช่ผู้เชี่ยวชาญนำข้อมูลทางคลินิกมาให้ฉันและฉันช่วยให้พวกเขาสรุปและดำเนินการทดสอบทางสถิติ ปัญหาที่ฉันมีอยู่คือชุดข้อมูลที่ฉันนำมานั้นมักจะเต็มไปด้วยความผิดพลาดความไม่สอดคล้องกันและปัญหาอื่น ๆ อีกมากมาย ฉันสนใจที่จะรู้ว่าคนอื่นมีการทดสอบมาตรฐานที่พวกเขาทำเพื่อพยายามตรวจสอบชุดข้อมูลใด ๆ ที่เข้ามา ฉันเคยวาดฮิสโทแกรมของตัวแปรแต่ละตัวเพื่อดู แต่ตอนนี้ฉันรู้แล้วว่ามีข้อผิดพลาดที่น่ากลัวมากมายที่สามารถอยู่รอดได้จากการทดสอบนี้ ตัวอย่างเช่นฉันมีชุดข้อมูลที่ทำซ้ำในวันอื่น ๆ ซึ่งสำหรับบางคนการวัดซ้ำนั้นเหมือนกันที่เวลา 2 เหมือนเดิมที่เวลา 1 นี่เป็นการพิสูจน์ว่าไม่ถูกต้องตามที่คุณคาดหวัง ชุดข้อมูลอีกชุดหนึ่งมีบุคคลที่เปลี่ยนจากการมีความไม่เป็นระเบียบอย่างรุนแรง (แสดงด้วยคะแนนสูง) เป็นไร้ปัญหาโดยมี 0 ชุดทั่วกระดาน นี่เป็นไปไม่ได้แม้ว่าฉันจะไม่สามารถพิสูจน์ได้อย่างแน่นอน ดังนั้นการทดสอบขั้นพื้นฐานใดที่ฉันสามารถใช้กับชุดข้อมูลแต่ละชุดเพื่อให้แน่ใจว่าไม่มีชุดตัวพิมพ์ผิดและไม่มีค่าที่เป็นไปไม่ได้ ขอบคุณล่วงหน้า!

3
คุณคำนวณความแม่นยำและเรียกคืนการจำแนกประเภทหลายคลาสโดยใช้เมตริกซ์ความสับสนได้อย่างไร
ฉันสงสัยว่าจะคำนวณความแม่นยำและเรียกคืนได้อย่างไรโดยใช้เมตริกซ์ความสับสนสำหรับปัญหาการจำแนกประเภทหลายชั้น โดยเฉพาะการสังเกตสามารถกำหนดให้กับคลาส / ฉลากที่เป็นไปได้มากที่สุดเท่านั้น ฉันต้องการคำนวณ: ความแม่นยำ = TP / (TP + FP) เรียกคืน = TP / (TP + FN) สำหรับแต่ละชั้นเรียนจากนั้นคำนวณค่า F-micro เฉลี่ย

10
เหตุใดอนุกรมเวลาจึงต้องหยุดนิ่ง
ฉันเข้าใจว่าอนุกรมเวลาที่อยู่กับที่เป็นค่าคงที่และความแปรปรวนคงที่ตลอดเวลา มีใครช่วยอธิบายหน่อยได้ไหมว่าทำไมเราต้องทำให้แน่ใจว่าชุดข้อมูลของเราอยู่กับที่ก่อนที่เราจะสามารถเรียกใช้โมเดล ARIMA หรือ ARM ที่แตกต่างกันได้ สิ่งนี้ยังนำไปใช้กับโมเดลการถดถอยปกติที่ความสัมพันธ์อัตโนมัติและ / หรือเวลาไม่ใช่ปัจจัยหรือไม่?

12
Bayesians คือใคร?
ในฐานะที่เป็นหนึ่งในความสนใจในสถิติที่แตกต่าง"บ่อย" และ "Bayesian"ในไม่ช้าก็กลายเป็นเรื่องธรรมดา (และผู้ที่ยังไม่ได้อ่านสัญญาณและเสียงของเนทซิลเวอร์ ? ในหลักสูตรการพูดคุยและการแนะนำมุมมองเป็นประจำอย่างท่วมท้น ( MLE , ค่า ) แต่มีแนวโน้มที่จะมีเวลาเพียงเล็กน้อยในการชื่นชมสูตร Bayes และสัมผัสกับแนวคิดของการกระจายก่อนหน้านี้พีpp น้ำเสียงที่ใช้เพื่อหารือเกี่ยวกับสถิติของ Bayesian แกว่งไปมาระหว่างการให้ความเคารพต่อการสนับสนุนแนวคิดและคำใบ้ของความสงสัยเกี่ยวกับช่องว่างระหว่างวัตถุประสงค์อันสูงส่งและความไม่ลงรอยกันในการเลือกการแจกแจงก่อนหน้า ประโยคเช่น "ถ้าคุณเป็น Bayesian ฮาร์ดคอร์ ... " มาก คำถามคือใครคือชาวเบย์ในปัจจุบัน? พวกเขาบางสถาบันการศึกษาที่เลือกที่คุณรู้ว่าถ้าคุณไปที่นั่นคุณจะกลายเป็นเบย์? ถ้าเป็นเช่นนั้นพวกเขาต้องการเป็นพิเศษหรือไม่? เราหมายถึงนักสถิติและนักคณิตศาสตร์ที่ได้รับการเคารพเพียงไม่กี่คนและหากเป็นเช่นนั้น พวกมันมีอยู่จริงหรือเปล่าเช่น "Bayesians" บริสุทธิ์เหล่านี้หรือไม่? พวกเขาจะยอมรับฉลากอย่างมีความสุขหรือไม่? มันเป็นความแตกต่างที่ประจบเสมอ? พวกเขาเป็นนักคณิตศาสตร์ที่มีสไลด์แปลก ๆ ในการประชุมปราศจากค่าใด ๆและช่วงความเชื่อมั่นหรือไม่พีpp มีโพรงจำนวนเท่าใดที่เป็น "Bayesian" เราหมายถึงนักสถิติส่วนน้อยหรือไม่? หรือ Bayesian-ism ปัจจุบันมีแอปพลิเคชันการเรียนรู้ของเครื่อง? ... หรือมากกว่านั้นคือสถิติแบบเบย์ไม่ได้เป็นสาขาวิชาสถิติมากนัก แต่เป็นขบวนการญาณวิทยาที่ครอบคลุมการคำนวณความน่าจะเป็นในปรัชญาของวิทยาศาสตร์? ในเรื่องนี้นักวิทยาศาสตร์ทุกคนจะเป็นแบบเบย์ในใจ ... แต่จะไม่มีสิ่งใดในฐานะนักสถิติแบบเบย์ที่บริสุทธิ์ซึ่งไม่สามารถผ่านไปได้กับเทคนิคที่ใช้บ่อย ๆ …

2
ความแปรปรวนร่วมในภาษาธรรมดาคืออะไร?
ความแปรปรวนในภาษาธรรมดาคืออะไรและวิธีการที่จะเชื่อมโยงกับเงื่อนไขการพึ่งพาอาศัยกัน , ความสัมพันธ์และโครงสร้างความแปรปรวนความแปรปรวนที่เกี่ยวกับการออกแบบซ้ำมาตรการ?

2
เลเยอร์การฝังในเครือข่ายประสาทคืออะไร
ในหลายห้องสมุดเครือข่ายประสาทมี 'ชั้นฝัง' เหมือนในKerasหรือลาซัน ฉันไม่แน่ใจว่าฉันเข้าใจฟังก์ชั่นของมันแม้จะอ่านเอกสาร ตัวอย่างเช่นในเอกสาร Keras มันบอกว่า: เปลี่ยนจำนวนเต็มบวก (ดัชนี) เป็นเวกเตอร์ที่มีขนาดคงที่เช่น [[4], [20]] -> [[0.25, 0.1], [0.6, -0.2]] คนที่มีความสามารถสามารถอธิบายสิ่งที่มันทำและเมื่อคุณจะใช้มันได้หรือไม่ แก้ไข: เกี่ยวกับการวางในเอกสารมีไม่มากวางจากเอกสารดังนั้นคำถามของฉัน ฉันไม่เข้าใจการเปลี่ยนแปลงที่เกิดขึ้นหรือทำไมจึงควรใช้ อย่างไรก็ตามนี่คือวิธีอธิบายใน Keras: การฝัง keras.layers.embeddings.Embedding (input_dim, output_dim, init = 'uniform', input_length = None, น้ำหนัก = None, W_regularizer = None, W_constraint = None, mask_zero = False) เปลี่ยนจำนวนเต็มบวก (ดัชนี) , เช่น. [[4], …

3
การตรวจสอบความถูกต้องไขว้แบบซ้อนสำหรับการเลือกโมเดล
หนึ่งจะใช้การตรวจสอบข้ามซ้อนสำหรับการเลือกรูปแบบได้อย่างไร จากสิ่งที่ฉันอ่านทางออนไลน์ CV ที่ซ้อนกันทำงานได้ดังต่อไปนี้: มีวง CV ภายในซึ่งเราอาจทำการค้นหากริด (เช่นใช้ K-fold สำหรับทุกรุ่นที่มีเช่นการรวมกันของพารามิเตอร์ / คุณสมบัติ) มีลูป CV ด้านนอกที่เราวัดประสิทธิภาพของโมเดลที่ชนะในโฟลด์ภายในโดยแยกจากภายนอก ในตอนท้ายของกระบวนการนี้เราจบลงด้วยรุ่น (เป็นจำนวนเท่าในวงด้านนอก) โมเดลเหล่านี้เป็นรุ่นที่ได้รับรางวัลในการค้นหากริดภายใน CV ภายในและมีแนวโน้มที่แตกต่างกัน (เช่น SVM ที่มีเมล็ดที่แตกต่างกันได้รับการฝึกฝนด้วยคุณสมบัติที่แตกต่างกันขึ้นอยู่กับการค้นหากริด)เคKKKKKK ฉันจะเลือกรุ่นจากผลลัพธ์นี้ได้อย่างไร สำหรับฉันแล้วการเลือกรุ่นที่ดีที่สุดจากรุ่นชนะนั้นจะไม่เป็นการเปรียบเทียบที่ยุติธรรมเนื่องจากแต่ละรุ่นได้รับการฝึกอบรมและทดสอบในส่วนต่าง ๆ ของชุดข้อมูลKKK ดังนั้นฉันจะใช้ CV ที่ซ้อนกันสำหรับการเลือกรุ่นได้อย่างไร นอกจากนี้ฉันได้อ่านหัวข้อที่พูดถึงการเลือกแบบจำลองที่ซ้อนกันมีประโยชน์สำหรับการวิเคราะห์ขั้นตอนการเรียนรู้ การวิเคราะห์ / ตรวจสอบประเภทใดที่ฉันสามารถทำกับคะแนนที่ฉันได้รับจากการพับ K ภายนอก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.