คำถามติดแท็ก eda

EDA ย่อมาจาก "Exploratory data analysis" พัฒนาโดย Tukey เพื่อเปรียบเทียบกับ Confirmatory Data Analysis หรือ CDA (การทดสอบสมมติฐานอย่างเป็นทางการ) โดยทั่วไปแล้ว EDA จะเกี่ยวข้องกับการอธิบายข้อมูลเป็นตัวเลขและกราฟิกเพื่อให้ข้อมูลเข้าใจง่ายขึ้นและให้ข้อมูลเชิงลึกใหม่ ๆ

24
กฎง่ายๆสำหรับสถิติ "ทันสมัย"
ฉันชอบหนังสือ G Van Belle เกี่ยวกับกฎทางสถิติของ Thumbและข้อผิดพลาดทั่วไปในสถิติ (และวิธีการหลีกเลี่ยง)จาก Phillip I Good และ James W. Hardin ข้อผิดพลาดเหล่านี้จะจัดการกับข้อผิดพลาดทั่วไปเมื่อตีความผลลัพธ์จากการศึกษาเชิงทดลองและเชิงสังเกตการณ์และให้คำแนะนำเชิงปฏิบัติสำหรับการอนุมานเชิงสถิติหรือการวิเคราะห์ข้อมูลเชิงสำรวจ แต่ฉันรู้สึกว่าแนวทาง "ทันสมัย" ค่อนข้างขาดโดยเฉพาะอย่างยิ่งการใช้สถิติการคำนวณและการใช้งานที่เพิ่มขึ้นอย่างต่อเนื่องในหลาย ๆ ด้านหรือการแนะนำเทคนิคจากชุมชนการเรียนรู้ของเครื่องจักรเช่นชีวสถิติคลินิกหรือระบาดวิทยาทางพันธุกรรม นอกเหนือจากเทคนิคการคำนวณหรือข้อผิดพลาดทั่วไปในการสร้างภาพข้อมูลซึ่งสามารถแก้ไขได้ที่อื่นฉันต้องการถาม: อะไรคือกฎสูงสุดของหัวแม่มือที่คุณอยากจะแนะนำสำหรับการวิเคราะห์ข้อมูลที่มีประสิทธิภาพ? ( หนึ่งกฎต่อคำตอบโปรด ) ฉันกำลังคิดถึงแนวทางที่คุณอาจมอบให้กับเพื่อนร่วมงานนักวิจัยที่ไม่มีพื้นฐานด้านการสร้างแบบจำลองทางสถิติที่ดีหรือนักเรียนในระดับกลางถึงระดับสูง สิ่งนี้อาจเกี่ยวข้องกับขั้นตอนต่าง ๆ ของการวิเคราะห์ข้อมูลเช่นกลยุทธ์การสุ่มตัวอย่างการเลือกคุณสมบัติหรือการสร้างแบบจำลองการเปรียบเทียบแบบจำลองการประมาณค่าภายหลัง ฯลฯ

6
มีเหตุผลที่ดีที่จะใช้ PCA แทน EFA หรือไม่ PCA สามารถใช้ทดแทนการวิเคราะห์ปัจจัยได้หรือไม่?
ในบางสาขามีการใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) อย่างเป็นระบบโดยไม่มีเหตุผลและ PCA และ EFA (การวิเคราะห์ปัจจัยเชิงสำรวจ) ถือเป็นคำพ้องความหมาย ดังนั้นเมื่อเร็ว ๆ นี้ฉันใช้ PCA เพื่อวิเคราะห์ผลการศึกษาการตรวจสอบความถูกต้องของสเกล (21 รายการใน 7 คะแนน Likert ซึ่งสันนิษฐานว่าประกอบด้วยองค์ประกอบ 3 รายการจาก 7 รายการ) และผู้ตรวจสอบถามฉันว่าทำไมฉันถึงเลือก PCA แทน EFA ฉันอ่านเกี่ยวกับความแตกต่างระหว่างเทคนิคทั้งสองและดูเหมือนว่า EFA ได้รับการสนับสนุนจาก PCA ในคำตอบส่วนใหญ่ของคุณที่นี่ คุณมีเหตุผลที่ดีว่าทำไม PCA ถึงเป็นตัวเลือกที่ดีกว่า ประโยชน์อะไรบ้างที่จะได้รับและทำไมจึงเป็นตัวเลือกที่ฉลาดในกรณีของฉัน

8
ผู้สืบทอดยุคใหม่ในการวิเคราะห์ข้อมูลเชิงสำรวจโดย Tukey?
ฉันอ่านหนังสือของ Tukey "Exploratory Data Analysis" หนังสือเล่มนี้เขียนขึ้นเมื่อปี พ.ศ. 2520 โดยเน้นวิธีการใช้กระดาษ / ดินสอ มีผู้สืบทอดที่ 'ทันสมัย' มากขึ้นซึ่งพิจารณาว่าตอนนี้เราสามารถพล็อตชุดข้อมูลขนาดใหญ่ได้หรือไม่?

8
ฟังก์ชันภาพรวมข้อมูลกราฟิก (สรุป) ใน R
ฉันแน่ใจว่าฉันเจอฟังก์ชั่นแบบนี้ในแพ็คเกจ R มาก่อน แต่หลังจาก Googling ที่กว้างขวางฉันดูเหมือนจะไม่สามารถหาได้ทุกที่ ฟังก์ชั่นที่ฉันคิดว่าจะสร้างบทสรุปกราฟิกสำหรับตัวแปรที่กำหนดให้กับมันสร้างผลลัพธ์ด้วยกราฟ (ฮิสโตแกรมและอาจเป็นกล่องและพล็อตมัสสุ) และข้อความบางส่วนที่ให้รายละเอียดเช่นค่าเฉลี่ย SD เป็นต้น ฉันค่อนข้างมั่นใจว่าฟังก์ชั่นนี้ไม่รวมอยู่ใน base R แต่ฉันไม่สามารถหาแพ็คเกจที่ฉันใช้ ไม่มีใครรู้ถึงฟังก์ชั่นเช่นนี้และถ้าเป็นเช่นนั้นมันเป็นแพคเกจอะไร?

5
ข้อมูล "การสำรวจ" เทียบกับข้อมูล "การสอดแนม" / "การทรมาน" หรือไม่
หลายครั้งที่ฉันเจอคำเตือนแบบไม่เป็นทางการกับ "การสอดแนมข้อมูล" (นี่เป็นตัวอย่างที่น่าขบขัน ) และฉันคิดว่าฉันมีความคิดที่เข้าใจง่ายเกี่ยวกับสิ่งที่แปลว่าอะไรและทำไมมันถึงเป็นปัญหา ในทางกลับกัน "การวิเคราะห์ข้อมูลเชิงสำรวจ" ดูเหมือนจะเป็นขั้นตอนที่ได้รับการยกย่องอย่างสมบูรณ์ในทางสถิติอย่างน้อยก็ตัดสินจากความจริงที่ว่าหนังสือที่มีชื่อนั้นยังคงอ้างถึงในฐานะคลาสสิก ในสายงานของฉันฉันมักจะเจอสิ่งที่ดูเหมือนฉันชอบอาละวาด "ข้อมูลการสอดแนม" หรือบางทีมันอาจจะอธิบายได้ดีกว่าว่า " การทรมานข้อมูล" แม้ว่าผู้ที่ทำมันดูเหมือนจะเห็นกิจกรรมเดียวกันกับการสำรวจที่สมเหตุสมผลและไม่มีเหตุผลทั้งหมด " นี่คือสถานการณ์ทั่วไป: การทดลองที่มีราคาแพงเกิดขึ้น (โดยไม่ต้องคิดมากนักกับการวิเคราะห์ที่ตามมา) นักวิจัยดั้งเดิมไม่สามารถมองเห็น "เรื่องราว" ในข้อมูลที่รวบรวมได้อย่างง่ายดายใครบางคนจะถูกนำไปใช้เพื่อ "พ่อมดทางสถิติ" หลังจากการแบ่งและการทำให้ข้อมูลเป็นไปตามลำดับในที่สุดก็สามารถดึง "เรื่องราว" ที่เผยแพร่ได้ออกมา แน่นอนว่ามักจะมี "การตรวจสอบความถูกต้อง" ถูกโยนลงในรายงาน / กระดาษขั้นสุดท้ายเพื่อแสดงให้เห็นว่าการวิเคราะห์ทางสถิติอยู่ในสภาพที่ดีและมากขึ้น แต่ทัศนคติการตีพิมพ์เผยแพร่ที่เห็นได้ชัดทั้งหมดทำให้ฉันสงสัย น่าเสียดายที่ความเข้าใจที่ จำกัด ของฉันเกี่ยวกับสิ่งที่ต้องทำและไม่ได้ทำการวิเคราะห์ข้อมูลทำให้ฉันพ้นจากข้อสงสัยที่คลุมเครือเช่นนั้นดังนั้นการตอบสนองแบบอนุรักษ์นิยมของฉันคือการไม่สนใจสิ่งที่ค้นพบ ความหวังของฉันคือไม่เพียง แต่เข้าใจถึงความแตกต่างระหว่างการสำรวจและการสอดแนม / การทรมาน แต่ยังรวมถึงและที่สำคัญกว่านั้นคือการเข้าใจหลักการและเทคนิคที่ดีกว่าสำหรับการตรวจจับเมื่อสายนั้นผ่านไปแล้ว วิธีที่สมเหตุสมผลสามารถอธิบายขั้นตอนการวิเคราะห์ที่น้อยกว่าที่ดีที่สุดและสามารถไปไกลกว่าการตอบสนองในปัจจุบันของฉันที่ค่อนข้างง่ายสำหรับการไม่เชื่อฟังผ้าห่ม แก้ไข: ขอบคุณทุกท่านสำหรับความคิดเห็นและคำตอบที่น่าสนใจมาก เมื่อพิจารณาจากเนื้อหาของพวกเขาฉันคิดว่าฉันอาจไม่ได้อธิบายคำถามของฉันได้ดีพอ ฉันหวังว่าการอัปเดตนี้จะอธิบายให้ชัดเจน คำถามของฉันที่นี่ไม่เกี่ยวข้องกับสิ่งที่ฉันควรทำมากนักเพื่อหลีกเลี่ยงการทรมานข้อมูลของฉัน (แม้ว่านี่จะเป็นคำถามที่ให้ความสนใจฉันด้วย) แต่: ฉันควรคำนึงถึง (หรือประเมิน) ผลลัพธ์ที่ฉันรู้มาอย่างไร …

4
วารสารวิทยาศาสตร์ให้การรับรองเส้นทางการ์เด้นออฟฟอร์คกิ้งหรือไม่?
แนวคิดของการวิเคราะห์ข้อมูลแบบปรับตัวคือคุณปรับเปลี่ยนแผนสำหรับการวิเคราะห์ข้อมูลในขณะที่คุณเรียนรู้เพิ่มเติมเกี่ยวกับมัน ในกรณีของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) โดยทั่วไปเป็นความคิดที่ดี (คุณมักจะมองหารูปแบบที่ไม่คาดฝันในข้อมูล) แต่สำหรับการศึกษาเชิงยืนยันสิ่งนี้ได้รับการยอมรับอย่างกว้างขวางว่าเป็นวิธีการวิเคราะห์ที่มีข้อบกพร่องมาก ขั้นตอนมีการกำหนดไว้อย่างชัดเจนและวางแผนอย่างเหมาะสมในขั้นสูง) ดังที่ได้กล่าวไปแล้วการวิเคราะห์ข้อมูลที่ปรับตัวได้นั้นโดยทั่วไปแล้วมีนักวิจัยจำนวนเท่าใดที่ทำการวิเคราะห์จริง ๆ เช่นนี้หากใครสามารถทำได้ในลักษณะที่ถูกต้องทางสถิติมันจะปฏิวัติการปฏิบัติทางสถิติ บทความวิทยาศาสตร์ต่อไปนี้อ้างว่าได้พบวิธีในการทำเช่นนั้น (ฉันขอโทษสำหรับ paywall แต่ถ้าคุณอยู่ในมหาวิทยาลัยคุณน่าจะเข้าถึงได้): Dwork et al, 2015, holdout ที่นำมาใช้ใหม่ได้: รักษาความถูกต้องในการวิเคราะห์ข้อมูลแบบปรับตัว . โดยส่วนตัวฉันมักสงสัยเกี่ยวกับบทความสถิติที่ตีพิมพ์ในวิทยาศาสตร์และบทความนี้ก็ไม่ต่างกัน ในความเป็นจริงหลังจากอ่านบทความสองครั้งรวมถึงเนื้อหาเพิ่มเติมฉันไม่เข้าใจ (เลย) ทำไมผู้เขียนอ้างว่าวิธีการของพวกเขาป้องกันไม่ให้เกินความเหมาะสม ความเข้าใจของฉันคือพวกเขามีชุดข้อมูลแบบโฮลด์ซึ่งพวกเขาจะใช้ซ้ำ พวกเขาดูเหมือนจะเรียกร้องโดย "fuzzing" ผลลัพธ์ของการวิเคราะห์ยืนยันในชุดข้อมูลที่ไม่ยอมอ่อนข้อกว่ากระชับจะได้รับการป้องกัน (มันเป็นที่น่าสังเกตว่า fuzzing น่าจะเป็นเพียงการเพิ่มเสียงถ้าสถิติการคำนวณเกี่ยวกับข้อมูลการฝึกอบรมคือพอไกล จากสถิติที่คำนวณได้ในข้อมูลโฮลด์ ) เท่าที่ฉันสามารถบอกได้ว่าไม่มีเหตุผลจริงที่จะป้องกันไม่ให้มีความเหมาะสมมากเกินไป ฉันเข้าใจผิดในสิ่งที่ผู้เขียนเสนอหรือไม่? มีลักษณะพิเศษบางอย่างที่ฉันมองเห็นหรือไม่? หรือวิทยาศาสตร์ ได้รับรองการฝึกฝนทางสถิติที่เลวร้ายที่สุดจนถึงปัจจุบันหรือไม่?

2
วิธีรับมือกับการวิเคราะห์ข้อมูลเชิงสำรวจและการขุดลอกข้อมูลในการศึกษาตัวอย่างขนาดเล็กได้อย่างไร?
การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) มักจะนำไปสู่การสำรวจ "รอยทาง" อื่น ๆ ที่ไม่จำเป็นต้องเป็นของชุดเริ่มต้นของสมมติฐาน ฉันต้องเผชิญกับสถานการณ์เช่นนี้ในกรณีของการศึกษาที่มีขนาดตัวอย่าง จำกัด และข้อมูลจำนวนมากที่รวบรวมผ่านแบบสอบถามที่แตกต่างกัน (ข้อมูลทางสังคม - ประชากรสถิติวิทยาหรือมาตรวิทยาทางการแพทย์ - เช่นการทำงานของจิตใจหรือร่างกายระดับความวิตกกังวล / วิตกกังวล ) มันเกิดขึ้นที่ EDA ช่วยเน้นความสัมพันธ์ที่ไม่คาดคิดบางอย่าง ("ไม่คาดหมาย" ซึ่งหมายความว่าพวกเขาไม่ได้รวมอยู่ในแผนการวิเคราะห์เบื้องต้น) ที่แปลเป็นคำถาม / สมมติฐานเพิ่มเติม ในกรณีของการ overfitting การขุดลอกข้อมูลหรือการสอดแนมจะนำไปสู่ผลลัพธ์ที่ไม่ได้สรุป อย่างไรก็ตามเมื่อมีข้อมูลจำนวนมากมันค่อนข้างยาก (สำหรับนักวิจัยหรือแพทย์) ในการตั้งสมมติฐานที่ จำกัด ฉันอยากจะรู้ว่ามีวิธีการที่เป็นที่ยอมรับคำแนะนำหรือกฎง่ายๆที่อาจช่วยอธิบาย EDA ในกรณีศึกษาตัวอย่างขนาดเล็กหรือไม่

5
การวิเคราะห์ข้อมูลเชิงสำรวจเป็นสิ่งสำคัญหรือไม่เมื่อทำการสร้างแบบจำลองการทำนายอย่างหมดจด?
เมื่อสร้างแบบจำลองการทำนายโดยใช้เทคนิคการเรียนรู้ของเครื่องจุดประสงค์ของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) คืออะไร? การข้ามไปสู่การสร้างคุณลักษณะและการสร้างแบบจำลองของคุณเป็นเรื่องที่ถูกต้องหรือไม่? สถิติเชิงพรรณนามีความสำคัญอย่างไรใน EDA สำคัญ

6
เท็กซัสนักแม่นปืนเข้าใจผิดในการวิเคราะห์ข้อมูลเชิงสำรวจ
ฉันได้อ่านนี้บทความในธรรมชาติซึ่งชักนำบางส่วนมีการอธิบายในบริบทของการวิเคราะห์ข้อมูล ฉันสังเกตเห็นว่าการเข้าใจผิดของนักแม่นปืนเท็กซัสเป็นเรื่องยากโดยเฉพาะอย่างยิ่งที่จะหลีกเลี่ยง: กับดักความรู้ความเข้าใจที่รอในระหว่างการวิเคราะห์ข้อมูลนั้นแสดงโดยนักแม่นปืนชาวเท็กซัส: นักแม่นปืนที่ไร้ฝีมือที่ยิงกระสุนแบบสุ่มที่ด้านข้างของยุ้งฉางดึงเป้าหมายรอบกลุ่มหลุมกระสุนที่ใหญ่ที่สุดและภาคภูมิใจที่ ความสำเร็จของเขา เห็นได้ชัดว่าเป้าของเขาเป็นสิ่งที่น่าหัวเราะ แต่การเข้าใจผิดนั้นไม่ชัดเจนนักสำหรับนักพนันที่เชื่อใน 'มือร้อน' เมื่อพวกเขามีชัยชนะหรือผู้ที่เห็นความสำคัญเหนือธรรมชาติเมื่อมีลอตเตอรี่วาดขึ้นมาเป็นตัวเลขคี่ ไม่ชัดเจนนักวิจัย “ คุณเพิ่งได้รับการสนับสนุนจากข้อมูลแล้วคิดว่านี่คือเส้นทางที่จะลงไป” Pashler กล่าว “ คุณไม่ทราบว่าคุณมี 27 ตัวเลือกที่แตกต่างกันและคุณเลือกตัวเลือกที่ให้ผลลัพธ์ที่น่าพอใจหรือน่าสนใจที่สุดและตอนนี้คุณกำลังมีส่วนร่วมในสิ่งที่ไม่ใช่การแสดงข้อมูลที่เป็นกลาง ” ฉันคิดว่างานสำรวจเป็นเรื่องธรรมดาและบ่อยครั้งที่สมมติฐานถูกสร้างขึ้นบนพื้นฐานของการวิเคราะห์ มีวิธีการทั้งหมด ( EDA ) ที่อุทิศให้กับกระบวนการนี้: John Tukey สนับสนุนการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อสนับสนุนนักสถิติในการสำรวจข้อมูลและกำหนดสมมติฐานที่อาจนำไปสู่การรวบรวมข้อมูลและการทดลองใหม่ ๆ ดูเหมือนว่ากระบวนการสำรวจใด ๆ ที่ดำเนินการโดยไม่มีสมมติฐานล่วงหน้ามีแนวโน้มที่จะสร้างสมมติฐานปลอม ขอให้สังเกตว่าคำอธิบายของ EDA new data collection and experimentsข้างต้นจริงพูดคุยเกี่ยวกับ ฉันเข้าใจว่าหลังจากรวบรวมข้อมูลใหม่แล้วการวิเคราะห์ข้อมูลยืนยัน (CDA) นั้นเหมาะสม อย่างไรก็ตามฉันไม่คิดว่าความแตกต่างนี้ชัดเจนมากและถึงแม้ว่าการแยก EDA และ CDA จะเหมาะสมที่สุดแน่นอนว่ามีบางสถานการณ์ที่ไม่สามารถทำได้ ฉันจะไปไกลเท่าที่จะบอกว่าการแยกนี้อย่างเคร่งครัดเป็นเรื่องแปลกและผู้ปฏิบัติงานส่วนใหญ่ไม่สมัครรับกระบวนทัศน์ EDA เลย …
23 eda  fallacy 

5
สิ่งที่ต้องเรียนรู้หลังจาก Casella & Berger
ฉันเป็นนักเรียนที่จบการศึกษาคณิตศาสตร์ที่มีพื้นฐานเล็กน้อยในวิชาคณิตศาสตร์ประยุกต์ ตั้งแต่ฤดูใบไม้ร่วงปีที่แล้วฉันได้เข้าเรียนในหนังสือของ Casella & Berger และฉันได้เสร็จสิ้นปัญหาการออกกำลังกายหลายร้อย (230+) หน้าในหนังสือ ตอนนี้ฉันอยู่ที่บทที่ 10 อย่างไรก็ตามเนื่องจากฉันไม่ได้เรียนวิชาเอกสถิติหรือวางแผนที่จะเป็นนักสถิติฉันไม่คิดว่าฉันจะสามารถใช้เวลาเป็นประจำเพื่อเรียนรู้การวิเคราะห์ข้อมูลต่อไป ประสบการณ์ของฉันจนถึงขณะนี้กำลังบอกฉันว่าการเป็นนักสถิติต้องมีการคำนวณที่น่าเบื่อมากมายที่เกี่ยวข้องกับการแจกแจงต่าง ๆ (Weibull, Cauchy, , F ... ) ฉันพบว่าในขณะที่แนวคิดพื้นฐานง่าย ๆ การใช้งาน (ตัวอย่างเช่น LRT ในการทดสอบสมมติฐาน) ยังคงเป็นเรื่องยากเนื่องจากเทคนิคเสื้อเสื้อtFFF ความเข้าใจของฉันถูกต้องหรือไม่ มีวิธีที่ฉันสามารถเรียนรู้ความน่าจะเป็น & สถิติที่ไม่เพียง แต่ครอบคลุมเนื้อหาขั้นสูง แต่ยังสามารถช่วยในกรณีที่ฉันต้องการวิเคราะห์ข้อมูลในชีวิตจริงได้หรือไม่? ฉันจะต้องใช้จ่าย 20 ชั่วโมงต่อสัปดาห์หรือไม่กับที่เคยทำ≥≥\ge ในขณะที่ฉันเชื่อว่าไม่มีถนนหลวงในการเรียนรู้คณิตศาสตร์ฉันมักไม่สามารถช่วยสงสัยได้ - ส่วนใหญ่เราไม่ทราบว่าการแจกแจงนั้นเป็นข้อมูลในชีวิตจริงดังนั้นอะไรคือจุดประสงค์ของเราที่จะมุ่งเน้นเฉพาะครอบครัวของการแจกแจงแบบต่างๆ ? หากขนาดตัวอย่างมีขนาดเล็กและทฤษฎีบทขีด จำกัด กลางใช้ไม่ได้เราจะวิเคราะห์ข้อมูลอย่างถูกต้องนอกเหนือจากค่าเฉลี่ยตัวอย่างและความแปรปรวนได้อย่างไรหากการแจกแจงไม่เป็นที่รู้จัก ภาคการศึกษาของฉันจะสิ้นสุดในหนึ่งเดือนและฉันไม่ต้องการให้ความรู้ของฉันหายไปหลังจากที่ฉันเริ่มมุ่งเน้นการวิจัยระดับปริญญาเอกของฉัน ฉันเลยตัดสินใจถาม ฉันกำลังเรียนรู้ R และฉันมีพื้นหลังการเขียนโปรแกรมบ้าง แต่ระดับของฉันใกล้เคียงกับรหัสลิง

5
วิธีการวิเคราะห์ชุดข้อมูลขนาดใหญ่แบบสำรวจอย่างต่อเนื่อง?
เมื่อฉันเริ่มการวิเคราะห์เชิงสำรวจในชุดข้อมูลขนาดใหญ่ (ตัวอย่างจำนวนมากหลายตัวแปร) ฉันมักจะพบว่าตัวเองมีหลายร้อยตัวแปรที่ได้รับและตันของแปลงที่แตกต่างกันและไม่มีทางที่จะติดตามสิ่งที่เกิดขึ้นจริง รหัสจบลงเหมือนปาเก็ตตี้เพราะไม่มีทิศทางจากจุดเริ่มต้น ... มีวิธีการใดบ้างที่แนะนำให้ทำการวิเคราะห์เชิงสำรวจอย่างเป็นระเบียบและเป็นระเบียบหรือไม่? โดยเฉพาะอย่างยิ่งคุณจะจัดการกับการสำรวจหลายแขนงได้อย่างไร (รวมถึงการสำรวจที่ปลายตาย) และแผนการที่แตกต่างกัน? สำหรับการอ้างอิงฉันกำลังทำงานกับข้อมูลทางธรณีวิทยา (ตัวแปรหลายตัวตามเวลา ฉันมักจะทำงานร่วมกับ Python หรือ R และเก็บทุกอย่างไว้ในคอมไพล์และลองใช้ IPython Notebook เช่นกัน อย่างไรก็ตามมันจะดีถ้าคำตอบนั้นค่อนข้างกว้างและมีประโยชน์สำหรับคนในทุกสาขาพร้อมกับข้อมูล (ใหญ่?) ประเภทอื่น

1
“ เอฟเฟ็กต์เกือกม้า” และ / หรือ“ เอฟเฟ็กต์โค้ง” ในการวิเคราะห์ PCA / การโต้ตอบคืออะไร
มีเทคนิคมากมายในสถิติทางนิเวศวิทยาสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจของข้อมูลหลายมิติ สิ่งเหล่านี้เรียกว่าเทคนิค 'การบวช' หลายคนเหมือนหรือใกล้เคียงกับเทคนิคทั่วไปในที่อื่น ๆ ในสถิติ บางทีตัวอย่างต้นแบบอาจเป็นการวิเคราะห์ส่วนประกอบหลัก (PCA) นักนิเวศวิทยาอาจใช้ PCA และเทคนิคที่เกี่ยวข้องเพื่อสำรวจ 'การไล่ระดับสี' (ฉันไม่ชัดเจนเลยว่าการไล่ระดับสีคืออะไร แต่ฉันอ่านเรื่องนี้มาเล็กน้อย) ในหน้านี้รายการสุดท้ายภายใต้การวิเคราะห์ส่วนประกอบหลัก (PCA)อ่าน: PCA มีปัญหาร้ายแรงสำหรับข้อมูลพืช: ผลของเกือกม้า เรื่องนี้เกิดจากความโค้งของการกระจายพันธุ์ตามการไล่สี เนื่องจากสปีชีส์การตอบสนองของสปีชีส์นั้นโดยทั่วไปจะมีรูปแบบเดียว เพิ่มเติมหน้าลงไปภายใต้การวิเคราะห์สารบรรณหรือค่าเฉลี่ยซึ่งกันและกัน (RA)มันหมายถึง "ผลกระทบอาร์ค": RA มีปัญหา: เอฟเฟกต์ส่วนโค้ง มันเกิดจากความไม่เชิงเส้นของการแจกแจงตามการไล่ระดับสี ส่วนโค้งนั้นไม่รุนแรงเท่าผลเกือกม้าของ PCA เนื่องจากปลายของการไล่ระดับสีไม่ได้ซับซ้อน มีคนอธิบายเรื่องนี้ได้ไหม ฉันเพิ่งเห็นปรากฏการณ์นี้ในแปลงที่เป็นตัวแทนของข้อมูลในพื้นที่มิติที่ต่ำกว่า (ได้แก่ การวิเคราะห์การติดต่อและการวิเคราะห์ปัจจัย) "การไล่ระดับสี" จะตรงกับอะไรมากกว่าปกติ (เช่นในบริบทที่ไม่ใช่เชิงนิเวศน์)? หากสิ่งนี้เกิดขึ้นกับข้อมูลของคุณมันเป็น "ปัญหา" ("ปัญหาร้ายแรง") หรือไม่ เพื่ออะไร? เราควรตีความเอาต์พุตที่เกือกม้า / โค้งแสดงขึ้นได้อย่างไร? ต้องใช้วิธีการรักษาหรือไม่? อะไร? การแปลงข้อมูลดั้งเดิมจะช่วยได้หรือไม่? จะเป็นอย่างไรถ้าข้อมูลนั้นเป็นอันดับเรตติ้ง …

8
แนวคิดสำหรับซอฟต์แวร์“ แล็บบุ๊คโน้ตบุ๊ค” หรือไม่
นี่เป็นสิ่งที่แปลก แต่จริง ๆ แล้วฉันคิดว่ามันเป็นสิ่งที่แปลกสำหรับเว็บไซต์ใด ๆ ดังนั้นฉันคิดว่าฉันจะลองที่นี่ในบรรดาพี่น้องของฉัน ฉันมาที่ระบาดวิทยาและชีวสถิติจากชีววิทยาและยังคงมีนิสัยบางอย่างจากสาขานั้น หนึ่งในนั้นคือการรักษาสมุดบันทึกในห้องปฏิบัติการ มันมีประโยชน์สำหรับการบันทึกความคิดการตัดสินใจดนตรีเกี่ยวกับการวิเคราะห์ ฯลฯ ในที่เดียวทุกอย่างที่ทำไว้เพื่อให้ฉันสามารถมองย้อนกลับไปในการวิเคราะห์ในภายหลังและมีเงื่อนงำสิ่งที่ฉันทำ แต่มันจะเป็นการดีที่จะย้ายเข้าไปในศตวรรษที่ 21 โดยเฉพาะอย่างยิ่งเพราะแม้ว่าระบบโน้ตบุ๊กในห้องปฏิบัติการจะมีความเหมาะสมเพียงพอสำหรับการตัดสินใจของบุคคลหนึ่งคนและเอกสาร แต่ก็เป็นเรื่องดีที่สามารถแนบพล็อตจาก EDA อีเมลจากผู้จัดการข้อมูลที่พูดถึงชุดข้อมูลเฉพาะ ฯลฯ ฉันเดาว่าสิ่งนี้จะเกี่ยวข้องกับการเพิ่มระบบของฉันเองจากสหภาพที่ไม่บริสุทธิ์ของบิตที่แตกต่างกันหลายคน แต่ในปัจจุบันมีใครบ้างที่ใช้ระบบและมีคำแนะนำใด ๆ

2
วิธีการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อเลือกอัลกอริทึมการเรียนรู้ของเครื่องที่เหมาะสม
เรากำลังศึกษาการเรียนรู้ของเครื่องผ่านการเรียนรู้ของเครื่อง: มุมมองที่น่าจะเป็น (เควินเมอร์ฟี่) ในขณะที่ข้อความอธิบายรากฐานทางทฤษฎีของอัลกอริทึมแต่ละอันมันไม่ค่อยบอกว่าในกรณีใดอัลกอริทึมที่ดีกว่าและเมื่อมันเป็นเช่นนั้นก็ไม่ได้บอกว่าจะบอกได้อย่างไรว่าฉันอยู่ที่ไหน ตัวอย่างเช่นสำหรับตัวเลือกของเคอร์เนลฉันถูกบอกให้ทำการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อวัดความซับซ้อนของข้อมูลของฉัน ในข้อมูลสองมิติอย่างง่ายฉันสามารถวางแผนและดูว่าเคอร์เนลเชิงเส้นหรือเรเดียนเหมาะสมหรือไม่ แต่จะทำอย่างไรในมิติที่สูงขึ้น? โดยทั่วไปผู้คนหมายถึงอะไรเมื่อพวกเขาพูดว่า "ทำความรู้จักข้อมูลของคุณ" ก่อนที่จะเลือกอัลกอริทึม ตอนนี้ฉันสามารถแยกแยะความแตกต่างระหว่างอัลกอริธึมการจำแนกและอัลกอริธึมเชิงเส้น VS และไม่เชิงเส้น (ซึ่งฉันไม่สามารถตรวจสอบได้) แก้ไข: แม้ว่าคำถามเดิมของฉันเกี่ยวกับกฎทั่วไป แต่ฉันได้รับแจ้งให้ให้ข้อมูลเพิ่มเติมเกี่ยวกับปัญหาเฉพาะของฉัน ข้อมูล: แผงที่มีแต่ละแถวเป็นเดือนในประเทศ (รวมแถวทั้งหมด 30,000 แถวครอบคลุม ~ 165 ประเทศในช่วง ~ 15 ปี) การตอบสนอง: 5 ตัวแปรไบนารีที่น่าสนใจ (เช่นการประท้วง / รัฐประหาร / วิกฤต ฯลฯ เกิดขึ้นในเดือนนั้น) คุณสมบัติ: ~ 400 ตัวแปร (การผสมผสานอย่างต่อเนื่อง, การจัดหมวดหมู่, ไบนารี) โดยมีรายละเอียดมากมายของลักษณะของ 2 ประเทศก่อนหน้าเดือน เราใช้ตัวแปรล้าหลังเนื่องจากเป้าหมายคือการคาดการณ์ ตัวอย่าง …

5
วิธีที่ดีในการแสดงข้อมูลจำนวนมากแบบกราฟิก
ฉันกำลังทำงานในโครงการที่มีตัวแปร 14 ตัวและการสังเกตการณ์ 345,000 ครั้งสำหรับข้อมูลที่อยู่อาศัย (สิ่งต่าง ๆ เช่นปีที่สร้างขึ้นวิดีโอสแควร์ราคาขายเขตที่อยู่อาศัย ฯลฯ ) ฉันกังวลกับการพยายามค้นหาเทคนิคกราฟิกที่ดีและไลบรารี R ที่มีเทคนิคการพล็อตที่ดี ฉันได้เห็นสิ่งที่เป็น ggplot และขัดแตะจะทำงานได้ดีและฉันกำลังคิดที่จะทำไวโอลินสำหรับตัวแปรเชิงตัวเลขของฉัน แพคเกจอื่นใดที่ผู้คนจะแนะนำให้แสดงตัวแปรตัวเลขหรือตัวประกอบจำนวนมากในรูปแบบที่ชัดเจนขัดเงาและที่สำคัญที่สุดคือรวบรัด?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.