การแปลงข้อมูล: ตัวแปรทั้งหมดหรือเฉพาะที่ไม่ใช่แบบปกติ?


14

ในการค้นพบสถิติของ Andy Field การใช้ SPSS เขาระบุว่าตัวแปรทั้งหมดจะต้องถูกแปลง

อย่างไรก็ตามในสิ่งพิมพ์: "การตรวจสอบความสัมพันธ์เชิงพื้นที่ที่แตกต่างกันระหว่างการใช้ที่ดินและคุณภาพน้ำโดยใช้การถดถอยเชิงน้ำหนัก I: การออกแบบรูปแบบและการประเมินผล" พวกเขาระบุว่าเฉพาะตัวแปรที่ไม่ปกติเท่านั้นที่ถูกเปลี่ยน

การวิเคราะห์นี้เฉพาะเจาะจงหรือไม่ ตัวอย่างเช่นในการเปรียบเทียบวิธีการเปรียบเทียบบันทึกกับข้อมูลดิบจะให้ผลที่แตกต่างอย่างเห็นได้ชัดในขณะที่เมื่อใช้บางอย่างเช่นการถดถอยเพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรมันจะมีความสำคัญน้อยลง

แก้ไข: นี่คือหน้าข้อความเต็มในส่วน "การแปลงข้อมูล":

และนี่คือลิงค์ไปยังกระดาษ: http://www.sciencedirect.com/science/article/pii/S0048969708009121


16
จากภาพใหม่ที่คุณโพสต์ผู้เขียนจะสับสน "ตัวแปร" กับ "การสังเกต" ด้านบนของ p 154 เขาเน้นอย่างถูกต้องว่าเมื่อคุณเปลี่ยนตัวแปรคุณต้องแปลงค่าทั้งหมด (การสังเกต) ด้วยวิธีเดียวกันไม่เช่นนั้นจะเป็นไปไม่ได้ที่จะเปรียบเทียบอะไร (การยืนยันสิ่งนี้ "จะไม่เปลี่ยนความสัมพันธ์ระหว่างตัวแปร" จำเป็นต้องมีการตีความที่ถูกต้องอย่างยิ่งที่จะต้องแก้ไข) ด้านล่างของ p 154 เป็นสิ่งที่ผิดอย่างชัดเจนประโยคต่อประโยค (แม้กระทั่งในเชิงอรรถ) ว่ามันไม่คุ้มค่ากับเวลาที่จะแจกแจงปัญหาทั้งหมดที่มี
whuber

คำตอบ:


17

คุณอ้างถึงคำแนะนำหลาย ๆ ข้อซึ่งทั้งหมดนี้ไม่ต้องสงสัยเลยว่ามีประโยชน์ แต่มันก็ยากที่จะหาข้อได้เปรียบในข้อใดข้อหนึ่ง

ในแต่ละกรณีฉันเชื่อมั่นในสิ่งที่คุณอ้างถึงโดยสรุป ในการป้องกันของผู้เขียนฉันอยากจะเชื่อว่าพวกเขาเพิ่มคุณสมบัติที่เหมาะสมในสภาพแวดล้อมหรือเนื้อหาอื่น ๆ (การอ้างอิงบรรณานุกรมแบบเต็มในชื่อปกติวันที่ชื่อ (ผู้เผยแพร่สถานที่) หรือ (รูปแบบชื่อวารสารปริมาณหน้า) จะช่วยเพิ่มคำถาม)

สนาม

คำแนะนำนี้มีวัตถุประสงค์เพื่อเป็นประโยชน์ แต่มีความเหมาะสมอย่างที่สุด คำแนะนำของ Field ดูเหมือนจะตั้งใจโดยทั่วไป ตัวอย่างเช่นการอ้างอิงถึงการทดสอบของ Levene หมายถึงการมุ่งเน้นชั่วคราวในการวิเคราะห์ความแปรปรวน

(1,0)

โดยทั่วไปแล้วมันเป็นเรื่องธรรมดา - ในหลาย ๆ สถานการณ์ในสถานการณ์ปกติ - ที่ผู้ทำนายบางคนควรจะเปลี่ยนและส่วนที่เหลือจะเป็นไปตามที่เป็นอยู่

มันเป็นความจริงที่การเผชิญหน้าในกระดาษหรือวิทยานิพนธ์เป็นส่วนผสมของการเปลี่ยนแปลงที่นำไปใช้กับผู้ทำนายที่แตกต่างกัน (รวมถึงกรณีพิเศษการแปลงอัตลักษณ์หรือการออกจากที่เป็นอยู่) มักเป็นเรื่องที่ผู้อ่าน การผสมผสานนั้นเป็นตัวเลือกที่ดีหรือไม่?

นอกจากนี้ในชุดของการศึกษาความสอดคล้องของวิธี (มักจะใช้ลอการิทึมกับการตอบสนองหรือไม่เคยทำมัน) ช่วยอย่างมากในการเปรียบเทียบผลลัพธ์และวิธีการที่แตกต่างกันทำให้มันยากขึ้น

แต่นั่นไม่ใช่การบอกว่าไม่มีเหตุผลที่จะมีการเปลี่ยนแปลง

ฉันไม่เห็นว่าส่วนใหญ่ที่คุณอ้างถึงมีคำแนะนำที่สำคัญที่คุณเน้นด้วยสีเหลือง สิ่งนี้เป็นเรื่องที่น่ากังวล: มันเป็นเรื่องแปลกที่จะประกาศกฎเด็ดขาดแล้วก็ไม่ต้องอธิบาย ในทางกลับกันคำสั่ง "จดจำ" แสดงให้เห็นว่ามีการให้ข้อมูลภาคสนามก่อนหน้าในหนังสือเล่มนี้

กระดาษที่ไม่ระบุชื่อ

บริบทที่นี่คือตัวแบบการถดถอย บ่อยครั้งที่การพูดคุยของ OLS เน้นวิธีการประมาณค่าแบบแปลก ๆ มากกว่าแบบ แต่เราสามารถเข้าใจสิ่งที่ตั้งใจไว้ GWR I ตีความว่าเป็นการลดน้ำหนักทางภูมิศาสตร์

อาร์กิวเมนต์ที่นี่คือคุณควรเปลี่ยนการทำนายที่ไม่ปกติและปล่อยให้คนอื่นเหมือนที่เป็นอยู่ อีกครั้งสิ่งนี้ทำให้เกิดคำถามเกี่ยวกับสิ่งที่คุณสามารถทำได้และควรทำอย่างไรกับตัวแปรตัวบ่งชี้ซึ่งไม่สามารถแจกจ่ายได้ตามปกติ แต่คำสั่งให้ย้อนกลับเป็นการบอกว่ามันไม่ใช่กฎเกณฑ์ของนักทำนายที่เป็นปัญหา ไม่เช่นนั้น มันไม่ได้เป็นส่วนหนึ่งของการสร้างแบบจำลองการถดถอยเพื่อคาดเดาอะไรเกี่ยวกับการแจกแจงส่วนต่างของตัวทำนาย

Xβ

มีคำแนะนำที่ดีเป็นพิเศษมากมายเกี่ยวกับการเปลี่ยนแปลงในฟอรัมนี้ที่ฉันได้เน้นไปที่การพูดคุยเกี่ยวกับสิ่งที่คุณอ้างถึง

PS คุณเพิ่มคำสั่งที่เริ่มต้น "ตัวอย่างเช่นในการเปรียบเทียบค่าเฉลี่ยการเปรียบเทียบบันทึกกับข้อมูลดิบจะทำให้เกิดความแตกต่างอย่างชัดเจน" ฉันไม่ชัดเจนสิ่งที่คุณมีในใจ แต่การเปรียบเทียบค่าสำหรับกลุ่มหนึ่งกับลอการิทึมของค่าสำหรับกลุ่มอื่นจะไร้สาระ ฉันไม่เข้าใจคำสั่งที่เหลือของคุณเลย


นิคฉันต้องการให้ประเด็นของฉันผ่านไปอย่างรวดเร็วและรัดกุมซึ่งฉันรู้สึกว่าฉันทำ ในโลกของ Google ฉันได้ให้ข้อมูลเพียงพอที่จะเข้าถึงเอกสารต้นฉบับได้ง่ายหากจำเป็น ขอบคุณสำหรับการตอบกลับถึงแม้ว่าคุณจะได้รับข้อมูลที่ตรงตามที่ฉันต้องการ: การเปลี่ยนตัวแปรทั้งหมดตามคำแนะนำของ Field ในส่วนการแปลงข้อมูลเป็นวิธีการแปลงข้อมูลที่ไม่ถูกต้อง
I Heart Beats

14
+1 ฉันประหลาดใจที่คุณมีวิธีจัดการกับเนื้อหาที่ผิดอย่างสิ้นเชิง การอ่านหน้าเว็บที่นี่และในหนังสือ SPSS ให้ข้อมูลเชิงลึกเกี่ยวกับคำถามที่สับสนบางอย่างที่เราได้รับในเว็บไซต์นี้: ฉันคิดว่าพวกเขาต้องมาจากผู้อ่านหนังสือเล่มนั้น มันเต็มไปด้วยข้อผิดพลาดข้อมูลที่ผิดและการรวมกันทันที
whuber

@I Heart Beats ยินดีที่คุณพบคำตอบที่เป็นประโยชน์ แต่คำขอของฉันสำหรับการอ้างอิงที่เหมาะสม คุณอาจจะบอกว่าการอ้างอิงที่ไม่สมบูรณ์นั้นป้องกันได้เสมอเพราะผู้ที่สนใจสามารถใช้ Google ได้เสมอ ในทางตรงกันข้ามทุนการศึกษาและวิทยาศาสตร์ที่ดีได้รับความช่วยเหลือจากการปฏิบัติบรรณานุกรมที่ดีให้รายละเอียดที่สมบูรณ์และไม่ได้ทำให้ผู้อ่าน (จำนวนมาก) ทำงานที่ไม่จำเป็น
Nick Cox

@Nick ดูการแก้ไขในคำถามของฉัน ฉันเชื่อว่าบทความเป็นโอเพ่นซอร์สและฉันเพิ่มข้อความเต็มสำหรับบริบท
I Heart Beats

8
ขอบคุณสำหรับการส่งเสริมการอ้างอิง คุณเสนอราคาเพิ่มเติมจากฟิลด์ มีส่วนพิเศษที่มองเห็นได้รวมถึงการยืนยันว่า "การแปลงข้อมูลจะไม่เปลี่ยนความสัมพันธ์ระหว่างตัวแปร" ไม่ว่า pivots นั้นจะมีความหมายว่า "ความสัมพันธ์" หรือ "ฉันกลัวว่า" เป็นไปได้มากว่ามันไม่ช่วยเหลือจริง ๆ เสียใจผม (ในอีกแง่หนึ่ง) จะเห็นด้วยกับ @whuber เกี่ยวกับหนังสือในคำถามหลักฐานในหน้าของเรา (ปรับปรุง: whuber ถูกทำให้เป็นหลักจุดเดียวกันพร้อมกัน: เห็นความคิดเห็นของเขาเกี่ยวกับคำถาม.)
นิคค็อกซ์

10

แรกของทุกคำพูดที่ทั้งสองจะทำให้เข้าใจผิดตราบเท่าที่การเปลี่ยนแปลงใด ๆ ที่นำไปใช้กับข้อมูลที่มีไว้สำหรับการใช้งานในรูปแบบการถดถอยไม่ได้ทำเพื่อให้ตัวแปรไฟล์ PDF กระจายมากขึ้นตามปกติก็ทำเพื่อให้รูปแบบเหลือสมมาตรมากขึ้นเนื่องจากหนึ่งสมมติฐานในการถดถอยแบบคลาสสิก นั่นคือข้อผิดพลาดแบบเกาส์เซียน สิ่งนี้แสดงถึงความเข้มงวดและความเข้มงวดในระดับลึกกว่าเพียงแค่สมมาตร PDF

ยิ่งไปกว่านั้นคำพูดทั้งสองยังอ่อนแรงซึ่งไม่มีใครพูดถึงแรงจูงใจในการสั่งยาของพวกเขา (อย่างน้อยก็ขึ้นอยู่กับข้อมูลที่ให้ไว้) เมื่อเกิดขึ้นฉันไม่เห็นด้วยกับทั้งสอง

ในเนื้อเรื่องที่คุณไฮไลต์หนังสือ SPSS อ้างว่าไม่อนุญาตให้มีการผสมผสานการแปลง (เช่นบันทึกธรรมชาติสำหรับตัวแปรหนึ่งตัวแปรรูทอีกอัน) ทำไมสิ่งนี้ถึงผิดกฎหมาย? การผสมผสานของการเปลี่ยนแปลงไม่ละเมิดสมมติฐานการถดถอยที่ฉันรู้ โปรดตรวจสอบข้อความการถดถอยบนสมมติฐานการถดถอยเพื่อยืนยันว่าเป็นกรณีนี้ การผสมผสานการแปรรูปอาจนำเสนอปัญหาเชิงพรรณนาที่สำคัญในแง่ของการตีความของพวกเขา แต่นั่นไม่ใช่คำถามว่าสารผสมนั้นผิดกฎหมายหรือไม่ ผู้ชาย SPSS ผิด

เท่าที่ข้อความที่สองไปอีกครั้งการแปลงเป็นเรื่องของการเลือกวิเคราะห์โดยสิ้นเชิง - ไม่ว่าพวกเขาจะทำอะไรเลยแปลงอินพุตทั้งหมดหรือตัวแปรบางตัวและไม่ใช่คนอื่น สิ่งนี้ไม่ละเมิดสมมติฐานใด ๆ

ที่ฉันคิดว่าคำพูดที่สองออกไปทางรางอยู่ในการยืนยันว่า "... เพื่อหลีกเลี่ยงความหลากหลายทางชีวภาพที่อาจเกิดขึ้น ... เพียงหนึ่งตัวบ่งชี้การใช้ที่ดิน (ถูกใช้) ... " นี่คือคำแนะนำที่ไม่ดีอย่างโจ๋งครึ่ม สิ่งที่นักวิเคราะห์บางคนจะทำเช่นเดียวกับเทคนิคการลดขนาดที่พวกเขาจะวิเคราะห์ปัจจัยต่าง ๆ และเลือกตัวแปรโหลดสูงสุดในแต่ละปัจจัย ฮิวริสติกนี้มีมานานหลายปีแล้วและไม่ใช่หนึ่งที่ฉันใช้หรือแนะนำ นี่เป็นเรื่องของการตั้งค่าและการฝึกอบรมของนักวิเคราะห์ แต่ประเด็นนี้ไม่ได้มีเป้าหมายเพื่อตอบคำถามเฉพาะของคุณ

ในตอนท้ายของวันทั้งสองคำพูดออกมาเป็นการยืนยันความคิดเห็นของผู้เขียนในกรณีที่ไม่มีหลักฐานสนับสนุนใด ๆ ขึ้นอยู่กับข้อมูลที่ให้ไว้


8
เราทำประเด็นที่คล้ายคลึงกันในวงกว้าง แต่ฉันต้องการเพิ่มว่าข้อความที่ดีอธิบายว่าข้อผิดพลาดแบบเกาส์เป็นข้อสันนิษฐานที่สำคัญที่สุดในการสร้างแบบจำลองการถดถอยและไม่จำเป็นสำหรับวัตถุประสงค์หลายประการ
Nick Cox

4
ข้อความดี: stat.columbia.edu/~gelman/arm )
แมทธิว Drury
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.