ทดสอบการเชื่อมโยงสำหรับ DV ที่กระจายตามปกติโดยตัวแปรอิสระในทิศทางหรือไม่


10

มีการทดสอบสมมติฐานว่าตัวแปรตามที่กระจายตามปกติมีความสัมพันธ์กับตัวแปรกระจายตามทิศทางหรือไม่?

ตัวอย่างเช่นหากเวลาของวันเป็นตัวแปรอธิบาย (และสมมติว่าสิ่งต่าง ๆ เช่นวันของสัปดาห์เดือนของปี ฯลฯ ไม่เกี่ยวข้อง) - นั่นคือวิธีการบัญชีสำหรับความจริงที่ว่า 23:00 เป็น 22 ชั่วโมงข้างหน้าของ 1am และ 2 ชั่วโมงหลัง 1am ในการทดสอบของสมาคมหรือไม่ ฉันสามารถทดสอบว่าเวลาต่อเนื่องของวันอธิบายตัวแปรตามหรือไม่โดยไม่คิดว่าเวลาเที่ยงคืน 12:00 ไม่เป็นไปตามเวลาหนึ่งนาทีหลัง 23.59 น. หรือไม่

การทดสอบนี้ใช้กับตัวแปรอธิบายแบบแยกส่วนได้หรือไม่? หรือว่าต้องมีการทดสอบแยกต่างหาก ตัวอย่างเช่นวิธีการทดสอบว่าตัวแปรตามขึ้นอยู่กับการอธิบายตามเดือนของปี (สมมติว่าวันและฤดูกาลของปีและปีที่เฉพาะเจาะจงหรือทศวรรษที่ไม่เกี่ยวข้อง) การรักษาเดือนของปีอย่างเด็ดขาดละเว้นการสั่งซื้อ แต่การรักษาเดือนของปีเป็นตัวแปรลำดับมาตรฐาน (พูด ม.ค. = 1 ... ธันวาคม = 12) ไม่สนใจว่าเดือนมกราคมจะมาสองเดือนหลังจากเดือนพฤศจิกายน


1
คำตอบสามารถเติมหนังสือได้ (และมีอยู่หลายเล่ม) ทำให้คำถามของคุณมีความเฉพาะเจาะจงมากขึ้นอาจช่วยเน้นคำตอบในสิ่งที่สำคัญกับคุณ
whuber

@whuber อืม ... เอ้ย ... คุณช่วยฉันดูหน่อยได้ไหม? ระบุการกระจายสำหรับ DV หรือไม่ จำกัด การทดสอบเพียงครั้งเดียวแทนที่จะถดถอย ฉันเป็นบิตนิ่งงันและไม่ทราบว่าจะเริ่มต้น ...
อเล็กซิส

@ เมื่อไรฉันได้พยายาม จำกัด คำถามให้แคบลงและจะขอบคุณสำหรับคำแนะนำใด ๆ ที่ทำให้มีประโยชน์มากขึ้น (ฉันแค่ต้องการสถานที่เริ่มต้นสำหรับการคิดเกี่ยวกับตัวทำนายแบบแยกส่วน) หากตอนนี้อยู่ในรูปแบบที่เหมาะสมฉันมีแนวโน้มที่จะติดตามคำถามที่คล้ายกันเกี่ยวกับการทดสอบดังกล่าวที่ไม่มีการกระจายใน DV
Alexis

@whuber การทำให้ IV แยกส่วนโดยสิ้นเชิงในบริบทการถดถอย: จะเป็นแบบผสมสองระดับที่มี discrete modular IV เป็นตัวบ่งชี้ระดับ 2 กับตัวบ่งชี้ระดับที่ 2 แต่ละหน่วยระดับ -2 มีตัวแปรเอฟเฟกต์ก่อนและหลังเท่ากับ ค่าก่อนหน้าและค่าที่ตามมาในระบบตัวเลขจะเป็นทางที่ถูกต้องหรือไม่
Alexis

ดูที่นี่jstatsoft.org/article/view/v031i10/v31i10.pdf , หน้า 16
amoeba

คำตอบ:


9

โดยทั่วไปแล้วฉันคิดว่ามันเริ่มมีผลทางวิทยาศาสตร์และสถิติมากขึ้นโดยเริ่มถามคำถามที่กว้างกว่าและแตกต่างกันซึ่งเป็นวิธีที่การคาดการณ์คำตอบที่สามารถคาดการณ์ได้จากตัวทำนายแบบวงกลม ฉันบอกว่าที่นี่เป็นวงกลมแทนที่จะเป็นทิศทางส่วนหนึ่งเป็นเพราะพื้นที่หลังมีทรงกลมและมีพื้นที่ว่างมากขึ้นซึ่งไม่สามารถครอบคลุมได้ทั้งหมดในคำตอบเดียว และส่วนหนึ่งเป็นเพราะตัวอย่างเวลาและวันในปีของคุณ อีกตัวอย่างที่สำคัญคือทิศทางของเข็มทิศ (เกี่ยวข้องกับลมสัตว์หรือการเคลื่อนไหวของมนุษย์การจัดตำแหน่ง ฯลฯ ) ซึ่งมีปัญหาในหลาย ๆ วงกลม: แน่นอนสำหรับนักวิทยาศาสตร์บางคนมันเป็นจุดเริ่มต้นที่ชัดเจนมากขึ้น

เมื่อใดก็ตามที่คุณสามารถหลีกเลี่ยงได้การใช้ฟังก์ชันไซน์และโคไซน์ของเวลาในรูปแบบการถดถอยบางชนิดนั้นเป็นวิธีการที่ง่ายและง่ายต่อการนำไปใช้ มันเป็นพอร์ตแรกของการโทรสำหรับตัวอย่างทางชีวภาพและ / หรือสิ่งแวดล้อมจำนวนมาก (ทั้งสองชนิดนี้มักจะถูกรวมเข้าด้วยกันเพราะปรากฏการณ์ทางชีววิทยาที่แสดงฤดูกาลมักตอบสนองโดยตรงหรือโดยอ้อมกับสภาพอากาศหรือสภาพอากาศ)

สำหรับภาพที่เป็นรูปธรรมลองจินตนาการถึงการวัดเวลาในช่วง 24 ชั่วโมงหรือ 12 เดือนเช่นนั้น

sin[2π(hour/24)],  cos[2π(hour/24)]

sin[2π(month/12)],  cos[2π(month/12)]

แต่ละอันอธิบายวัฏจักรเดียวตลอดทั้งวันหรือทั้งปี การทดสอบอย่างเป็นทางการที่ไม่มีความสัมพันธ์ระหว่างการตอบสนองที่วัดหรือนับและเวลาวงกลมจะเป็นการทดสอบมาตรฐานว่าสัมประสิทธิ์ของไซน์และโคไซน์เป็นศูนย์ร่วมกันในโมเดลเชิงเส้นทั่วไปที่มีไซน์และโคไซน์เป็นตัวทำนายการเชื่อมโยงและครอบครัวที่เหมาะสม ถูกเลือกตามลักษณะของการตอบสนอง

คำถามของการกระจายของการตอบสนอง (ปกติหรืออื่น ๆ ) อยู่ในแนวทางนี้รองและ / หรือจะจัดการโดยทางเลือกของครอบครัว

ข้อดีของการทำไซน์และโคไซน์นั้นเป็นไปตามธรรมชาติและมีการห่อรอบโดยอัตโนมัติดังนั้นค่าที่จุดเริ่มต้นและจุดสิ้นสุดของแต่ละวันหรือปีนั้นจำเป็นต้องเหมือนกัน ไม่มีปัญหากับเงื่อนไขขอบเขตเนื่องจากไม่มีขอบเขต

วิธีการนี้เรียกว่าการถดถอยแบบวงกลมคาบตรีโกณมิติและฟูริเยร์ สำหรับรีวิวบทแนะนำเบื้องต้นดูที่นี่

ในทางปฏิบัติ

  1. การทดสอบดังกล่าวมักจะแสดงผลลัพธ์ที่สำคัญอย่างท่วมท้นในระดับทั่วไปเมื่อใดก็ตามที่เราคาดว่าจะมีฤดูกาล คำถามที่น่าสนใจกว่านั้นคือเส้นโค้งฤดูกาลที่เที่ยงตรงและเราต้องการแบบจำลองที่ซับซ้อนยิ่งขึ้นกับคำศัพท์อื่น ๆ หรือไม่

  2. ไม่มีสิ่งใดกีดกันผู้ทำนายคนอื่นเช่นกันซึ่งในกรณีนี้เราต้องการแบบจำลองที่ครอบคลุมมากขึ้นเมื่อรวมกับตัวทำนายอื่น ๆ กล่าวว่า sines and cosines สำหรับฤดูกาลและตัวทำนายอื่น ๆ สำหรับทุกอย่างอื่น

  3. ในบางจุดขึ้นอยู่กับข้อมูลปัญหาและรสนิยมและประสบการณ์ของผู้วิจัยอาจเป็นเรื่องธรรมดามากขึ้นที่จะเน้นด้านอนุกรมเวลาของปัญหาและสร้างแบบจำลองที่มีการพึ่งพาเวลาอย่างชัดเจน แน่นอนบางคนที่มีใจทางสถิติจะปฏิเสธว่าไม่มีวิธีอื่นใดที่จะเข้าใกล้มัน

สิ่งที่ถูกตั้งชื่ออย่างง่ายดายว่าเป็นเทรนด์ (แต่ไม่สามารถระบุได้ง่ายเสมอไป) มาภายใต้ # 2 หรือ # 3 หรือแม้แต่ทั้งสองอย่าง

นักเศรษฐศาสตร์หลายคนและนักวิทยาศาสตร์สังคมอื่น ๆ ที่เกี่ยวข้องกับฤดูกาลในตลาดเศรษฐกิจระดับชาติและนานาชาติหรือปรากฏการณ์มนุษย์อื่น ๆ มักจะประทับใจกับความเป็นไปได้สำหรับความแปรปรวนที่ซับซ้อนมากขึ้นในแต่ละวันหรือ (มากกว่าปกติ) บ่อยครั้งที่แม้ว่าจะไม่เสมอไปความเปลี่ยนแปลงของฤดูกาลเป็นสิ่งที่สร้างความรำคาญให้กับนักวิทยาศาสตร์ทางชีววิทยาและสิ่งแวดล้อมซึ่งมักจะมองว่าฤดูกาลเป็นเรื่องที่น่าสนใจและสำคัญแม้จะเป็นจุดสนใจหลักของโครงการ นักเศรษฐศาสตร์และคนอื่น ๆ ก็มักใช้วิธีถดถอยแบบด้วยเช่นกัน แต่ด้วยกระสุนชุดของตัวบ่งชี้ (จำลอง) ตัวแปรส่วนใหญ่เพียงตัวแปรสำหรับแต่ละเดือนหรือแต่ละไตรมาสของปี0,1. นี่อาจเป็นวิธีที่ใช้งานได้จริงในการพยายามจับผลกระทบของวันหยุดที่มีชื่อช่วงเวลาวันหยุดพักผ่อนผลข้างเคียงของปีการศึกษา ฯลฯ รวมถึงอิทธิพลหรือแรงกระแทกจากภูมิอากาศหรือต้นกำเนิดของสภาพอากาศ จากความแตกต่างดังกล่าวความเห็นส่วนใหญ่ข้างต้นยังใช้กับเศรษฐศาสตร์และสังคมศาสตร์

ทัศนคติของและวิธีการโดยนักระบาดวิทยาและนักสถิติการแพทย์ที่เกี่ยวข้องกับการเปลี่ยนแปลงในการเจ็บป่วยการตายการรับเข้ารักษาในโรงพยาบาลการเยี่ยมชมคลินิกและอื่น ๆ มีแนวโน้มที่จะตกอยู่ในระหว่างทั้งสองสุดขั้ว

ในมุมมองของฉันแบ่งวันหรือปีเป็นครึ่งเพื่อเปรียบเทียบมักจะโดยพลประดิษฐ์และที่ดีที่สุดที่น่าอึดอัดใจ นอกจากนี้ยังเพิกเฉยต่อชนิดของโครงสร้างที่ราบเรียบซึ่งโดยทั่วไปจะปรากฏในข้อมูล

แก้ไขบัญชีจนถึงขณะนี้ไม่ได้ระบุความแตกต่างระหว่างเวลาที่ไม่ต่อเนื่องและต่อเนื่อง แต่ฉันไม่ได้มาจากประสบการณ์ของฉันคิดว่ามันเป็นเรื่องใหญ่ในทางปฏิบัติ

แต่ตัวเลือกที่แม่นยำขึ้นอยู่กับว่าข้อมูลมาถึงอย่างไรและรูปแบบของการเปลี่ยนแปลง

หากข้อมูลเป็นรายไตรมาสและเป็นมนุษย์ฉันมักจะใช้ตัวแปรตัวบ่งชี้ (เช่นไตรมาส 3 และ 4 มักแตกต่างกัน) หากรายเดือนและมนุษย์เลือกไม่ชัดเจน แต่คุณจะต้องทำงานอย่างหนักเพื่อขายไซน์และโคไซน์ให้กับนักเศรษฐศาสตร์ส่วนใหญ่ หากรายเดือนหรือปลีกย่อยและชีวภาพหรือสิ่งแวดล้อมแน่นอนไซน์และโคไซน์แน่นอน

แก้ไข 2 รายละเอียดเพิ่มเติมเกี่ยวกับการถดถอยตรีโกณมิติ

รายละเอียดที่โดดเด่นของการถดถอยตรีโกณมิติ (ตั้งชื่อด้วยวิธีอื่นใดก็ตามที่คุณต้องการ) ก็คือคำที่มักเป็นไซน์และโคไซน์จะถูกนำเสนอในแบบจำลองเป็นคู่ที่สุด เราเวลาขนาดแรกของวันเวลาของปีหรือทิศทางเข็มทิศเพื่อให้มีการแสดงเป็นมุมบนวงกลมที่ เรเดียนเพราะฉะนั้นในช่วงปี่] จากนั้นเราใช้คู่ตามที่จำเป็นในโมเดล (ในสถิติแบบวงกลมการประชุมวิชาตรีโกณมิติมีแนวโน้มที่จะจัดทำแบบแผนทางสถิติทรัมป์ดังนั้นสัญลักษณ์กรีกเช่นจะใช้สำหรับตัวแปรและพารามิเตอร์)θ[0,2π]sinkθ,coskθ,k=1,2,3,θ,ϕ,ψ

หากเราเสนอคู่ทำนายเช่นให้กับแบบจำลองการถดถอยแล้วเรามีการประมาณค่าสัมประสิทธิ์พูดสำหรับคำในรูปแบบคือ\ นี่คือวิธีการของเฟสที่เหมาะสมเช่นเดียวกับความกว้างของสัญญาณเป็นระยะ มิฉะนั้นใส่ฟังก์ชั่นเช่นสามารถเขียนใหม่เป็นsinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)

sinθcosϕ+cosθsinϕ,

แต่และเป็นตัวแทนของเฟสนั้นถูกประเมินในโมเดลที่เหมาะสม ด้วยวิธีนี้เราจะหลีกเลี่ยงปัญหาการประมาณค่าแบบไม่เชิงเส้นsin ϕcosϕsinϕ

หากเราใช้เพื่อจำลองรูปแบบวงกลมแล้วโดยอัตโนมัติค่าสูงสุดและต่ำสุดของเส้นโค้งนั้นจะอยู่ห่างกันครึ่งวงกลม ซึ่งมักจะเป็นการประมาณที่ดีมากสำหรับความแปรปรวนทางชีวภาพหรือสิ่งแวดล้อม แต่ในทางกลับกันเราอาจต้องการคำศัพท์เพิ่มเติมอีกหลายข้อเพื่อจับภาพฤดูกาลทางเศรษฐกิจโดยเฉพาะ นั่นอาจเป็นเหตุผลที่ดีมากในการใช้ตัวแปรตัวบ่งชี้แทนซึ่งนำไปสู่การตีความอย่างง่ายของค่าสัมประสิทธิ์b1sinθ+b2cosθ


ฉันสังเกตว่าทับซ้อนกับคำตอบจาก @Kelvin
Nick Cox

+1 (โดยเฉพาะสำหรับการใช้ "ยอดเยี่ยม" อย่างที่คุณทำ! :) นิคคอคส์คุณจะกรุณาอธิบายกรณีของตัวแปรวงกลมแบบไม่ต่อเนื่องเช่นกันตามคำถามของฉันหรือไม่ นั่นจะง่ายเหมือนวิธี "การสร้างแบบจำลองเกี่ยวกับวิชาตรีโกณมิติ" ที่คุณอธิบายโดยใช้การวัดเวลาแบบไม่ต่อเนื่องหรือไม่? หรือจะต้องมี "การแก้ไขความต่อเนื่อง" ของบางประเภท?
Alexis

เท่าที่ฉันทราบความแตกต่างเพียงอย่างเดียวระหว่างตัวแปรแบบวงกลมที่แยกกันและแบบต่อเนื่องคือในการปัดเศษของค่าเป็นคะแนนแบบไม่ต่อเนื่อง (เช่น 2pm vs 14.12345hrs) เช่นเดียวกับตัวแปรที่ไม่เป็นวงกลมดังนั้นจะไม่แตกต่างกันมากนัก ตราบใดที่คุณใช้การปัดเศษน้อยลงด้วยขั้นตอนเล็ก ๆ ที่สัมพันธ์กับระยะเวลาโดยรวม โดยทั่วไปมันเป็นเพียงเรื่องของการมีข้อผิดพลาดในการปัดเศษหรือไม่ ไม่ดีที่สุดถ้าคุณสามารถหลีกเลี่ยงได้
เคลวิน

ฉันยอมรับว่าไม่ต่อเนื่องและต่อเนื่องไม่แตกต่างกันมาก ในทางปฏิบัติการวัดจำนวนมากนั้นมีความรุนแรงมากขึ้นหรือน้อยลงโดยการรายงานในไตรมาสไตรมาสครึ่งเดือนวัน ฯลฯ หรือเป็นสิ่งต่าง ๆ ตั้งแต่ (N. S) ถึง (N, E, S, W) ไปจนถึงความละเอียดที่ละเอียดกว่า สำหรับทิศทางเข็มทิศ ในรายละเอียดมีความแตกต่างระหว่างการวัดจุด (อุณหภูมิ ณ เวลาที่แม่นยำ) และการวัดช่วงเวลา (เช่นยอดขายรายเดือนทั้งหมด) ฉันจะไม่รวบรวมรายละเอียดทั้งหมดเข้าด้วยกันเป็นข้อผิดพลาดในการปัดเศษเนื่องจากบางครั้งไม่มีข้อผิดพลาดมากเท่ากับการรวมหรือการหาค่าเฉลี่ย
Nick Cox

4

นี่คือตัวเลือกการแจกฟรีเนื่องจากดูเหมือนว่าเป็นสิ่งที่คุณต้องการอยู่แล้ว มันไม่ได้เฉพาะเจาะจงไปที่เขตข้อมูลของสถิติวงกลมซึ่งฉันไม่รู้อย่างเป็นธรรม แต่มันใช้งานได้ที่นี่และในการตั้งค่าอื่น ๆ อีกมากมาย

ให้ตัวแปรทิศทางของคุณจะเป็นXX

ปล่อยให้ตัวแปรอื่นเป็นซึ่งสามารถอยู่ในสำหรับใด ๆ(หรือจริง ๆ วัตถุชนิดใดที่เคอร์เนลที่มีประโยชน์สามารถกำหนดได้: กราฟสตริงภาพการแจกแจงความน่าจะเป็นตัวอย่าง จากการแจกแจงความน่าจะเป็น, ... )R d d 1YRdd1

กำหนดและสมมติว่าคุณมีสังเกตy_i)m z i = ( x i , y i )Z:=(X,Y)mzi=(xi,yi)

ตอนนี้ทำการทดสอบโดยใช้เกณฑ์ Hilbert Schmidt Independence (HSIC) ดังในเอกสารต่อไปนี้:

Gretton, Fukumizu, Teo, Song, Schölkopfและ Smola การทดสอบทางสถิติเคอร์เนลของความเป็นอิสระ NIPS 2008. ( pdf )

นั่นคือ:

  • กำหนดเคอร์เนลสำหรับXที่นี่เราหมายถึงเคอร์เนลในความรู้สึกของ a วิธีเคอร์เนลคือแก่นของRKHSXkX

    • ทางเลือกหนึ่งคือการแทนในวงกลมหน่วยใน (เช่นเดียวกับการแก้ไขของเคลวิน) และใช้เคอร์เนลแบบเกาส์ขวา) ที่นี่กำหนดความนุ่มนวลของอวกาศของคุณ การตั้งค่าเป็นระยะมัธยฐานระหว่างคะแนนในมักจะดีพอXR2k(x,x)=exp(12σ2xx2)σX
    • อีกทางเลือกหนึ่งคือการแทนเป็นมุมพูดในและใช้เคอร์เนล von Misesขวา) ที่นี่เป็นพารามิเตอร์ที่ราบรื่น 1X[π,π]k(x,x)=exp(κcos(xx))κ
  • กำหนดเคอร์เนลสำหรับในทำนองเดียวกัน สำหรับในเคอร์เนล Gaussian ด้านบนเป็นค่าเริ่มต้นที่สมเหตุสมผลlYYRn

  • ให้ , , และเป็นเมทริกซ์ซึ่ง , , และคือเมทริกซ์ศูนย์กลาง T จากนั้นสถิติการทดสอบมีคุณสมบัติที่ดีเมื่อใช้เป็นการทดสอบอิสระ การแจกแจงแบบโมฆะสามารถประมาณได้โดยการจับคู่โมเมนต์กับการแจกแจงแกมม่า (มีประสิทธิภาพในการคำนวณ) หรือการบูตสแตรป (มีความแม่นยำมากกว่าสำหรับขนาดตัวอย่างขนาดเล็ก)HKLm×mKij=k(xi,xj)Lij=l(yi,yj)H H=I1m11T1m2tr(KHLH)

รหัส Matlab สำหรับการดำเนินการนี้กับ RBF เมล็ดสามารถใช้ได้จากผู้เขียนเป็นครั้งแรกที่นี่


วิธีนี้เป็นสิ่งที่ดีเพราะเป็นเรื่องทั่วไปและมีแนวโน้มที่จะทำงานได้ดี ข้อเสียเปรียบหลักคือ:

  • m2ความซับซ้อนในการคำนวณเพื่อคำนวณสถิติการทดสอบ สิ่งนี้สามารถลดลงได้ด้วยการประมาณเคอร์เนลหากมีปัญหา
  • การแจกแจงโมฆะที่ซับซ้อน สำหรับขนาดใหญ่ ishประมาณแกมมาเป็นสิ่งที่ดีและไม่เป็นภาระเกินไป สำหรับขนาดเล็กการบูตสแตรปเป็นสิ่งจำเป็นmm
  • ตัวเลือกเคอร์เนล ดังที่แสดงไว้ข้างต้นเมล็ดและต้องถูกเลือกแบบฮิวริสติก บทความนี้จะช่วยให้เกณฑ์ที่ไม่เหมาะสมสำหรับการเลือกเมล็ด; บทความนี้นำเสนอวิธีการที่ดีสำหรับการทดสอบรุ่นข้อมูลขนาดใหญ่ซึ่งน่าเสียดายที่สูญเสียพลังงานทางสถิติ งานบางอย่างกำลังดำเนินอยู่ในขณะนี้สำหรับเกณฑ์ที่เหมาะสมที่สุดในการตั้งค่านี้ แต่น่าเสียดายที่ยังไม่พร้อมสำหรับการบริโภคสาธารณะkl


1. สิ่งนี้มักใช้เป็นเคอร์เนลที่ราบเรียบสำหรับข้อมูลแบบวงกลม แต่ฉันไม่ได้พบใครเลยที่ใช้มันเป็นเคอร์เนล RKHS อย่างไรก็ตามมันเป็นบวกแน่นอนโดยทฤษฎีบทของ Bochnerเนื่องจากรูปแบบการเปลี่ยนแปลงแบบไม่แปรเปลี่ยนเป็นสัดส่วนกับ pdf ของการแจกแจงฟอนคะเนที่มีค่าเฉลี่ย 0 ซึ่งฟังก์ชันลักษณะเป็นสัดส่วนกับการแจกแจงแบบเดียวกันบนการสนับสนุนปี่]k(xx)[π,π]


3

คุณสามารถรันt -test ระหว่างค่าเฉลี่ยจาก "ครึ่ง" ที่ตรงข้ามของช่วงเวลาได้เช่นโดยการเปรียบเทียบค่าเฉลี่ยจาก 12.00 น. ถึง 12.00 น. กับค่าเฉลี่ยจาก 12.00 น. ถึง 12.00 น. จากนั้นเปรียบเทียบค่าเฉลี่ยจาก 18.00 น. ถึง 6.00 น. กับค่าเฉลี่ยจากเวลา 6.00 น. ถึง 18.00 น.

หรือถ้าคุณมีข้อมูลเพียงพอคุณสามารถแบ่งช่วงเวลาเป็นเซ็กเมนต์ที่เล็กลง (เช่นรายชั่วโมง) และทำการทดสอบทีระหว่างแต่ละเซกเมนต์ในขณะที่ทำการแก้ไขเพื่อเปรียบเทียบหลายรายการ

อีกวิธีหนึ่งสำหรับการวิเคราะห์ "ต่อเนื่อง" (เช่นโดยไม่มีการแบ่งส่วนโดยพลการ) คุณสามารถเรียกใช้การถดถอยเชิงเส้นกับฟังก์ชันไซน์และโคไซน์ของตัวแปรทิศทางของคุณ (ตามระยะเวลาที่ถูกต้อง) ซึ่งจะทำให้

x=sin(x2π/period)
x=cos(x2π/period)

ปัญหาหลักของวิธีการดังกล่าวคือการยากที่จะตรวจสอบให้แน่ใจว่าขั้นตอนของแบบจำลองของคุณถูกกำหนดให้เลือกความสัมพันธ์สูงสุดดังนั้นคุณอาจต้องลองหลายขั้นตอนหรือเลือกเฟสด้วยตาเปล่าเพื่อกำหนด ค่าของคุณสมมุติ:a

x=sin((x+a)2π/period)

อย่างไรก็ตามในอุดมคติคุณควรกำหนดสมมติฐานของคุณ (เช่นช่วงบ่ายมีความกระตือรือร้นมากกว่าตอนเช้า) จากนั้นตั้งค่าเหมาะสมก่อนที่คุณจะดูข้อมูลa

แก้ไข: อีกหนึ่งความคิดที่คุณสามารถเรียกใช้การถดถอยหลายครั้งกับทั้งฟังก์ชันไซน์และโคไซน์ของตัวแปรทิศทางในเวลาเดียวกัน (เช่นระหว่างตัวแปรปกติของคุณบวกและ ) ตามที่ควรคำนึงถึง "ทิศทาง" ที่แท้จริงในลักษณะเดียวกับที่ฟังก์ชันไซน์และโคไซน์ร่วมกันกำหนดพิกัด x และ y ของวงกลมที่สมบูรณ์ จากนั้นคุณไม่จำเป็นต้องกังวลเกี่ยวกับปัญหาการแยกเฟสเพราะมันจะได้รับการดูแลโดยอัตโนมัติ ฉันไม่เคยเห็นสิ่งนี้ทำมาก่อน แต่ฉันไม่เห็นว่าทำไมมันไม่ควรทำงานyxx

ไม่ว่าในกรณีใดฉันคิดว่าคุณต้องตั้งสมมติฐานบางอย่างเกี่ยวกับระยะเวลาและทดสอบตามนั้น


เคลวิน "ทำลาย" ข้อมูลวงกลมตามที่คุณอธิบายก็ดูเหมือนจะไม่สนใจได้อย่างแม่นยำปัญหาผมยกเกี่ยวกับการสั่งซื้อแบบแยกส่วน
Alexis

คุณอ่านครึ่งหลังของคำตอบของฉันซึ่งอธิบายการวิเคราะห์อย่างต่อเนื่องโดยการถดถอยหลายครั้งหรือไม่
เคลวิน

คุณพูดถูกและไซน์ด้วยกัน นี่คือคำอธิบายเพิ่มเติมในคำตอบของฉันและในบทความปี 2549 ก็มีการอ้างอิงและในการอ้างอิงเพิ่มเติมที่อ้างอิง
Nick Cox

@ นิค - ฉันไม่เห็นคำตอบของคุณในขณะที่คุณโพสต์หลังจากแก้ไขครั้งล่าสุด แต่ก็ดีที่เราได้รับคำตอบเดียวกันอย่างอิสระเพราะฉันเพิ่งจะเป็นคนที่สร้างสรรค์
เคลวิน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.