กำลังคำนวณค่าความชันเฉลี่ย: ค่าฮาร์มอนิกหรือเลขคณิต


11

ฉันต้องคำนวณความชันเปอร์เซ็นต์อัพโลเปซโดยเฉลี่ยสำหรับชุดข้อมูลขนาดใหญ่วิธีการพื้นฐานมีรายละเอียดที่นี่ อย่างไรก็ตามฉันเริ่มสงสัยว่าค่าเฉลี่ยฮาร์มอนิกอาจจะเหมาะสมกว่าค่าเฉลี่ยเลขคณิตหรือไม่เนื่องจากเป็นอัตราการเปลี่ยนแปลงทางเทคนิค ฉันไม่ได้เห็นการเปลี่ยนแปลงนี้ในการสนทนาอื่น ๆ เกี่ยวกับความลาดชันเฉลี่ยเหนือจุดพื้นที่เส้น ฯลฯ มันควรตรงไปตรงมาเพื่อให้บรรลุ

แก้ไข: จุดประสงค์ของการคำนวณความชันเฉลี่ยในกรณีนี้คือการสร้างพารามิเตอร์หนึ่งตัว (จากหลายพารามิเตอร์) เพื่อใช้ในการสร้างแบบจำลองเกณฑ์การเริ่มต้นแชนเนล ฉันมีชุดของตำแหน่งหัวของช่องที่รวบรวมโดยฟิลด์ที่ฉันจะรวบรวมการสะสมการไหลพารามิเตอร์อัพโลปเฉลี่ยต่าง ๆ และจะใช้การถดถอยเชิงเส้นหลายครั้งเพื่อพยายามอธิบายเกณฑ์การสะสมในแง่ของพารามิเตอร์อื่น ๆ


4
ขึ้นอยู่กับสาเหตุที่คุณคำนวณความชันเฉลี่ย จุดประสงค์คืออะไร? คุณพยายามวัดปริมาณทางกายภาพอะไร แม้ว่าค่าเฉลี่ยหลายรูปแบบนั้นถูกต้องตามกฎหมาย แต่จงระวังค่าเฉลี่ยฮาร์มอนิก: มันทำให้เกิดปัญหาเมื่อความลาดชันใด ๆ เป็นศูนย์ซึ่งเกิดขึ้นบ่อยครั้ง
whuber

คำตอบ:


10

ความลาดชันเฉลี่ยดูเหมือนจะเป็นปริมาณที่เป็นธรรมชาติ แต่มันก็ค่อนข้างแปลก ตัวอย่างเช่นความลาดชันเฉลี่ยของที่ราบในแนวนอนราบเป็นศูนย์ แต่เมื่อคุณเพิ่มสัญญาณรบกวนแบบสุ่มเล็กน้อยค่าเฉลี่ยศูนย์ให้กับ DEM ของที่ราบนั้นความลาดชันเฉลี่ยจะสูงขึ้นเท่านั้น พฤติกรรมที่แปลกประหลาดอื่น ๆ คือการพึ่งพาความชันโดยเฉลี่ยในการแก้ปัญหา DEM ซึ่งฉันได้บันทึกไว้ที่นี่และการพึ่งพาวิธีการสร้าง DEM ตัวอย่างเช่น DEM บางอันที่สร้างขึ้นจากแผนที่รูปร่างจริง ๆ แล้วมีลักษณะเป็นชั้น ๆ เล็กน้อยโดยมีการกระโดดอย่างกระทันหันเล็กน้อยที่เส้นชั้นความสูงอยู่ การกระโดดอย่างกะทันหันหากการให้น้ำหนักมากหรือน้อยเกินไปในกระบวนการหาค่าเฉลี่ยสามารถเปลี่ยนความชันเฉลี่ย

การทำให้น้ำหนักมีความเกี่ยวข้องเพราะในความเป็นจริงค่าเฉลี่ยฮาร์มอนิก (และวิธีอื่น ๆ ) นั้นมีน้ำหนักต่างกัน เพื่อให้เข้าใจถึงนี้พิจารณาค่าเฉลี่ยฮาร์โมนิเพียงสองตัวเลขบวกxและy ที่ ตามคำจำกัดความ

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

เมื่อน้ำหนักเป็น a = y / (x + y) และ b = x / (x + y) (สิ่งเหล่านี้สมควรที่จะถูกเรียกว่า "น้ำหนัก" เพราะมันเป็นบวกและรวมเป็นหนึ่งเดียวสำหรับค่าเฉลี่ยเลขคณิตน้ำหนักนั้นคือ = 1/2 และ b = 1/2) เห็นได้ชัดว่าน้ำหนักที่แนบมากับxเท่ากับ / y (x + y), ที่มีขนาดใหญ่เมื่อxเป็นขนาดเล็กเมื่อเทียบกับปี ดังนั้นวิธีการประสานมากกว่าน้ำหนักขนาดเล็กค่า

มันอาจช่วยขยายคำถาม ค่าเฉลี่ยฮาร์มอนิกเป็นหนึ่งในตระกูลของค่าเฉลี่ยที่กำหนดค่าโดยpจริง เช่นเดียวกับค่าเฉลี่ยฮาร์มอนิกที่ได้จากค่าเฉลี่ยส่วนกลับของxและy (จากนั้นก็หาค่าเฉลี่ยส่วนกลับ) โดยทั่วไปเราอาจเฉลี่ยกำลัง pth ของxและy (แล้วใช้ 1 / pth ของผลลัพธ์ ) เคส p = 1 และ p = -1 คือค่าเลขคณิตและค่าฮาร์มอนิกตามลำดับ (เราสามารถกำหนดค่าเฉลี่ยสำหรับp = 0 โดยการ จำกัด ดังนั้นจึงได้รับค่าเฉลี่ยทางเรขาคณิตในฐานะสมาชิกของตระกูลนี้ด้วย) ในฐานะที่เป็นpลดลงจาก 1 ค่าที่น้อยกว่าจะมีน้ำหนักมากขึ้นเรื่อย ๆ และเมื่อpเพิ่มขึ้นจาก 1 ค่ายิ่งใหญ่ก็จะยิ่งมีน้ำหนักมากขึ้นเรื่อย ๆ มันตามมาว่าค่าเฉลี่ยสามารถเพิ่มขึ้นได้เมื่อpเพิ่มขึ้นและต้องลดลงเมื่อค่าpลดลง (นี่จะเห็นได้ชัดในรูปที่สองด้านล่างซึ่งทั้งสามบรรทัดจะแบนหรือเพิ่มขึ้นจากซ้ายไปขวา)

การมีมุมมองในทางปฏิบัติของเรื่องที่เราแทนอาจจะศึกษาพฤติกรรมของวิธีการต่าง ๆ ของความลาดชันและเพิ่มความรู้นี้ในกล่องเครื่องมือการวิเคราะห์ของเรา: เมื่อเราคาดหวังว่าเนินเขาที่จะเข้าสู่ความสัมพันธ์ในลักษณะดังกล่าวที่เนินเขาขนาดเล็กควรจะได้รับข้อมูลเพิ่มเติมของ อิทธิพลเราอาจเลือกค่าเฉลี่ยด้วยpน้อยกว่า 1 และในทางกลับกันเราอาจเพิ่มpมากกว่า 1 เพื่อเน้นที่ลาดที่ใหญ่ที่สุด ด้วยเหตุนี้ให้พิจารณารูปแบบการระบายน้ำแบบต่างๆในบริเวณใกล้เคียง

เพื่อแสดงว่าอะไรจะเกิดขึ้นต่อไปฉันได้พิจารณาภูมิประเทศในท้องถิ่นที่แตกต่างกันสามเชิงคุณภาพ : หนึ่งคือบริเวณที่ลาดทั้งหมดเท่ากัน (ซึ่งทำให้มีการอ้างอิงที่ดี); อีกอย่างคือที่ตั้งของเราอยู่ที่ด้านล่างของชาม: รอบ ๆ ตัวเรามีความลาดชันเป็นศูนย์ แต่จากนั้นก็ค่อยๆเพิ่มขึ้นและในที่สุดรอบ ๆ ขอบจะมีขนาดใหญ่มาก การผกผันของสถานการณ์นี้เกิดขึ้นที่เนินเขาใกล้เคียงอยู่ในระดับปานกลาง แต่ก็อยู่ห่างจากเรา ซึ่งดูเหมือนว่าจะครอบคลุมพฤติกรรมที่หลากหลายอย่างสมจริง

นี่คือแผนการหลอก 3 มิติของรูปแบบการระบายน้ำทั้งสามประเภท:

แปลงในรูปแบบ 3 มิติ

ที่นี่ฉันได้คำนวณความชันเฉลี่ยของแต่ละ - ด้วยการเข้ารหัสสีเดียวกัน - เป็นฟังก์ชั่นของpให้ช่วงpจาก -1 (ค่าเฉลี่ยฮาร์มอนิก) ถึง 2

Slope หมายถึง vs p

แน่นอนว่าเส้นสีฟ้าเป็นแนวนอน: ไม่ว่าค่าpจะเกิดขึ้นก็ตามค่าเฉลี่ยของความชันคงที่ไม่สามารถเป็นอย่างอื่นได้นอกจากค่าคงที่นั้น (ซึ่งถูกตั้งค่าเป็น 1 สำหรับการอ้างอิง) เนินเขาสูงรอบไกลขอบชามสีแดงอย่างยิ่งมีอิทธิพลต่อความลาดชันเฉลี่ยเป็นหน้าแตกต่างกัน: แจ้งให้ทราบว่าขนาดใหญ่พวกเขากลายเป็นหนึ่งครั้งหน้าเกิน 1. ขอบแนวนอนในไตรมาสที่สาม (ทองสีเขียว) ผิวทำให้ค่าเฉลี่ยฮาร์โมนิ (p = - 1) เป็นศูนย์

เป็นที่น่าสังเกตว่าตำแหน่งสัมพัทธ์ของสามโค้งเปลี่ยนที่ p = 0 (ค่าเฉลี่ยทางเรขาคณิต): สำหรับp ที่มากกว่า 0 ชามสีแดงมีความลาดชันเฉลี่ยมากกว่าสีน้ำเงินในขณะที่สำหรับpลบชามสีแดงมีค่าเฉลี่ยน้อยกว่า ลาดกว่าสีฟ้า ดังนั้นตัวเลือกpของคุณสามารถเปลี่ยนแปลงได้แม้กระทั่งการจัดอันดับความสัมพันธ์ของความลาดชันเฉลี่ย

ผลกระทบที่ลึกซึ้งของค่าเฉลี่ยฮาร์มอนิก (p = -1) กับรูปร่างสีเหลือง - เขียวควรให้เราหยุดชั่วคราว: มันแสดงให้เห็นว่าเมื่อมีพื้นที่ลาดชันเล็ก ๆ เพียงพอในการระบายน้ำค่าเฉลี่ยฮาร์มอนิกอาจน้อยมาก ทุกความลาดชันอื่น ๆ

ด้วยจิตวิญญาณของการวิเคราะห์ข้อมูลเชิงสำรวจคุณอาจพิจารณาการเปลี่ยนแปลงp -บางทีปล่อยให้อยู่ในช่วงตั้งแต่ 0 ถึงสูงกว่า 1 เล็กน้อยเพื่อหลีกเลี่ยงน้ำหนักมาก - และการค้นหาว่าค่าใดที่สร้างความสัมพันธ์ที่ดีที่สุดระหว่างค่าเฉลี่ยความชันกับตัวแปรที่คุณ เป็นการสร้างแบบจำลอง (เช่นเกณฑ์การเริ่มต้นช่องสัญญาณ) "ดีที่สุด" มักจะเข้าใจในความหมายของ "เชิงเส้นส่วนใหญ่" หรือ "การสร้างค่าคงที่ [homoscedastic] ตกค้าง" ในแบบจำลองการถดถอย


ขอบคุณสำหรับการวิเคราะห์อย่างละเอียด! ฉันจะต้องไตร่ตรองเรื่องนี้สักหน่อย
Jay Guarneri

1

ฉันใช้วิธีเชิงประจักษ์เพื่อค้นหาคำตอบเพิ่มเติมสำหรับคำตอบเชิงทฤษฎีที่ยอดเยี่ยมโดย whuber ฉันตัดสินใจที่จะคำนวณความลาดชันในองศาและค่าเฉลี่ยที่ใช้เฉลี่ยเชิงมุม ต่อไปฉันคำนวณค่าเลขคณิตและค่าฮาร์มอนิกของค่าความชันเปอร์เซนต์ที่ฉันสร้างกลุ่มตัวอย่างที่อยู่ในพื้นที่ศึกษา ฉันขอ 2,000 คะแนนด้วยระยะทางขั้นต่ำ 100 เมตรซึ่งให้ผล 1326 คะแนน Degrees = atan(percent/100)ผมชิมค่าของแต่ละแรสเตอร์ลาดชันเฉลี่ยในแต่ละจุดและเปลี่ยนเปอร์เซ็นต์หมายถึงองศาโดยใช้สูตรที่ สมมติฐานของฉันที่นี่คือค่าเฉลี่ยเชิงมุมจะสร้างความชัน "ถูกต้อง" ในหน่วยองศาและค่าเฉลี่ยเปอร์เซ็นต์ที่เข้ามาใกล้นั้นจะเป็นขั้นตอนที่ถูกต้อง

ถัดไปฉันเปรียบเทียบค่าที่ไม่เป็นศูนย์ทั้งหมดโดยใช้การทดสอบ Kruskal-Wallace (สมมติฐานที่ว่าค่าความชันศูนย์ส่วนใหญ่จะเป็นศูนย์ในทั้งสามและค่าศูนย์จะปกปิดความแตกต่างระหว่างวิธีการ) ผมพบความแตกต่างอย่างมีนัยสำคัญระหว่างสาม (Chi-square = 17.9570, DF = 2, p = 0.0001) ดังนั้นฉันต่อการตรวจสอบข้อมูลโดยใช้ขั้นตอนของดันน์โดยใช้อัลฟา = 0.05 (เอลเลียตและ Hynan 2011) ผลลัพธ์ที่ได้คือค่าเลขคณิตและค่าเฉลี่ยฮาร์มอนิกมีความแตกต่างกันอย่างมีนัยสำคัญ แต่เพื่อนบ้านก็มีความแตกต่างอย่างมีนัยสำคัญจากค่าเฉลี่ยเชิงมุม:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

หากสมมติฐานของฉันถูกต้องทั้งหมด (พวกเขาอาจจะไม่ดี) นี่หมายความว่าในขณะที่ฮาร์มอนิกและเลขคณิตหมายถึงการสร้างค่าที่แตกต่างจากกันและกันพวกเขาทั้งคู่ "ใกล้ engough" กับค่าเฉลี่ยเชิงมุมเป็นที่ยอมรับ มีข้อแม้อื่นอีกสองข้อที่ฉันสามารถนึกถึงได้ (โปรดเพิ่มคนอื่นถ้าคุณคิดถึงมัน):

  1. ขนาดตัวอย่างที่ใหญ่กว่าอาจพบความแตกต่างอย่างมีนัยสำคัญระหว่างค่าเฉลี่ยเปอร์เซ็นและค่าเฉลี่ยเชิงมุม อย่างไรก็ตามขนาดตัวอย่างของฉันคือ ~ 1,000 คะแนนสำหรับค่าที่ไม่ใช่ศูนย์
  2. เนื่องจากจุดตัวอย่างของฉันเกิดขึ้นโดยไม่คำนึงถึงแอ่งระบายน้ำอาจมีการจำลองแบบที่เกี่ยวข้องเนื่องจากความลาดชันเฉลี่ยจะเกี่ยวข้องกับความลาดชันเฉลี่ยเหนือ

1
สิ่งนี้น่าสนใจ (+1) แต่ระวังข้อ จำกัด (1) ใช่ถ้าคุณเลือกตัวอย่างขนาดใหญ่ขึ้นคุณจะพบว่าความแตกต่างมีความสำคัญ ดังนั้นจึงไม่มีเหตุผลที่จะทำการทดสอบสมมติฐานทางสถิติ: คุณต้องการมุ่งเน้นไปที่ปริมาณของความแตกต่างระหว่างกระบวนการ (2) ผลลัพธ์ของคุณขึ้นอยู่กับคุณสมบัติที่แท้จริงของข้อมูลของคุณ พวกเขาจะแตกต่างกันกับชุดข้อมูลอื่น ๆ (3) ค่าเฉลี่ยเชิงมุมมีประโยชน์เป็นข้อมูลอ้างอิง แต่ไม่ได้เป็นค่าที่ต้องการ สิ่งที่จะใช้เป็นข้อมูลอ้างอิงนั้นขึ้นอยู่กับว่าจะใช้ค่าเฉลี่ยในการวิเคราะห์หรือการทำแผนที่เพิ่มเติมอย่างไร
whuber

0

จากการสันนิษฐานว่าไม่มีพารามิเตอร์ที่กำหนดความลาดชันเป็นที่รู้จักกันนักสถิติใด ๆ จะพูดว่าใช้ความชันที่ลดการเบี่ยงเบน RMS ของข้อมูลจากมัน (แน่นอนตัวอย่างของคนผิวขาวไม่ผ่านการคัดเลือกเนื่องจากเขาได้เลือกรูปแบบทางคณิตศาสตร์ที่สร้างขึ้นทางคณิตศาสตร์ แต่สำหรับรูปแบบจริงสมมติฐานที่ไม่รู้จักพารามิเตอร์ควรถูกต้อง)


คำตอบนี้ได้รับการชื่นชม แต่ฉันคิดว่ามันผิดสถานการณ์ สิ่งสำคัญที่สุดคือความลาดเอียงเหล่านี้ไม่ได้ใช้เพื่อให้พอดีกับส่วนโค้ง: แนวคิดของ "การเบี่ยงเบน RMS ของข้อมูล" ไม่สามารถใช้ได้ ประการที่สองฉันได้เลือกประเภทของลักษณะภูมิประเทศเชิงคุณภาพเพื่อครอบคลุมช่วงกว้างของสิ่งที่จะเกิดขึ้นจริงดังนั้นฉันจึงให้ข้อมูลที่เป็นประโยชน์เกี่ยวกับสิ่งที่คาดหวัง ชุดข้อมูลจริงไม่ได้มีส่วนช่วยอะไรมากนักในการทำความเข้าใจว่าเกิดอะไรขึ้นที่นี่เพราะไม่มีสิ่งใดที่เป็นความลาดชันเฉลี่ยที่แท้จริง คำถามหลักคือสิ่งที่ค่าเฉลี่ยจะเป็นประโยชน์หรือให้ข้อมูล
whuber

1
BTW ฉันเชื่อว่าฉันมีคุณสมบัติบางอย่างในฐานะนักสถิติ ซึ่งไม่ได้ทำให้ความเห็นของฉันเกี่ยวกับเรื่องนี้ดีขึ้นหรือแย่ลง: เช่นเดียวกับคนอื่นฉันต้องสำรองข้อมูลให้ชัดเจนและเป็นกลางเท่าที่ฉันสามารถทำได้และฉันค่อนข้างอ่อนไหวต่อความผิดและต้องเปลี่ยนใจ: - ) ฉันเพิ่งเสนอประเด็นนี้เพื่อตอบโต้ข้อสังเกต "นักสถิติใด ๆ " ของคุณ
whuber

คำถามของสิ่งที่เหมาะสมมีประโยชน์ฉันส่งขึ้นอยู่กับสิ่งที่ลาดจะใช้สำหรับ สำหรับศักยภาพของการตกต่ำของดินตัวอย่างเช่นทางลาดชันจะมีน้ำหนักที่สูงกว่าเมื่อเทียบกับความลาดชันที่ไม่รุนแรงตามแบบจำลองของการทรุดตัวเทียบกับแบบลาดชันดังนั้นวิธี RMS fit ที่เหมาะสมควรจะถูกต้อง รุ่นน้ำหนักอื่น ๆ จะถูกนำมาใช้ให้ตรงกับการใช้งานอื่น ๆ กล่าวโดยย่อคือทำตัวแบบทุกสิ่งที่เรารู้ด้วยการถ่วงน้ำหนักหรือวิธีการอื่น ๆ จากนั้นพึ่งพา RMS เป็นแบบจำลองสำหรับทุกสิ่งที่เราทำไม่ได้คือสิ่งที่ฉันแนะนำ
johnsankey

ฉันเห็นด้วยกับหลักฐานของความคิดเห็นนั้นจอห์น แต่ฉันไม่เห็นว่าข้อสรุปของคุณเป็นอย่างไร หากทางลาดชันต้องรับน้ำหนักที่หนักกว่านั้นดูเหมือนว่า RMS เป็นเพียงสิ่งที่คุณไม่ต้องการทำเพราะมันให้น้ำหนักส่วนเบี่ยงเบนทั้งหมดเท่า ๆ กันโดยไม่คำนึงถึงความชัน ยิ่งไปกว่านั้น RMS ซึ่งเป็นฟังก์ชั่นการสูญเสียกำลังสองไม่สามารถทดแทนสากลสำหรับสิ่งที่เทคนิคอื่น ๆ สามารถทำได้รวมถึงการแสดงออกที่ไม่เชิงเส้นของความลาดชันและการใช้ฟังก์ชั่นการสูญเสียทางเลือกอื่น ๆ
whuber

RMS รวมน้ำหนัก
johnsankey
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.