ทำอย่างไรกับ [สุภาพ?] บอกผู้จำหน่ายซอฟต์แวร์ว่าไม่รู้ว่ากำลังพูดถึงอะไร


62

ไม่ใช่คำถามทางเทคนิค แต่เป็นคำถามที่ถูกต้อง สถานการณ์:

HP ProLiant DL380 Gen 8 พร้อมซีพียู Xeon E5-2667 2 x 8 คอร์และ RAM 256GB ที่รัน ESXi 5.5 VMs แปดตัวสำหรับระบบของผู้ขายที่ระบุ สี่ VMs สำหรับทดสอบสี่ VMs สำหรับการผลิต เซิร์ฟเวอร์ทั้งสี่ในแต่ละสภาพแวดล้อมทำหน้าที่ต่างกันเช่นเว็บเซิร์ฟเวอร์เซิร์ฟเวอร์แอพหลักเซิร์ฟเวอร์ OLAP DB และเซิร์ฟเวอร์ SQL DB

การแชร์ซีพียูถูกกำหนดค่าเพื่อหยุดสภาพแวดล้อมการทดสอบจากการกระทบการผลิต ที่เก็บข้อมูลทั้งหมดบน SAN

เรามีข้อซักถามเกี่ยวกับประสิทธิภาพและผู้ขายยืนยันว่าเราต้องการให้ระบบการผลิตมีหน่วยความจำและ vCPU มากขึ้น อย่างไรก็ตามเราสามารถเห็นได้อย่างชัดเจนจาก vCenter ว่าการจัดสรรที่มีอยู่ไม่ได้ถูกแตะต้องเช่น: มุมมองรายเดือนของการใช้ CPU ในแอพพลิเคชันเซิร์ฟเวอร์หลักวนเวียนอยู่ประมาณ 8% โดยมีการเพิ่มขึ้นถึง 30% เดือยมีแนวโน้มที่จะตรงกับซอฟต์แวร์สำรองที่เตะเข้ามา

เรื่องที่คล้ายกันบน RAM - ตัวเลขการใช้ประโยชน์สูงสุดทั่วเซิร์ฟเวอร์คือ ~ 35%

ดังนั้นเราจึงทำการขุดโดยใช้การตรวจสอบกระบวนการ (Microsoft SysInternals) และ Wireshark และคำแนะนำของเราต่อผู้ขายคือพวกเขาทำการปรับ TNS ในครั้งแรก อย่างไรก็ตามนี่คือนอกเหนือจากจุด

คำถามของฉันคือเราจะให้พวกเขารับรู้ได้อย่างไรว่าสถิติของ VMware ที่เราส่งไปนั้นเป็นหลักฐานเพียงพอที่ RAM / vCPU จำนวนมากจะไม่ช่วย

--- ปรับปรุง 12/07/2014 ---

สัปดาห์ที่น่าสนใจ ฝ่ายบริหารไอทีของเราบอกว่าเราควรทำการเปลี่ยนแปลงการจัดสรร VM และตอนนี้เรากำลังรอการหยุดทำงานจากผู้ใช้ทางธุรกิจ น่าแปลกที่ผู้ใช้ทางธุรกิจเป็นคนที่บอกว่าบางแง่มุมของแอปทำงานช้า (เทียบกับสิ่งที่ฉันไม่รู้) แต่พวกเขากำลังจะ "แจ้งให้เราทราบ" เมื่อเราสามารถทำให้ระบบล่มได้ (บ่น , บ่น!)

นอกจากนี้ความกว้างของระบบ "ช้า" ไม่ได้เป็นองค์ประกอบ HTTP (S) เช่น: "แอพแบบบาง" ที่ผู้ใช้ส่วนใหญ่ใช้ ดูเหมือนว่าเป็น "ลูกค้าอ้วน" ติดตั้งซึ่งใช้โดยกลุ่มการเงินหลักซึ่งดูเหมือนจะ "ช้า" ซึ่งหมายความว่าขณะนี้เรากำลังพิจารณาลูกค้าและการโต้ตอบระหว่างไคลเอ็นต์กับเซิร์ฟเวอร์ในการตรวจสอบของเรา

เนื่องจากวัตถุประสงค์เริ่มแรกของคำถามคือการขอความช่วยเหลือว่าจะลงเส้นทาง "กระตุ้น" หรือเพียงแค่ทำการเปลี่ยนแปลงและตอนนี้เรากำลังทำการเปลี่ยนแปลงฉันจะปิดมันโดยใช้คำตอบของlongneck

ขอบคุณทุกท่านที่ให้การสนับสนุน ตามปกติแล้ว serverfault เป็นมากกว่าฟอรัม - มันเหมือนกับโซฟาของนักจิตวิทยาเช่นกัน :-)



5
สิ่งนี้ยังคงเป็น LART ที่ฉันต้องการ: laughingsquid.com/cat-5-o-nine-tails-ethernet-cable-whipสำหรับการวินิจฉัยเครือข่าย ซื่อสัตย์
Sobrique

17
คุณสนใจที่จะตรวจสอบประสิทธิภาพการจัดเก็บแล้วหรือยัง? การขอ CPU / RAM เพิ่มเติมอาจเป็นการตอบสนองของคนธรรมดาต่อประสิทธิภาพที่ไม่ดีซึ่งอาจเกิดจากความลึกของคิวดิสก์ที่สูง ดูเหมือนว่ามาก folks ลืมเกี่ยวกับการจัดเก็บข้อมูล SQL ปฏิบัติที่ดีที่สุดเมื่อเข้ามาในระบบเสมือนจริง.
Ashigore

7
บ่น ถูกต้องแล้วตำหนิที่เก็บ! แต่ยิ่งจริงจัง - มันเป็นจุดที่ดี หากมีปัญหาและ RAM / CPU ไม่ได้ช่วยอาจเป็น IO โดยเฉพาะอย่างยิ่งถ้าเรากำลังพูดถึง VMWare เพราะมันไม่ใช่เรื่องแปลกสำหรับ ... ดีด้านประสิทธิภาพการจัดเก็บของระบบที่จะถูกละเว้นเกือบทั้งหมด - ในขณะที่ลืมว่าคุณได้รับคอขวดขนาดใหญ่ถ้าคุณป้อน VMs จำนวนมากในจำนวน จำกัด จำนวน HBAs
Sobrique

6
HP เป็นผู้จำหน่ายของคุณในกรณีนี้หรือไม่? เพราะฉันทำงานที่นั่น ฉันยืนยันได้ว่าเราไม่สนใจ
Christopher Wirt

คำตอบ:


94

ฉันขอแนะนำให้คุณทำการปรับเปลี่ยนตามที่พวกเขาร้องขอ จากนั้นเปรียบเทียบประสิทธิภาพเพื่อแสดงให้พวกเขาเห็นว่ามันไม่ได้สร้างความแตกต่าง คุณยังสามารถไปเปรียบเทียบกับหน่วยความจำ LESS และ vCPU เพื่อสร้างจุดของคุณ

นอกจากนี้ "เราจ่ายให้คุณเพื่อสนับสนุนซอฟต์แวร์ด้วยโซลูชันที่แท้จริงไม่ใช่การคาดเดา"


10
... คำพูดที่ฉลาด ฉันคิดว่านี่อาจเป็นหนทางข้างหน้าเท่าที่จะทำให้เราเจ็บปวดในการเปลี่ยนแปลง สิ่งที่ดี (?) คือการเปลี่ยนแปลงจะต้องมีการรีบู๊ตและเราสามารถบอกผู้ใช้ทางธุรกิจของเราได้ว่าเป็นเพราะคำขอของผู้ขาย ... ซึ่งจะพิสูจน์ได้ว่าไม่มีจุดหมาย ฟังดูเหมือนว่าฉันได้รับส่วนย่อย แต่เราเริ่มเบื่อกับการขาดการแก้ไขปัญหาที่เหมาะสม
Simon Catlin

6
มันไม่ใช่เรื่องแปลกสำหรับผู้ค้าที่จะแสดงความสามารถแบบนี้ ฉันคิดว่าส่วนหนึ่งเป็นไปตามการวัดระดับการบริการ - ปิดการร้องขอข้อมูลเพิ่มเติมและแนะนำวิธีแก้ปัญหา (ไม่มีจุดหมาย) เพราะอย่างน้อยในบางครั้งปัญหาจะหายไป / ได้รับการแก้ไขในระหว่างนี้ หากคุณ 'ดึง' กับผู้ขายการแชทกับผู้จัดการบัญชีอาจทำการหลอกลวง แต่อย่ากลั้นหายใจ
Sobrique

1
มีสถานการณ์ที่คล้ายกันหนึ่งครั้งกับเซิร์ฟเวอร์ SQL สำหรับ SCCM (system center mgr config) 4 CPU 30% util avg คอนโซลช้าชะมัด กระแทกกับ CPU 8 ตัวยังคงใช้งานอยู่ 30% ในที่สุดคอนโซลก็ตอบสนองตามปกติ
Clayton

2
ข้อเสนอแนะที่ยอดเยี่ยม ไม่มีอะไรที่เหมือนกับการปิดข้อมูลของผู้คน "เราจะทำการเปลี่ยนแปลงตามที่คุณแนะนำถ้ามันไม่ได้เป็นการปรับปรุงที่คาดการณ์ไว้ ไม่แน่ใจว่าระบบนี้ได้รับผลกระทบมากน้อยเพียงใด แต่เวลาของคุณพิสูจน์ว่าผิดพวกเขาอย่างรวดเร็วจะมีราคาแพงกว่าการเสียบ RAM เสริมบางตัว
Floris

67

ให้คุณมั่นใจว่าคุณอยู่ในสเป็คของระบบที่ระบุ

จากนั้นการอ้างสิทธิ์ใด ๆ ที่พวกเขากำลังทำเกี่ยวกับการต้องการ RAM หรือ CPU เพิ่มเติมพวกเขาควรจะสามารถสำรองข้อมูลได้ ในฐานะที่เป็นผู้เชี่ยวชาญในระบบของพวกเขาฉันถือคนเพื่อบัญชีเกี่ยวกับเรื่องนี้

ถามพวกเขาเฉพาะ

  • ข้อมูลใดที่ให้ไว้ในระบบระบุว่าจำเป็นต้องใช้ RAM มากกว่าและคุณตีความได้อย่างไร

  • ข้อมูลใดที่ให้ไว้ในระบบระบุว่าจำเป็นต้องใช้ CPU มากขึ้นและคุณตีความได้อย่างไร

  • ข้อมูลที่ฉันมี - ในครั้งแรก - ขัดแย้งกับสิ่งที่คุณบอกฉัน คุณช่วยอธิบายให้ฉันฟังหน่อยได้ไหมว่าทำไมฉันถึงตีความไม่ถูกต้อง?

  • ฉันกำลังตีความ [ชุดข้อมูลที่ชัดเจน] นี้เพื่อหมายถึง [การตีความที่ชัดเจน] คุณยืนยันได้หรือไม่ว่าฉันกำลังตีความอย่างถูกต้องเกี่ยวกับปัญหาของฉัน

เมื่อจัดการกับการสนับสนุนในอดีตฉันได้ถามคำถามเดียวกัน บางครั้งฉันพูดถูกและพวกเขาไม่ได้มุ่งความสนใจไปที่ปัญหาของฉันอย่างถูกต้อง อย่างไรก็ตามในบางครั้งฉันผิดและฉันแปลข้อมูลไม่ถูกต้องหรือไม่สามารถรวมข้อมูลอื่นที่มีความสำคัญในการวิเคราะห์ของฉัน

ไม่ว่าในกรณีใดสถานการณ์ทั้งสองนี้เป็นประโยชน์สุทธิสำหรับฉันไม่ว่าฉันจะเรียนรู้สิ่งใหม่ที่ฉันไม่เคยรู้มาก่อนหรือฉันมีทีมสนับสนุนของพวกเขาคิดหนักขึ้นเกี่ยวกับปัญหาของฉันเพื่อหาสาเหตุที่เหมาะสม

หากทีมสนับสนุนไม่สามารถให้เหตุผลเพิ่มเติมเกี่ยวกับการโต้แย้งของพวกเขาไปยังพื้นฐานที่คุณพึงพอใจ (คุณต้องมีใจที่เปิดกว้างในการประนีประนอมตัวเองมีเหตุผลที่จะยอมรับการตีความข้อมูลของคุณผิด) ควรเป็นปัจจุบันในการตอบสนองของพวกเขา แม้ในสถานการณ์กรณีที่เลวร้ายที่สุดคุณสามารถใช้สิ่งนี้เป็นพื้นฐานสำหรับการเพิ่มปัญหา


10
+1 สำหรับการรับรู้ว่าข้อผิดพลาดของมนุษย์สามารถไปได้สองวิธี (และให้การสนับสนุนดิ้นเล็กน้อยเมื่อพวกเขาได้พยายามที่จะ "โกง")
จักรวาล Ossifrage

17

สิ่งสำคัญคือสามารถพิสูจน์ได้ว่าคุณกำลังใช้แนวทางปฏิบัติที่ดีที่สุดสำหรับการจัดสรรระบบโดยเฉพาะการจอง RAM และ CPU สำหรับเซิร์ฟเวอร์ SQL ของคุณ

ทั้งหมดนี้ถูกกล่าวว่าสิ่งที่ง่ายที่สุดคือการทำการปรับเปลี่ยนที่ร้องขออย่างน้อยก็ชั่วคราว หากไม่มีสิ่งใดที่จะทำให้ผู้ขายลากเท้า ฉันไม่สามารถนับจำนวนครั้งที่ฉันต้องทำอะไรบ้า ๆ แบบนี้เพื่อสร้างความพึงพอใจให้กับเทคโนโลยีในปลายอีกด้านหนึ่งว่าซอฟต์แวร์ของพวกเขาไม่ทำงาน


17

สำหรับสถานการณ์เฉพาะนี้ (ที่คุณมี VMware และผู้พัฒนาแอพพลิเคชั่นหรือบุคคลที่สามที่ไม่เข้าใจการจัดสรรทรัพยากร) ฉันใช้เมทริกซ์มูลค่าหนึ่งสัปดาห์ที่ได้รับจากvCenter Operations Manager (vCops - ดาวน์โหลดตัวอย่างถ้าจำเป็น ) เพื่อระบุข้อ จำกัด ที่แท้จริง คอขวดและข้อกำหนดการปรับขนาดของ VM ของแอปพลิเคชัน

บางครั้งฉันสามารถสร้างความพึงพอใจให้กับผู้บริโภคที่ดื้อรั้นมากขึ้นด้วยการแก้ไขการจอง VM หรือเปลี่ยนลำดับความสำคัญเพื่อจัดการสถานการณ์การโต้แย้ง " ถ้า RAM | CPU แน่นVM ของคุณจะมีความสำคัญกว่า! " สิ่งที่ไม่ดีไม่ดีจะเกิดขึ้นเมื่อฉันได้รับอนุญาตให้ผู้ผลิตซอฟต์แวร์เพื่อกำหนดความต้องการของพวกเขาในกลุ่ม vSphere ของฉันโดยไม่วิเคราะห์จริง

แต่โดยทั่วไปตัวเลขและข้อมูลควรชนะ


ตัวอย่างของสิ่งที่ฉันใช้เพื่อปรับขนาด VM ให้กับผู้พัฒนาแอปพลิเคชัน Tomcat:

Dev : VM ต้องการซีพียู MOAR!

ฉัน : ความทรงจำเป็นข้อ จำกัด ที่ยิ่งใหญ่ที่สุดของคุณและนี่คือแผนที่ความร้อนของการแสดงของคุณเทียบกับเวลา ... วันพุธเวลา 18.00 น. เป็นช่วงเวลาที่เครียดที่สุดดังนั้นเราจึงสามารถระบุช่วงเวลาเร่งด่วนที่สุด โอ้และนี่คือคำแนะนำการปรับขนาดตามเกณฑ์การผลิต 6 สัปดาห์ที่ผ่านมา ...

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่


9
ฉันควรเพิ่มการวิเคราะห์ตามค่าเฉลี่ยอาจนำไปสู่ผลลัพธ์ที่ไม่ถูกต้อง มีเงื่อนไขที่ประสิทธิภาพการทำงานสูงสุดเป็นสิ่งสำคัญ แต่คุณไม่เห็นจุดสูงสุดในสถิติการโหลดเมื่อสั้นกว่าช่วงเวลาการรวบรวม / ค่าเฉลี่ยของคุณ ดังนั้นคุณอาจมีสีสัน "การใช้งานโดยรวมของคุณคือกราฟสถิติต่ำกว่า 60% แต่ดูการลดลงของประสิทธิภาพอย่างรุนแรงในจุดสูงสุด 1 นาทีที่เกิดขึ้น 8 ครั้งต่อชั่วโมงในเวลาเดียวกัน
the-wabbit

บางทีฉันอาจเข้าใจผิดไปหมด แต่นี่ไม่ใช่สิ่งที่ตรงกันข้ามกับที่ OP ถามใช่หรือไม่ ฉันคิดว่าพวกเขาคือนักพัฒนาที่รู้ว่าพวกเขาไม่ต้องการซีพียูมากขึ้นซึ่งผู้ขายพยายามขายพวกเขา - ดูเหมือนว่าคุณจะอธิบายถึงสิ่งที่ตรงกันข้าม
Benubird

1
ฉันใช้ตัวอย่างที่สะดวก ฉันใช้แนวทางเดียวกันกับผู้ขายที่มีข้อกำหนดที่เข้มงวด (4 vCPU และ 16GB RAM) รวมถึงการระบุระบบที่จำเป็นต้องใช้ทรัพยากร ในแง่ของการตรวจสอบเมล็ดคุณสามารถกลับไปที่สถิติโฮสต์ระดับที่จะจัดการกับยอด ...
ewwhite

ขอบคุณสำหรับสิ่งนี้. เราไม่มี vCops แต่ตอนนี้ฉันคิดว่า vSphere "อสังหาริมทรัพย์" ของเราครบกำหนดพอที่จะกำหนดรายละเอียดในระดับนี้แล้ว ฉันจะเพิ่มสิ่งนี้ลงในรายการสินค้าที่ต้องการของ Capex สำหรับปีหน้า
Simon Catlin

2
@ SimonCatlin คุณไม่จำเป็นต้องซื้อ คุณสามารถดาวน์โหลดตัวอย่างฟรีและใช้งานได้ 60 วัน มันเหมาะสำหรับสถานการณ์ประเภทนี้
ewwhite

10

ฉันเคยทำงานเพื่อสนับสนุน - และเป็นส่วนหนึ่งของสิ่งที่คุณขอให้ฟังดูมีเหตุผลอย่างมาก (และอาจเป็น): แต่มีคำถามสองสามข้อที่ถามตัวเองก่อนทำเพียงแค่ "ปรับปรุงประสิทธิภาพ" พวกเขากำลังร้องขอ

  • คุณทำงานอย่างน้อยตามข้อกำหนดขั้นต่ำของระบบที่ผู้ขายระบุไว้หรือไม่?
  • หากคุณอย่างน้อย sysreqs อย่างน้อยคุณได้ตั้งค่าระบบ "แนะนำ" ไว้แล้วหรือยัง

ผู้ขายจะ 99 เท่าจาก 100 (ในประสบการณ์ของฉัน - ทั้งในด้านการสนับสนุนและด้านลูกค้า / ฟิลด์) ไม่ได้จัดการกับปัญหาที่เกี่ยวข้องกับประสิทธิภาพจนกว่า / เว้นแต่ระบบจะตรงกับสิ่งที่เรียกเอกสารของพวกเขา อาจเป็นระบบที่ทำงานได้ดี 99.5% ของเวลาด้วย 1 CPU และ 512M RAM - แต่ถ้าความต้องการของระบบบอกว่า 4 CPU และ 4G RAM และคุณมี 2 CPU และ 1G RAM เท่านั้นพวกเขาก็มีสิทธิ์ที่จะ ความต้องการทรัพยากรมากขึ้นจะได้รับมอบหมาย*

อาจเป็นไปได้ว่าพวกเขาขอให้คุณเพิ่มทรัพยากรระบบเพราะสิ่งที่พวกเขาพบในห้องปฏิบัติการ / การพัฒนานั้นปัญหาจะหายไปอย่างน่าอัศจรรย์หากคุณข้ามเกณฑ์ที่เฉพาะเจาะจง ถ้าเป็นกรณีนี้ใช่มันเป็นตัวอย่างของการแก้ไขข้อบกพร่องที่อาจเกิดขึ้นยากจนที่สิ้นสุดของพวกเขา แต่เก็บไว้ในใจที่พวกเขาไม่ได้มีเวลาที่จะกำจัดทุกข้อผิดพลาดที่เป็นไปได้ / ปัญหาที่เกิดขึ้น - บางเพียงจะต้องมีการทำงานรอบและถ้า เป็นกรณีที่นี่เพียงไปกับมัน

นอกจากนี้ยังมีโอกาสที่ไม่มีนัยสำคัญที่ปัญหาที่คุณเห็นไม่ได้เป็นส่วนหนึ่งของซอฟต์แวร์ "ของพวกเขา" แต่ส่วนประกอบที่พวกเขาพึ่งพาจากแหล่งอื่น ๆ (ผู้จำหน่าย, ไลบรารี OSS, ฯลฯ ) ฉันพบกับสถานการณ์ที่แน่นอนเกี่ยวกับการแลกเปลี่ยนขนาด BEA WebLogic และSun JREที่ลูกค้าเมื่อไม่กี่ปีที่ผ่านมา

TL; DR:

ในระยะสั้นทำงานร่วมกับทีมสนับสนุนของพวกเขาเพิ่มขึ้นตามความจำเป็นจนกว่าคุณจะพบความละเอียด - แต่ไม่ต้องแปลกใจเมื่อคำแนะนำ / ขั้นตอนการแก้จุดบกพร่องบางอย่าง / แก้ไขเสียงออกจากผนังหรือไม่มีจุดหมาย


* ถ้ามันอย่างแท้จริงไม่ได้ "ต้อง" ทรัพยากรพิเศษเหล่านั้น, คุณจะอยู่ในสถานที่ที่จะสามารถที่จะยื่นเอกสารข้อผิดพลาด / RFE สำหรับรุ่นอนาคต - แต่ไม่ได้ผลักดันเส้นทางจนกว่าคุณจะได้แสดงให้เห็นว่ามันไม่ได้เป็น ปัญหาในมือ
^ eBook ที่ฉันเขียนคุณอาจพบว่ามีประโยชน์ในหัวข้อ: การดีบักและสนับสนุนระบบซอฟต์แวร์


2
ประสิทธิภาพการทำงานใด ๆ ที่เกี่ยวข้องต้องใช้เวลาและทรัพยากรในการแก้ไขและวินิจฉัย ท้ายที่สุดไม่มีอะไรที่แตกสลายดังนั้นคุณต้องติดตามผ่านความเจ็บปวด
Sobrique

1
@Sobrique อย่างแน่นอน - และพวกเขามักจะอยู่ในกลุ่มผลิตภัณฑ์ที่เกี่ยวข้องกับระยะไกล (ไม่เกี่ยวข้องกันอย่างเห็นได้ชัด)
วอร์เรน

นั่นเป็นจุดที่ดีขั้นตอนการแก้ไขข้อบกพร่องจำนวนมากสามารถตอบโต้ได้ง่ายมากถึงแม้ว่าฉันไม่คิดว่ามันจะไม่มีเหตุผลที่จะยืนยันว่าพวกเขาให้เหตุผลในการทำเช่นนั้น หากพวกเขาไม่สามารถพูดได้ว่าการทำสิ่งที่เป็นประโยชน์จะให้ (แม้ว่าจะเป็นเพียง "เพื่อดูว่ามันมีผลต่อ X") จากนั้นพวกเขากำลังทำงานผ่านรายการตรวจสอบที่พวกเขาไม่เข้าใจหรือพวกเขาไม่มีความคิดและกำลังทำ การคาดเดาป่าหรือพวกเขาซ่อนอะไรบางอย่าง - ไม่มีสิ่งใดที่ให้การสนับสนุนได้มากนัก
Benubird

@Benubird - น่าเศร้าที่บางสิ่งเหล่านี้ลงมาเพื่อสัญชาตญาณของลำไส้หรือ "มันทำให้มันคงอยู่ที่อื่น ... " :(
warren

2
"มันแก้ไขที่อื่น" เป็นเหตุผลที่น่ากลัวที่จะทำอะไรบางอย่าง จริงบางครั้งไม่มีเวลาที่จะแก้ไขปัญหาอย่างถูกต้องและคุณต้องไปตามสัญชาตญาณของลำไส้ แต่ความคิดของมันยังทำให้ฉันสั่น ฉันได้เห็นข้อบกพร่องมากมายที่ "ปรากฏ" ได้รับการแก้ไขโดยการทำ X เพียงเพื่อค้นพบในภายหลังว่าปัญหานั้นเกิดขึ้นจริงในบางสิ่งที่ดูเหมือนไม่เกี่ยวข้องโดยสิ้นเชิง
Benubird

8

ขอให้เพิ่มตั๋วหรือขอตัวแทนที่แตกต่างกัน การยกระดับอาจช่วยได้ถ้าคุณบอกว่าคุณรู้สึกว่าระดับการสนับสนุนในปัจจุบันไม่เพียงพอที่จะแก้ไขปัญหา หากพวกเขาจะไม่บานปลายดังนั้นการขอตัวแทนที่แตกต่างกันอาจช่วยได้เพราะนั่นต้องใช้ "การพิสูจน์" น้อยลงเพราะสิ่งที่ต้องการคือการไม่พอใจกับสิ่งที่เกิดขึ้นในปัจจุบัน

หากเป็นผู้จำหน่ายรายใหญ่ให้ปิดตั๋วแล้วเปิดใหม่ในปัญหาเดียวกันอาจใช้งานได้เนื่องจากอาจถูกส่งไปยังตัวแทนอื่น แต่ฉันขอแนะนำเพราะมันเป็นรูปแบบที่ไม่ดี

คุณสามารถยืนหยัดและขอเหตุผลว่า RAM / vCPU จะช่วยได้มากขึ้นหรือคุณสามารถให้ RAM / vCPU มากขึ้นเพื่อพิสูจน์ว่ามันไม่ได้ช่วยอะไร


4

ฉันจะโยนสองเซ็นต์ของฉัน เราประสบความสำเร็จในการใช้วิธีการนี้ - ผลลัพธ์ที่ดีกว่าและความยุ่งยากน้อยลงในทุกคน มันต้องใช้ความพยายามมากกว่าเกมตำหนิและเพิ่มทรัพยากรแบบสุ่มสี่สุ่มห้า แต่ก็มีโอกาสที่ดีกว่าในการค้นหาปัญหาพื้นฐาน

เมื่อเรามีปัญหาร้ายแรงเกี่ยวกับแอพในสถานที่ของเราซึ่งได้รับการสนับสนุนโดยสัญญาการสนับสนุนผู้ขายและผู้จำหน่ายเริ่มหลบการเต้นแบบหลบเลี่ยง (ซึ่งมักจะรวมถึงความต้องการที่ไม่ใช่ข้อมูลที่ขับเคลื่อนด้วยภาษาสำหรับ CPU หรือ RAM เพิ่มเติม) ทำสิ่งเหล่านี้ 3:

  1. ยกระดับความสำคัญของการเทียบเท่าระบบลง - พวกเขามักจะหยุดชะงัก แต่มักจะกลับลงมาเมื่อคุณอธิบายว่ามันใช้ไม่ได้อย่างมีประสิทธิภาพแม้ว่ามันจะ "ทำงาน" ในทางเทคนิค ถือว่าเป็นปัญหาร้ายแรงสำหรับพวกเขาในการแก้ไข รอบ ๆ ที่นี่เราอ้างถึงว่าเป็นทีมเสือซึ่งจะพบกันทุกวันเพื่อรับการอัพเดทสถานะจากผู้มีส่วนได้ส่วนเสียทั้งหมด โดยปกติผู้ขายจะขอให้คุณเปลี่ยนสิ่งต่าง ๆ หากเป็นระบบที่แย้ง แต่เป็นปัญหา แต่ถ้าคุณต้องการให้พวกเขาช่วยเหลือคุณจะต้องยอมรับความรับผิดชอบที่จะช่วยพวกเขาแยกปัญหาดังนั้นมันจะช่วยได้ถ้าคุณมีสภาพแวดล้อม dev / การจัดเตรียมที่คุณสามารถทำการทดสอบได้

  2. บอกผู้ขายว่าคุณต้องการให้พวกเขาทำซ้ำสภาพแวดล้อมของคุณเพื่อให้พวกเขาสามารถแยกปัญหาในห้องปฏิบัติการของพวกเขา พวกเขายังสามารถโฮสต์สิ่งต่าง ๆ ในสภาพแวดล้อมคลาวด์บางอย่างถ้าจำเป็น มันไม่จำเป็นต้องตรงกับสภาพแวดล้อมของคุณแม้ว่ามันจะเหมาะ ประเด็นก็คือคุณต้องการให้ผู้จำหน่ายพยายามทำซ้ำปัญหาของคุณเพื่อให้พวกเขาสามารถทดสอบการคาดเดาในระบบของพวกเขาแทนที่จะเป็นของคุณ ขอให้พวกเขาสำหรับไดอะแกรมสเป็ค ฯลฯ ของสภาพแวดล้อมที่จำลองแบบเพื่อให้แน่ใจว่าพวกเขากำลังทำมัน

  3. จัดเตรียมชุดข้อมูล (ภายใต้ NDA แน่นอน) ให้กับชุดข้อมูลจริงของคุณเพื่อให้สามารถเรียกใช้ / เล่นซ้ำได้จริงแทนที่จะคาดเดา ในกรณีของเราปัญหาแอพที่ผู้ขายจัดทำส่วนใหญ่ (ทั้งชั่วคราวและเรื้อรัง) มักจะกลายเป็นปัญหาเกี่ยวกับฐานข้อมูลที่ผู้ขายจัดเตรียมไว้ให้ ฉันไม่สามารถนับจำนวนครั้งที่เราได้ทำสิ่งนี้และในที่สุดพวกเขาก็ระบุปัญหาไปสู่สิ่งที่ไม่คาดคิดในข้อมูลจริง - สิ่งประดิษฐ์แปลก ๆ จากการอัปเกรดแอปเมื่อ 2 ปีก่อนซึ่งบางสิ่งไม่ได้แปลงอย่างหมดจด บันทึกเก่าที่เปิดเผยปัญหากับการตั้งค่า GC; ข้อความค้นหาไม่ทำงานค่อนข้างถูกต้องเนื่องจากค่าข้อมูลของเราทำลายชุดข้อมูล transmog บางส่วนในรหัสผู้ขาย ฯลฯ สิ่งที่เราไม่สามารถระบุได้ด้วยตัวเอง

เราได้ทำสิ่งนี้กับผู้ขายไม่กี่รายในช่วงไม่กี่ปีที่ผ่านมาและในตอนแรกพวกเขาต่อต้านการทำตามวิธีของเรา อย่างไรก็ตามหลังจากใช้งานได้มันจะปรากฏเป็นไฮไลท์ในเชิงบวกเสมอในการตรวจสอบรายไตรมาสที่เรามีกับผู้ขายของเรา และช่วยประสานความสัมพันธ์ทางเทคนิคของเรากับผู้ขายเหล่านั้น พวกเขาไม่ต้องการปัญหาที่คลุมเครือ พวกเขาต้องการปัญหาเฉพาะที่สามารถวิเคราะห์เพื่อปรับปรุงผลิตภัณฑ์ของตน

หวังว่าคำแนะนำจะช่วยได้ ฉันรู้ว่ามันไม่ใช่วิธีที่เหมาะกับทุกคน แต่ถ้าคุณสามารถแกว่งได้ฉันคิดว่าคุณจะพบว่ามันคุ้มค่า


3

คำถามจริงคือใครรับผิดชอบอยู่ที่นี่ หากคุณไม่สามารถเปลี่ยนเป็นผู้ขายรายอื่นได้แนบเนียนแล้วพวกเขาก็มีพลังและสิ่งที่คุณทำได้คือไปกับสิ่งที่พวกเขาพูดและหวังว่ามันจะได้ผล ไม่ใช่สถานการณ์ที่มีความสุข! มิฉะนั้นฉันขอแนะนำให้คุณถามตัวแทนคนอื่น (ตามที่คนอื่นพูด) แต่ให้ชัดเจนว่าคุณไม่มีความสุขกับบริการและจะดูที่อื่นถ้าพวกเขาไม่สามารถทำงานได้

อย่าเพียง "ทำการปรับเปลี่ยนที่พวกเขาแนะนำ" หากคุณแน่ใจว่าพวกเขาจะไม่ทำงานเนื่องจากเป็นการตั้งค่ารูปแบบสำหรับความสัมพันธ์ของคุณที่จะทำร้ายคุณในระยะยาว คุณจ่ายให้พวกเขาเพื่อให้บริการและพวกเขาไม่สามารถกำหนดการกระทำของคุณได้มากกว่าคนที่ฉันจ้างเพื่อทาสีบ้านของฉันสามารถบอกได้ว่ามันจะเป็นสีอะไร

นี่อาจฟังดูรุนแรงเนื่องจากดูเหมือนว่านี่ไม่ใช่ปัญหาสำคัญอย่างยิ่ง แต่ความจริงก็คือหากพวกเขาทำอะไรคุณเล็ก ๆ น้อย ๆ พวกเขาอาจทำแบบเดียวกันกับเรื่องใหญ่และสิ่งสุดท้ายที่คุณต้องการคือ วิ่งเข้าไปหาสุนัขจิ้งจอก Foxtrot ที่น่ากลัวในสายหกเดือนและมีปัญหาแบบเดียวกันกับผู้ขาย

ตรวจสอบให้แน่ใจว่าขั้นตอนใดที่คุณดำเนินการเพื่อแก้ไขปัญหาในตอนนี้จะทำงานได้ดีอย่างเท่าเทียมกันเมื่อคุณถึงสองวันจากกำหนดเวลาและทุกอย่างจะหยุด ...


4
ฉันคิดว่ามันจะให้กระสุนในการโต้แย้งโต้ - คุณขอให้เราทำสิ่งไร้สาระครั้งสุดท้าย; เราทำตามท่าทางของความปรารถนาดี เวลานี้เราต้องการรายละเอียดเพิ่มเติมเกี่ยวกับเหตุผลของคุณว่าทำไมสิ่งนี้จึงสร้างความแตกต่าง
Sobrique

@Sririque ที่เหมาะสมและมันอาจเป็นไปได้ด้วยวิธีนี้ - ฉันไม่รู้จิตวิทยาพอที่จะพูดไม่ทางใดก็ทางหนึ่ง สัญชาตญาณของฉันคือว่าถ้าคุณทำอะไรตอนนี้เพียงเพราะพวกเขาพูด - ยอมรับอย่างมีประสิทธิภาพว่าพวกเขารู้มากกว่าคุณ - พวกเขาจะคาดหวังเหมือนกันในอนาคต ไม่ว่าจะด้วยวิธีใดถ้าคุณต้องเถียงกับพวกเขา (กระสุนหรือไม่) คุณกำลังเสียเวลาแล้วที่จะใช้ในการแก้ปัญหา
Benubird

"เราทำในแบบของคุณในครั้งล่าสุดคุณผิดคุณพร้อมที่จะยอมรับว่าคุณอาจผิดอีกครั้งหรือไม่เรามีแบบอย่างที่นี่"
Sobrique

3

ฉันจะโพสต์มุมมองจากด้านข้างของผู้ขาย

เรามีลูกค้ารายนี้ที่มีปัญหาที่เกิดขึ้นซ้ำซึ่งประสิทธิภาพของซอฟต์แวร์จะลดลงทุก ๆ สองชั่วโมงหรือมากกว่านั้นในอัตราสุดซึ้งอย่างแท้จริงจากนั้นกลับมาอีกสองสามชั่วโมง

ตัวสร้าง bulitin ในระบบระบุความเร็วของ CPU (หรืออาจเป็นหน่วยความจำ) ที่ช้าอย่างน่าขยะแขยงบางอย่างเช่น 100MHZ แทนที่จะเป็น 2GHZ ที่คาดไว้ การเพิ่มซีพียูโดย VM เป็นสองเท่าไม่ได้เปลี่ยนอาการและพวกเขาคิดว่าเราสิ้นเปลือง

เนื่องจากพวกเขาไม่สามารถรับ CPU ที่เร็วขึ้น (CPU มากกว่านั้นไม่ช่วยอะไร) เราจึงลองสลับการทดสอบ TEST และ PROD VM ปัญหาปรากฏขึ้นเมื่อ TEST ในวันถัดไป จากนั้นเราพยายามโปรโมตลูกค้ารายหนึ่งให้เป็นอินสแตนซ์แบบสแตนด์อโลน (ไม่มีเซิร์ฟเวอร์) ไม่มีปัญหาบนเวิร์กสเตชันนั้นในขณะที่เซิร์ฟเวอร์กำลังสำลัก

พวกเขาสร้างรายงานจากโฮสต์ VM ระบุว่าไม่มีปัญหาด้านประสิทธิภาพและลองอีกครั้งเพื่ออ้างว่าเป็นปัญหาของแอปพลิเคชัน

ในที่สุดฉัน [วิศวกร] (ฉันไม่มีการสนับสนุนจากผู้ที่มีบทบาทสนับสนุนเฉพาะ) ถามเฉพาะสำหรับกล่องกายภาพ ลูกค้ากรีดร้องการฆาตกรรมนองเลือด แต่ไม่มีใครมีวิธีแก้ปัญหาที่เป็นไปได้อื่น ๆ ที่พวกเขาทำ คุณรู้อะไรปัญหาหายไปอย่างน่าอัศจรรย์

เราไม่เคยพบว่าปัญหาคืออะไร โปรแกรมเบนช์มาร์กทุกตัวแสดงให้เห็นว่าปกติ แต่ตัวสร้างแอปพลิเคชันบอกเราว่าการคำนวณทรัพยากรไม่เพียงพอ ตอนนี้มีลายเซ็นเฉพาะที่เรามองหาใน profiler แล้ว ถ้าเราเห็นมันเรารู้ก่อนที่เราจะเข้าใจปัญหาได้มากขึ้นนั่นคือการมีปฏิสัมพันธ์ของ VM แต่มันก็ไม่เป็นที่รู้จักในเวลานั้น

พวกเขาคิดว่าฉันเต็มไปด้วยมัน ฉันไม่ได้ ฉันไม่มีทางเลือก

แก้ไขปรับปรุงจากหลายปีต่อมา:

ด้วยลูกค้าที่ต้องการทำงานบน VMs และการจัดการที่เต็มใจที่จะพยายามแก้ปัญหาโดยที่ค่าใช้จ่ายเพิ่มขึ้นเรื่อย ๆ ทำให้เราได้รับฮาร์ดแวร์ VM ที่ดี ฉันสามารถสร้างโปรแกรมพิเศษเบิร์น VM ที่รันใน userspace (และไม่จำเป็นต้องมีสิทธิ์พิเศษ) บน VM แบบซิงเกิลคอร์สองตัวที่มี 512mb RAM ซึ่งสามารถระบายประสิทธิภาพการทำงานของหน่วยความจำ 1/3 จาก VM แบบ single-core เพียง 4 ตัว จำนวนคอร์ทั้งหมดจาก 16 รายการที่ใช้งานบนโฮสต์ VM และ RAM ส่วนใหญ่ยังคงให้บริการฟรี โปรแกรมไม่ส่งสัญญาณเตือนและไม่พบสิ่งผิดปกติใด ๆ บนโฮสต์ VM หรือแขกใด ๆ ยกเว้นการเข้าถึงหน่วยความจำช้า

ตอนนี้เราสามารถบอกลูกค้าได้ว่าเรารู้ว่ามีปัญหากับ VM และไม่ใช่ซอฟต์แวร์ของเรา เรายังคงได้รับคำขอของลูกค้าเป็นครั้งคราวสำหรับซอฟต์แวร์ที่เข้ากันได้กับ VM ฉันสงสัยว่าทำไมการจัดการไม่ให้การสนับสนุนบอกพวกเขาว่าเราสามารถพัฒนาซอฟต์แวร์บางส่วนที่ทำให้ VM อื่นช้าลงในโฮสต์เดียวกัน

สิ่งที่น่ากลัวคือเทคนิคที่เกี่ยวข้องคือการแปลงเทคนิคการเขียนโปรแกรมอย่างง่ายที่รู้จักกันดีซึ่งเกี่ยวกับการซิงโครไนซ์แบบไม่ล็อค ผู้ค้าซอฟต์แวร์หลายร้อยรายอาจมีตัวแปลง VM นี้ในซอฟต์แวร์ของพวกเขาและไม่ทราบ การได้รับล็อคคำสั่งอะตอมที่ประกวดอย่างถึงพริกถึงขิงควรหายาก แต่เป็นไปไม่ได้ ส่วนที่น่าขบขันของมันคือฉันได้รับการล็อกเพื่อประกวด ACROSS VMs


-3

ฉันขอแนะนำวิธีการที่แตกต่างอย่างมากจากที่กล่าวถึง ก่อนที่จะเถียงกับผู้ขายทำไมไม่ลองดูรายงานปัญหาอย่างละเอียดและดูว่าอะไรที่บอกคุณ

ปัญหาที่แท้จริงที่รายงานและผู้ใช้คาดหวังคืออะไร หากผู้ใช้กำลังพูดอะไรบางอย่าง "ใช้เวลานานเกินไป" ให้ถามพวกเขาว่า 'มัน' คืออะไร (เพื่อให้คุณสามารถทำซ้ำได้) ระยะเวลาที่พวกเขาคิดว่าควรใช้เวลานานแค่ไหนและทำไมพวกเขาถึงคิดว่ามันใช้เวลานานขนาดนั้น หากความคาดหวังของพวกเขาสมเหตุสมผลตรวจวัดประสิทธิภาพที่แท้จริงและผลกระทบของระบบของสิ่งที่พวกเขาพยายามทำ ความจริงที่ว่าระบบของคุณแสดงให้เห็นถึง 30% ขัดขวางในช่วงหนึ่งเดือนไม่ได้หมายความว่ามันจะไม่ทำงานที่> 100% เมื่อผู้ใช้พยายามสืบค้น หากคุณสามารถแสดงให้ผู้ขายเห็นว่าซีพียูและหน่วยความจำไม่ได้ถูกทำให้เครียดโดยงานที่มีปัญหาคุณสามารถขอให้ผู้จำหน่ายทำการพิสูจน์คำแนะนำที่จะทำให้คุณเสียค่าใช้จ่าย


1
ดูเหมือนว่าข้อเสนอแนะของคุณในครึ่งแรกจะเสร็จสิ้นแล้ว ครึ่งหลังทั้งหมดเป็นสิ่งที่ OP ต้องการ
Chris S

ฉันจะไม่เห็นด้วย ไม่มีหลักฐานแสดงการวิเคราะห์ปัญหาและตัวเลข cpu และ mem ที่ยกมาเป็นการรวมรายเดือนที่ไม่มีความเกี่ยวข้องที่ชัดเจนกับปัญหาในมือ
Paul Smith
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.