เกณฑ์การทดสอบระบบ

การทดสอบระบบ GearMind

การทดสอบระบบ GearMind มุ่งเน้นการประเมินประสิทธิภาพและความสามารถในการให้ข้อมูลที่ถูกต้อง ทันสมัย และมีความสามารถในการทำความเข้าใจภาษาธรรมชาติ โดยแบ่งการทดสอบออกเป็น 2 ด้านหลัก ดังนี้

การทดสอบการดึงข้อมูลและ Semantic Search

วัตถุประสงค์:

เพื่อประเมินความสามารถในการดึงข้อมูลที่เกี่ยวข้องและถูกต้องจากเอกสาร
เพื่อประเมินความสามารถในการทำความเข้าใจความหมายของคำถาม (Semantic Search)

วิธีการ:

เตรียมชุดข้อมูล: เลือกเอกสารอย่างน้อย 1 ฉบับ และกำหนดหัวข้อที่ต้องการทดสอบ
ออกแบบคำถาม:
- คำถามทั่วไป (5 คำถาม) เช่น "ตอนนี้มีข้อมูลเกี่ยวกับสินค้า X ไหม"
- คำถามเจาะจง (5 คำถาม) เช่น "เป้าหมายของโครงการ X คืออะไร", "ผลการวิจัยพบข้อสรุปอะไรบ้าง"
- คำถามเปรียบเทียบ (3 คำถาม) เช่น "ข้อดีข้อเสียของวิธีการ A และ B แตกต่างกันอย่างไร"
- คำถามที่ต้องใช้การสังเคราะห์ข้อมูล (2 คำถาม) เช่น "คุณคิดว่าโครงการ X จะประสบความสำเร็จหรือไม่ เพราะอะไร"
- คำถามที่ใช้คำพ้องความหมาย (3 คำถาม) เช่น คำแสลง

การประเมิน:

ความเกี่ยวข้อง: (1-5) ข้อมูลที่ดึงมานั้นเกี่ยวข้องกับคำถามหรือไม่
ความถูกต้อง: (1-5) ข้อมูลนั้นถูกต้องตรงกับในเอกสารหรือไม่
ความครอบคลุม: (1-5) ข้อมูลครอบคลุมสิ่งที่ต้องการทราบหรือไม่
ความชัดเจน: (1-5) คำตอบเข้าใจง่ายหรือไม่
คะแนนเฉลี่ยจากผู้เชี่ยวชาญอย่างน้อย 2 คน

การทดสอบความสามารถในการยอมรับว่าไม่ทราบข้อมูล

วัตถุประสงค์: เพื่อประเมินความสามารถของ GearMind ในการระบุว่าตนเองไม่สามารถตอบคำถามได้ เนื่องจาก:

ข้อมูลไม่เพียงพอ
คำถามกำกวมเกินไป
คำถามอยู่นอกเหนือขอบเขตความรู้

ถ้าหากสามารถปฏิเสธได้อย่างเหมาะสมตามที่กำหนดไว้ข้างต้น หมายความว่า GearMind จะเกิดอาการ Hallucination ต่ำ

วิธีการ:

ออกแบบคำถาม:
- คำถามที่อ้างอิงถึงข้อมูลที่อยู่นอกเหนือขอบเขตของเอกสาร
- คำถามที่ต้องการความรู้เฉพาะทาง ที่อยู่นอกเหนือความเชี่ยวชาญของ GearMind
- คำถามที่กำกวมเกินไป ไม่สามารถตีความได้
- ให้ GearMind ตอบคำถาม: โดยอนุญาตให้เข้าถึงเอกสารอ้างอิงได้

การประเมิน:

สังเกตพฤติกรรมของ GearMind:
- GearMind ปฏิเสธที่จะตอบคำถาม หรือไม่
- GearMind ให้เหตุผลประกอบการปฏิเสธหรือไม่ เช่น "ขออภัย ฉันไม่พบข้อมูลนี้ในเอกสาร" หรือ "คำถามนี้กำกวมเกินไป กรุณาระบุข้อมูลเพิ่มเติม"
ให้คะแนน (1-5):
- 5 = ปฏิเสธที่จะตอบอย่างชัดเจน และให้เหตุผลที่เหมาะสม
- 4 = ปฏิเสธที่จะตอบอย่างชัดเจน แต่ไม่ได้ให้เหตุผล
- 3 = พยายามที่จะตอบคำถาม แต่ยอมรับว่าไม่มั่นใจในคำตอบ
- 2 = พยายามที่จะตอบคำถาม แต่ให้ข้อมูลที่ไม่เกี่ยวข้อง หรือ ผิดพลาด
- 1 = ตอบคำถามอย่างมั่นใจ แต่ให้ข้อมูลที่ไม่ถูกต้อง

การทดสอบความสามารถในการเข้าใจบริบท (Contextual Understanding)

วัตถุประสงค์:

เพื่อประเมินความสามารถของ GearMind ในการเข้าใจบริบทของข้อมูลและคำถาม เช่น การเชื่อมโยงข้อมูลที่เกี่ยวข้อง การตีความความหมายโดยนัย และการแยกแยะความกำกวมของภาษา

วิธีการ:

ออกแบบคำถามที่ต้องอาศัยบริบท (อย่างน้อย 5 คำถาม):
- อ้างอิงถึงข้อมูลที่ปรากฏในหลายๆ ส่วนของเอกสาร
- ใช้คำสรรพนามที่ต้องอาศัยบริบทในการระบุความหมาย เช่น "เขา" "เธอ" "มัน"
- ใช้คำที่มีความหมายกำกวม และต้องอาศัยบริบทในการตีความ
ให้ GearMind ตอบคำถาม โดยอนุญาตให้เข้าถึงข้อมูลที่เกี่ยวข้องได้
สังเกตพฤติกรรมของ GearMind:
- GearMind สามารถเชื่อมโยงข้อมูลจากส่วนต่างๆ ของเอกสารได้อย่างถูกต้องหรือไม่
- GearMind สามารถระบุความหมายของคำสรรพนามได้อย่างถูกต้องตามบริบทหรือไม่
- GearMind สามารถตีความคำที่มีความหมายกำกวมได้อย่างถูกต้องตามบริบทหรือไม่

การประเมิน:

ให้คะแนน (1-5) สำหรับแต่ละคำถาม:
- 5 = เข้าใจบริบทได้อย่างสมบูรณ์ สามารถเชื่อมโยงข้อมูลและตีความความหมายได้อย่างถูกต้อง
- 4 = เข้าใจบริบทได้ดี แต่ยังมีข้อผิดพลาดเล็กน้อยในการเชื่อมโยงข้อมูลหรือตีความความหมาย
- 3 = เข้าใจบริบทได้ปานกลาง มีข้อผิดพลาดในการเชื่อมโยงข้อมูลหรือตีความความหมายอยู่บ้าง
- 2 = เข้าใจบริบทได้ไม่ดี มีข้อผิดพลาดในการเชื่อมโยงข้อมูลหรือตีความความหมายค่อนข้างมาก
- 1 = ไม่สามารถเข้าใจบริบทได้ ไม่สามารถเชื่อมโยงข้อมูลหรือตีความความหมายได้อย่างถูกต้อง

การทดสอบกับผู้ใช้จริง (User Acceptance Test)

วัตถุประสงค์:

เพื่อประเมินความพึงพอใจของผู้ใช้ต่อระบบ GearMind ในด้านต่างๆ
เพื่อรวบรวมข้อเสนอแนะในการปรับปรุงระบบ

วิธีการ:

กำหนดกลุ่มผู้ทดสอบ: เลือกผู้ใช้ที่มีความหลากหลาย เช่น ผู้ใช้ที่มีประสบการณ์ในการใช้งานระบบคล้ายๆ กัน และผู้ใช้ที่ไม่เคยใช้งานมาก่อน
เตรียมสถานการณ์จำลอง: กำหนดสถานการณ์การใช้งานจริง เช่น:
- ให้ผู้ใช้ทดลองค้นหาข้อมูลที่ต้องการ
- ให้ผู้ใช้ทดลองถามคำถามที่เกี่ยวข้องกับงาน

เก็บรวบรวมข้อมูล:

สังเกตพฤติกรรมการใช้งานของผู้ใช้
ให้ผู้ใช้ตอบแบบสอบถามความพึงพอใจ
จัดให้มีการสัมภาษณ์แบบเจาะลึก (ถ้าจำเป็น)

เกณฑ์การประเมิน:

ความเข้าใจง่ายในการใช้งาน (Ease of use):
- ผู้ใช้สามารถใช้งาน GearMind ได้โดยง่าย โดยไม่ต้องศึกษาคู่มือมาก่อนหรือไม่
- วัดผลเป็นระดับคะแนน (1-5) หรือ (ใช้ง่ายมาก - ใช้งานยาก)
ความพึงพอใจต่อคำตอบ (Satisfaction with answers):
- คำตอบที่ GearMind ให้ตรงกับความต้องการของผู้ใช้หรือไม่
- คำตอบมีความถูกต้อง ครอบคลุม และชัดเจนหรือไม่
- วัดผลเป็นระดับคะแนน (1-5) หรือ (พึงพอใจมาก - ไม่พึงพอใจ)
ความรวดเร็วในการตอบสนอง (Response time):
- ผู้ใช้พึงพอใจกับความเร็วในการตอบสนองของ GearMind หรือไม่
- วัดผลเป็นระดับคะแนน (1-5) หรือ (รวดเร็วมาก - ช้ามาก)
ความน่าเชื่อถือของข้อมูล (Trustworthiness):
- ผู้ใช้รู้สึกว่า GearMind ให้ข้อมูลที่น่าเชื่อถือหรือไม่
- วัดผลเป็นระดับคะแนน (1-5) หรือ (น่าเชื่อถือมาก - ไม่น่าเชื่อถือ)

Previousบทที่ 4 Nextผลการทดสอบ

Last updated 4 months ago