การทำ Data Analyst ในทุกวันนี้ กลายเป็นสิ่งที่หลาก ๆ องค์กรสนใจอย่างมาก โดยเฉพาะการทำ Data Analyst จนถึงขั้นมีทีม Data ขนาดใหญ่ และใช้เครื่องมือที่มีความซับซ้อนอย่างมากในการทำการวิเคราะห์ Data ที่หลากหลายขึ้นมา เพื่อให้ตอบโจทย์ในทางธุรกิจ หรือทางการตลาดของตัวเองขึ้นมา
ด้วยการทำ Data ไม่ว่าจะเป็นการทำ Data Mining, Data Science จนถึง Data analyst เป็นกระบวนการที่ต้องการการใส่ใจในรายละเอียดเป็นอย่างมาก และยังต้องการความสามารถในการตรวจจับสัญญาณรบกวน หรือข้อมูลที่จะเป็นตัวแปรที่จะสามารถมีผลต่อผลลัพธ์ของการวิเคราะห์ออกมาได้ ดังนั้นการทำ Data Analyst ต้องเข้าใจว่าจะทำอย่างไร ที่จะทำให้การวิเคราะห์ตัวเองถูกทาง เพื่อที่จะสามารถใช้ในการแนะนำ หรือเป็นข้อมูลในการตัดสินใจในทางธุรกิจ หรือการตลาดได้อย่างถูกต้อง โดยการหลีกเลี่ยงการวิคราะห์ที่ผิดพลาด 8 ข้อนี้ก่อน ที่จะไปทำการวิเคราะห์ที่ซับซ้อนด้วยการใช้หลักการทางสถิติ และ Machine Learning สำหรับทำ predictive analytics ขึ้นมา
ทั้งนี้ข้อผิดพลาดทั้งหมด มี 8 ข้อดังนี้คือ
1. Cherry Picking : นี้เป็นผลจากการวิเคราะห์ที่เลือกอะไรที่เป็นผลลัพธ์กับอคติตัวเองไว้ และไม่สนใจอะไรที่ไม่ตรงกับการตั้งสมมุติฐานของตัวเอง โดยส่วนใหญ่จะสนใจข้อมูลที่สนับสนุนความคิดตัวเองมากกว่าความจริงทั้งหมดเอาไว้
2. False Correlation : ทำการสรุปผลแบบผิด ๆ จากการเกิดขึ้นของ 2 เหตุการณ์พร้อมกัน โดยคิดว่าเหตุการณ์ A ต้องเกี่ยวกับเหตุการณ์ B เช่น จากผลวิเคราะห์ออกมา พบว่าคนดื่มนม กับ คนที่เป็นโรคหัวใจต่ำนั้นคือคนเดียวกัน เลยทึกทักว่า การดื่มนม ทำให้อัตราการเป็นโรคหัวใจลดลง ซึ่งเป็นการสรุปแบบไม่มีหลักฐานประกอบ และมีตัวแปรมากมายที่อาจจะเกี่ยวข้องกับในเรื่องนี้ก็เป็นได้
3. McNamara Fallacy : คือการที่สนใจแต่ข้อมูลเชิงตัวเลข มาตรวัด และค่าที่เป็นเชิงปริมาณ มากกว่าเรื่องราวหรือคุณภาพในตัวเลขนั้น ๆ ทำให้เกิดการตีความผิดได้ทันทีจากตัวเลขที่เกิดขึ้น เช่นตัวอย่าง สถิติผู้เสียชีวิตจากโรค Covid-19 ซึ่งถ้าดูตัวเลขมันเป็นแค่ตัวเลข แต่ทุก ๆ ตัวเลขนั้นมีความหมายเพราะเป็นชีวิตของคน ๆ นึงและครอบครัวที่เกี่ยวข้องกับคน ๆ นั้นอีกด้วย
4. Summary Metrics : ในทศวรรษที่ 1970s นักสถิติชื่อ Francis Anscombe ได้แสดงให้เห็นถึงการสรุปผลชื่อดังที่เรียกว่า Anscombe’s quartet ที่การวัดที่มาจากค่า mean, variance, และ correlation เดียวกัน แต่เมื่อนำเสนอเป็นกราฟเส้น พบว่า ข้อมูลแต่ละจุดกับขึ้นมาไม่เหมือนกันเลย ดังนั้นต้องระวังการสรุปค่า ว่าเหมือนกับ ค่าอื่นที่เท่ากัน
5. Sampling Bias : เป็นการเลือกกลุ่มตัวอย่างที่ไม่ได้สะท้อนประชากรทั้งหมด หรือไม่สะท้อนเรื่องราวของการทำการวิเคราะห์นั้นขึ้นมา ซึ่งนี้ทำให้การวิเคราะห์ต่าง ๆ นั้นไปผิดทาง เสียทั้งเงิน เสียทั้งเวลาในการวิเคราะห์อย่างมาก
6. Survivorship Bias : เป็นหลักการทางจิตวิทยาที่เกิดขึ้นในช่วงสงครามโลกครั้งที่ 2 ว่า นักบินที่กลับมาจากสนามรบถูกยิงในบริเวณต่าง ๆ แล้วกลับมาได้ ทำให้หลายคนเชื่อว่า การป้องกันในจุดที่ถูกยิงนั้นจำเป็นทั้ง ๆ ที่ จุดที่ไม่ถูกยิงตรงเครื่องบินที่กลับมาได้สำคัญว่า ทำให้เครื่องบินที่ถูกยิงบริเวณนั้นตก ซึ่งเรื่องนี้เกิดขึ้นจากการที่คนวิเคราะห์สรุปผลจากข้อมูลที่ไม่สมบูรณ์เพราะข้อมูลเหล่านี้รอดมาถึงการวิเคราะห์ขึ้นมาได้
7. Cobra Effect : หลักการทางจิตวิทยาที่การให้รางวัล ทำให้คนมองหาวิธีการที่จะได้รางวัลนั้นมา เกิดจากในช่วงอินเดียยังเป็นอาณานิคมอังกฤษ ที่งูจงอางระบาด ทางอังกฤษจึงให้รางวัลคนจับงู จนทำให้คนอินเดียหัวใส เลี้ยงงู เพื่อเอารางวัลแทนสุดท้ายอังกฤษเลิกให้การรับรางวัล ทำให้งูจงอางถูกปล่อยระบาดมากกว่าเดิม ซึ่งอันนี้การวิเคราะห์ต้องระวังว่า การแก้ปัญหาบางอย่าง จะก่อให้เกิดผลร้ายแรงตามมา
8. Hawthorne Effect : เป็นหลักการที่ใช้ในการจัดการโรงงาน ที่เชื่อว่า การปรับปรุงสภาพแวดล้อมของการทำงาน จะทำให้การทำงานดีขึ้น แต่ผลที่ได้กลับไม่ได้เป็นตามนั้น เพราะจริง ๆ แล้วคนทำงานดีขึ้น เพราะมีคนมาจับจ้องในการเก็บข้อมูล ในการทำวิเคราะห์เช่นกันว่า การเก็บข้อมูลต้องระวังว่า ตัวอย่างหรือกลุ่มเป้าหมายไม่ได้สร้างภาพ หรือทำดีเพราะรู้ว่าจะเก็บข้อมูล