fbpx
Data Anonymization เรื่องจำเป็นของ Big Data

Data Anonymization เรื่องจำเป็นของ Big Data

โตมร ศุขปรีชา เรื่อง

กฤตพร โทจันทร์ ภาพประกอบ

 

ทุกวันนี้ เรา ‘มอบ’ ข้อมูลให้บริษัทใหญ่ๆ หลายบริษัททั้งโดยรู้ตัวและไม่รู้ตัว ทั้งโดยเต็มใจและไม่เต็มใจ ทั้้งโดยจำยอม และถึงไม่จำยอมก็จำต้องยอม

ตัวอย่างเช่น ข้อมูลการเดินทางของเราที่บริษัทมือถือเก็บไว้ (จริงๆ คือข้อมูลการเดินทางของ ‘มือถือ’ ของเรามากกว่า) หรือข้อมูลที่เราฝากฝังใส่เข้าไปในโซเชียลมีเดียต่างๆ เป็นประจำไม่เว้นแต่ละวัน ข้อมูลใบหน้าของเราที่ส่งให้กับแอพพลิเคชันทำหน้าแก่หน้าเด็กทั้งหลาย ข้อมูลเพศ วัย ความสนใจ เงินเดือน ฯลฯ ที่เรามอบให้กับองค์กรต่างๆ ผ่านโลกออนไลน์

ข้อมูลเหล่านี้ล้วนแต่เป็นข้อมูลที่มีค่า เพราะมันคือ Big Data ที่สามารถนำมาวิเคราะห์หาแนวโน้มใหม่ๆ หรือนำข้อมูลชุดต่างๆ มาเปรียบเทียบกัน เพื่อให้เห็นแง่มุมความสัมพันธ์ (หรือสหสัมพันธ์) ระหว่างเรื่องต่างๆ ได้ เช่น ข้อมูลการเดินทางของผู้คนที่เก็บได้จากร่องรอยมือถือ สามารถบอกถึงความเสี่ยงที่จะเกิดโรคระบาดได้ไหม, ข้อมูลเส้นทางอาหารในเมืองที่เก็บได้จากการให้บริการส่งอาหารถึงบ้าน บอกถึงความหนาแน่นและวิธีแก้ปัญหาจราจรได้อย่างไรบ้างไหม รวมไปถึงข้อมูลอื่นๆ อีกมากมายที่หากมีการวิเคราะห์เพ่ิมเติมแล้ว จะสร้างประโยชน์มหาศาล

แต่คำถามก็คือ การนำข้อมูลเหล่านี้มาวิเคราะห์ จะต้องปกปิดตัวเจ้าของข้อมูลอย่างไร ผู้วิเคราะห์ถึงจะได้แต่ ‘ข้อมูล’ โดยไม่สามารถสืบสาวไปถึงผู้เป็นเจ้าของข้อมูลเหล่านี้ได้

คำตอบของคำถามนี้ก็คือสิ่งที่เรียกว่า Data Anonymization หรือการทำให้เจ้าของข้อมูลเหล่านี้กลายเป็นบุคคลนิรนาม ผู้วิเคราะห์ไม่สามารถล่วงรู้ได้ว่า ก้อนข้อมูลที่กำลังวิเคราะห์อยู่นั้น แท้จริงแล้วมาจากใครบ้าง

Data Anonymization เกิดขึ้นก็เพื่อปกป้องความเป็นส่วนตัวหรือข้อมูลที่อาจอ่อนไหว ด้วยการลบ หรือเข้ารหัส ‘ตัวตน’ ของผู้เป็นเจ้าของข้อมูลเหล่านั้น หรืออาจจับกลุ่มเจ้าของข้อมูลที่มีลักษณะพื้นฐานเบื้องต้นเข้าด้วยกันเป็นกลุ่มย่อยๆ แล้วค่อยวิเคราะห์เป็นหน่วยๆ โดยบางที่ก็เรียกวิธีการนี้ว่า Data Obfuscation, Data Masking หรือ Data De-Identification

บริษัทจำนวนมากสร้าง เก็บ และประมวลผลข้อมูลที่อ่อนไหวมหาศาล เช่น บริษัทมือถือสามารถล่วงรู้ได้หมด ว่าใครไปที่ไหนเมื่อไหร่บ้าง เพราะเป็นการทำหน้าที่ของบริษัทโดยตรง ดังนั้น การที่บริษัทจะต้องปกปิดข้อมูลเหล่านี้จึงมีผลต่อความน่าเชื่อถือของบริษัทเอง สมมติว่า หน่วยงานรัฐจะขอให้ส่งข้อมูลรายบุคคลไปให้ กระบวนการ Data Anonymization ก็จะช่วยป้องกันการเข้าถึงข้อมูลเป็นรายบุคคลได้

ข้อมูลที่สำคัญอีกอย่างหนึ่งก็คือข้อมูลทางการเงิน เพราะเทคโนโลยี Fintech ทำให้เกิดความก้าวหน้าไร้พรมแดนขึ้นมา การวิเคราะห์ข้อมูลการเงินเหล่านี้เป็นเรื่องสำคัญ เพราะทำให้เราเห็นเทรนด์ทางการเงินต่างๆ ได้ล่วงหน้า แต่ข้อมูลทางการเงินเหล่านี้จะเป็นประโยชน์ได้ ส่วนใหญ่จะต้องมีการ ‘แชร์’ กันไปเป็นก้อนใหญ่ๆ ดังนั้น Data Anonymization จึงเป็นเรื่องจำเป็นมาก

 

วิธีทำ Anonymization มีหลายวิธี เช่น

Generalizing the Data

เทคนิคนี้คือการกำจัดหรือแทนที่ข้อมูลเฉพาะตัว เฉพาะบุคคลบางส่วน ด้วยข้อมูลที่มีลักษณะ ‘ทั่วไป’ ตัวอย่างเช่น ข้อมูลเกี่ยวกับรหัสไปรษณีย์ หรือหมายเลขโทรศัพท์ อาจแทนที่ด้วยลำดับต่างๆ แทนตัวเลขจริงได้ พูดง่ายๆ เทคนิคนี้ก็คือการ ‘ซ่อน’ คนหนึ่งคนเอาไว้ในกลุ่มคนที่มีลักษณะคล้ายๆ กัน คือทำให้คนแต่ละคนกลายเป็นเซ็ตของข้อมูลไป เช่น ถ้ามีข้อมูลเงินเดือน แทนที่จะบอกว่าใครเงินเดือนเท่าไหร่ ก็จัดเป็นกลุ่มเงินเดือนไป เป็นต้น

ถ้าหากว่าคนแต่ละคนในเซ็ตข้อมูลนั้นๆ มีลักษณะที่เซนซิทีฟบางอย่างเหมือนๆ กัน ก็อาจมีการเปิดเผยข้อมูลที่เซนซิทีฟเหล่านั้นได้โดยไม่ต้องรู้เลยว่า ใครอยู่ในเซ็ตข้อมูลนั้นๆ บ้าง แต่ถ้ากลุ่มตัวอย่างไม่มากพอ เช่น เป็นข้อมูลเฉพาะที่กลุ่มตัวอย่างค่อนข้างเล็ก ก็อาจพอคาดเดาได้ ดังนั้นจึงต้องมีเทคนิคที่ซับซ้อนข้ึนไปอีก เพื่อสร้างกระบวนการนิรนามให้สำเร็จ

Adding Noise to Data

วิธีที่สองที่นิยมทำกัน คือการใส่ตัวรบกวนทางคณิตศาสตร์ (Mathematical Noise) ให้กับข้อมูล เพื่อไม่ให้ย้อนกลับไปหาตัวตนของกลุ่มตัวอย่าง หรือผู้ใช้งานนั้นๆ ได้ เรียกว่า Differential Privacy ซึ่งวิธีการนี้ Apple ก็ใช้เพื่อให้ข้อมูลไม่สามารถระบุตัวตนของผู้ใช้ได้

 

ประเด็นสำคัญอีกอย่างหนึ่งของ Data Anonymization ก็คือข้อมูลที่ถูก Anonymized แล้ว จะต้องได้รับการเก็บรักษาในรูปแบบที่หากเกิดการรั่วไหล คนที่โจรกรรม (หรือรัฐที่สั่ง หรือ ‘ขอ’ ข้อมูล) ไป จะต้องไม่สามารถนำข้อมูลเหล่านั้นไปใช้ประโยชน์ได้

ความจำเป็นในการปกป้องรักษาข้อมูล กลายเป็นเรื่องสำคัญสูงสุดในทุกๆ องค์กร ข้อมูลเหล่านี้มีความเซนซิทีฟในรูปแบบต่างๆ อยู่เสมอ ดังนั้น หากมีข้อมูลเหล่านี้อยู่ แต่จัดการแบบไม่เซนซิทีฟ ก็อาจก่อให้เกิดผลร้ายต่อองค์กรต่างๆ ได้

อย่างไรก็ตาม ข้อมูลที่ถูก Anonymized ไม่ดีพอ ก็อาจเจอกับกระบวนการ ‘ถอดความนิรนาม’ (De-Anonymization หรือ Re-Identification) ได้ด้วยเหมือนกัน หลายคนวิจารณ์ด้วยซ้ำไป ว่า Data Anonymization ทำให้เกิดความรู้สึกมั่นคงปลอดภัยแบบปลอมๆ (False Sense of Security) เพราะเคยมีการทดลอง ‘ย้อนรอย’ เพื่อระบุตัวตน และพบว่าสามารถทำได้ แม้เปอร์เซ็นต์ที่ทำได้จะต่ำมากก็ตามที

ในโลกยุคใหม่ Big Data เป็นเรื่องสำคัญ นั่นทำให้ Data Anonymization ย่ิ่งเป็นเรื่องสำคัญมากขึ้นเรื่อยๆ ด้วย

เพราะนี่คือการปกป้องความเป็นส่วนตัวของทุกๆ คน

MOST READ

World

9 Mar 2018

สีจิ้นผิงมาถึงจุดนี้ได้อย่างไร?

อาร์ม ตั้งนิรันดร วิเคราะห์เส้นทางการเมืองของสีจิ้นผิง ผู้นำสูงสุดของจีนที่สามารถรวบอำนาจมาอยู่ในมือได้สำเร็จเด็ดขาด สีจิ้นผิงมาถึงจุดนี้ได้อย่างไร? และสุดท้ายเขาจะพาจีนพังกันหมดหรือไม่?

อาร์ม ตั้งนิรันดร

9 Mar 2018

TREND RIDER

12 Jul 2018

เทรนด์ของวัสดุอวกาศ

เหตุผลหนึ่งที่ผู้คนจับตา ‘อีลอน มัสก์’ คือความทุ่มเทที่เขามีให้กับ ‘วัสดุอวกาศ’ วัสดุที่อาจนำพามนุษยชาติไปสู่พรมแดนใหม่ได้ โตมร ศุขปรีชา ชวนสำรวจเทรนด์ของวัสดุแห่งอนาคตว่ามีอะไรบ้าง และกว่าจะผลิตขึ้นมาได้ยากเย็นแค่ไหน

โตมร ศุขปรีชา

12 Jul 2018

World

1 Oct 2018

แหวกม่านวัฒนธรรม ส่องสถานภาพสตรีในสังคมอินเดีย

ศุภวิชญ์ แก้วคูนอก สำรวจที่มาที่ไปของ ‘สังคมชายเป็นใหญ่’ ในอินเดีย ที่ได้รับอิทธิพลสำคัญมาจากมหากาพย์อันเลื่องชื่อ พร้อมฉายภาพปัจจุบันที่ภาวะดังกล่าวเริ่มสั่นคลอน โดยมีหมุดหมายสำคัญจากการที่ อินทิรา คานธี ได้รับเลือกให้เป็นนายกรัฐมนตรีหญิงคนแรกในประวัติศาสตร์

ศุภวิชญ์ แก้วคูนอก

1 Oct 2018

เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณ คุณสามารถศึกษารายละเอียดได้ที่ นโยบายความเป็นส่วนตัว และสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ ตั้งค่า

Privacy Preferences

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

Allow All
Manage Consent Preferences
  • Always Active

Save