Big Data is a Big Problem : เปลี่ยนดีเอ็นเอให้เป็นฮาร์ดไดร์ฟเก็บข้อมูล

โสภณ ศุภมั่งมี เรื่อง

ภาพิมล หล่อตระกูล ภาพประกอบ

เคยมีคำถามกันบ้างไหมครับเวลาอัพโหลดรูปภาพบนเฟซบุ๊ก อินสตาแกรม หรือลงวิดีโอไว้บนยูทูบแล้วรูปไปอยู่ที่ไหน?

เราใช้บริการเหล่านี้ในชีวิตประจำวันจนแทบไม่เคยตั้งคำถามหรือคิดถึงมันเลยด้วยซ้ำ หลายคนก็อาจจะตอบว่าก็คงไปอยู่บนคลาวน์ “ที่ไหนสักแห่งหนึ่ง” ที่มีพื้นที่มากมาย ซึ่งก็ไม่ผิด แต่ก็ไม่ถูกซะทีเดียว เพราะในความเป็นจริงแล้ว ไฟล์หรือข้อมูลเหล่านี้แม้ว่าจะอยู่ในรูปแบบดิจิทัล ไม่ใช่ปึกกองกระดาษเหมือนหนังสือเล่ม หรือม้วนวิดีโอ แต่ว่าไฟล์ดิจิทัลเหล่านี้ก็ยังต้องการพื้นที่สำหรับจัดเก็บที่เรียกว่า ‘data center’ หรือ ศูนย์ข้อมูลคอมพิวเตอร์ ซึ่งเป็นพื้นที่ตึกที่เต็มไปด้วยเซิร์ฟเวอร์หลายพันหลายหมื่นตัว (มีการประมาณการจาก Gartner ว่าในปี 2016 กูเกิลมีเซิร์ฟเวอร์กว่า 2.5 ล้านตัวใน data center ของตัวเองทั่วโลก)

ไฟล์ดิจิทัล แต่พื้นที่จัดเก็บนั้นไม่สามารถเป็นดิจิทัลได้

ไม่ใช่แค่ยักษ์ใหญ่อย่างกูเกิลเท่านั้นที่มี data center ขนาดเท่าสนามฟุตบอลกระจายอยู่ทั่วโลก บริษัทอื่นๆ อย่างเน็ตฟลิกซ์, ไลน์, วอทส์แอป, ทวิตเตอร์, แอมะซอน ฯลฯ หรือเรียกได้ว่าผู้ให้บริการออนไลน์ทุกเจ้าจะต้องมีพื้นที่จัดเก็บข้อมูลเหล่านี้ด้วยกันทั้งนั้น ทุกครั้งที่มีการส่งอีเมล แชร์รูปบนเฟซบุ๊ก สตรีมเน็ตฟลิกซ์ ค้นหาบนกูเกิล เซิร์ฟเวอร์เหล่านี้แหละที่ทำงานอยู่เบื้องหลังตลอดเวลา

มีการคาดการณ์ว่าข้อมูลออนไลน์จะเติบโตจาก 33 ZB (Zettabytes) ขึ้นไปถึง 175 ZB ได้ภายในปี 2025 (ซึ่งถ้าเอาข้อมูลทั้งหมดมาเขียนบนแผ่นบลูเรย์ แล้ววางซ้อนกัน จะมีระยะทางเทียบเท่าการเดินทางไปกลับระหว่างโลกกับดวงจันทร์ถึง 23 รอบ) สิ่งที่เกิดขึ้นตามมาก็คือจำนวน data center เหล่านี้ก็เพิ่มสูงขึ้นเรื่อยๆ ตามปริมาณของข้อมูล และถ้าเป็นอย่างนี้ต่อไปเรื่อยๆ พื้นที่เก็บข้อมูลเหล่านี้อาจจะไม่เพียงพออีกต่อไป เพราะค่าใช้จ่ายในการควบคุมดูแล data center ขนาดใหญ่แต่ละที่นั้นราคาอยู่ในหลักร้อยล้านดอลลาร์และใช้พลังงานไฟฟ้าคิดเป็น 2% ของทั้งประเทศต่อปี

ถึงแม้ว่ารูปแบบของพื้นที่การจัดเก็บข้อมูลนั้นจะมีขนาดเล็กลงในขณะเดียวกับที่เก็บข้อมูลได้มากยิ่งขึ้น คิดถึงสมัยที่ IBM ต้องใช้ผู้ชาย 5-6 คนลากฮาร์ดไดร์ฟหนักเกือบหนึ่งตัน ขนาด 5MB หรือประมาณเพลง MP3 หนึ่งเพลง ขึ้นรถบรรทุก ในปี 1956 เราก็ถือว่าก้าวหน้ามาไกลมากจากตรงนั้น แต่ก็ยังไม่เพียงพอ อย่างที่รู้กันว่าตัวเลขเหล่านี้มีแต่จะเติบโตขึ้นเรื่อยๆ ในอนาคต เพราะเราสร้างและเสพข้อมูลในปริมาณมหาศาล Nicholas Guise หนึ่งในนักวิจัยด้านความปลอดภัยออนไลน์ที่ Georgia Tech Research Institute กล่าวว่า “ตอนนี้ปัญหาที่จะเกิดขึ้นอย่างแน่นอน คือเราจะสร้างข้อมูลมากกว่าที่เราจะเก็บได้”

และทางหนึ่งที่เราจะสามารถแก้ไขปัญหานี้ได้คือการหาวิธีจัดเก็บข้อมูลจำนวนมากในพื้นที่ที่มีขนาดเล็กลง — เล็กจนเรามองไม่เห็นด้วยตาเปล่าเลยทีเดียว

รัฐบาลของสหรัฐอเมริกาตอนนี้ก็กำลังเผชิญปัญหานี้เช่นเดียวกัน พวกเขาเริ่มหาวิธีแก้ไขทางใหม่โดยลงทุนในเทคโนโลยีการเก็บข้อมูลในดีเอ็นเอ กว่า 48 ล้านเหรียญฯ โดยช่วง 2-3 ปีหลังเราน่าจะเห็นข่าวของเทคโนโลยีแบบนี้ผ่านตามาบ้าง นักวิจัยพยายามเก็บข้อมูลต่างๆ โดยแปลงข้อมูลอย่างเพลง รูปภาพ หรือไฟล์ต่างๆ แล้วเก็บไว้ในรูปแบบดีเอ็นเอของมนุษย์ แต่ว่ายังใช้ค่าใช้จ่ายสูงและใช้ระยะเวลาค่อนข้างนาน แต่ตอนนี้มีโปรเจ็กต์จาก Intelligence Advanced Research Projects Activity (IARPA) ที่เป็นบริษัทวิจัยในสำนักข่าวกรองแห่งชาติสหรัฐฯ พยายามจะทำให้การเก็บข้อมูลในดีเอ็นเอนั้นมีค่าใช้จ่ายที่ถูกลงและรวดเร็วขึ้น โดยเป้าหมายของพวกเขาก็คือการย่อ data center ขนาดเท่าสนามฟุตบอลให้เล็กลงมาเหลือขนาดไม่ใหญ่ไปกว่าอุปกรณ์เล็กๆ สักตัวที่วางบนโต๊ะทำงาน มีความสามารถในการเก็บข้อมูลได้เทียบเท่ากับฮาร์ดไดร์ฟขนาด terabyte เป็นล้านๆ ตัว

David Markowitz ผู้ดูแลโปรแกรม IARPA กล่าวว่า

“ขนาดและความซับซ้อนของปัญหา ‘big data’ ในโลกของเรานั้นเพิ่มขึ้นด้วยอัตราเร่ง และเรากำลังเข้าสู่ยุคที่ต้องพึ่งพาเทคโนโลยีที่สามารถเข้าถึงข้อมูลขนาด exabyte ได้อย่างรวดเร็ว เรากำลังเผชิญหน้ากับการเติบโตของข้อมูลในอัตราความเร็วสูง ผู้ที่ต้องการใช้ข้อมูลขนาดใหญ่อาจจะต้องตัดสินใจเลือกระหว่างลงทุนมหาศาลกับพื้นที่เก็บข้อมูลเพิ่ม หรือเลือกที่จะลบข้อมูลทิ้งบางส่วนในอัตราความเร็วสูงเช่นเดียวกัน”

ในเดือนมกราคม IARPA ได้มอบเงินให้ทีมของ Guise เป็นจำนวนกว่า 25 ล้านเหรียญฯ เพื่อทำให้การเก็บข้อมูลในรูปแบบของดีเอ็นเอนั้นเป็นไปได้ ทีมของ Guise ทำงานร่วมกับบริษัทสังเคราะห์ดีเอ็นเอในเมืองซานฟรานซิสโก ชื่อว่า Twist Bioscience, บริษัทสตาร์ตอัป Roswell Biotechnologies, ทีมที่ University of Washington และทำงานร่วมกับบริษัทไมโครซอฟต์ เพื่อพัฒนาการเก็บข้อมูลอัตโนมัติในรูปแบบของดีเอ็นเอ อีกส่วนหนึ่งของเงินลงทุนกว่า 23 ล้านเหรียญฯ มอบให้กับนักวิจัยที่ Broad Institute of MIT and Harvard และบริษัทสัญชาติฝรั่งเศสชื่อว่า DNA Script เพื่อหาทางที่จะแปลงข้อมูลให้อยู่ในรูปแบบของดีเอ็นเอ และอ่านข้อมูลเหล่านั้น

สิ่งหนึ่งที่รัฐบาลไม่แตกต่างจากบริษัทเทคโนโลยีต่างๆ ก็คือความต้องการพื้นที่เพื่อเก็บปริมาณข้อมูลดิจิทัลจำนวนมหาศาลนั่นแหละ โดยเฉพาะเรื่องราคาและความสะดวกสบาย โดยทางรัฐบาลกลางสหรัฐฯ มีการเก็บข้อมูลและบันทึกข้อมูลทุกอย่างตั้งแต่ข้อมูลเกี่ยวกับภาษี คดีความ ไปจนกระทั่งสภาพอากาศและข้อมูลสาธารณสุขต่างๆ ด้วย ซึ่งการเก็บข้อมูลในรูปแบบของดีเอ็นเอนั้นต้องการพื้นที่จัดเก็บน้อยมากในการเก็บข้อมูลดิจิทัลขนาดใหญ่ ลองนึกภาพ data center ขนาดเท่ากับสนามฟุตบอลในเวลานี้ ถูกย่อมาอยู่ในขนาดไม่ใหญ่ไปกว่าน้ำตาลก้อนสี่เหลี่ยมเล็กๆ บนโต๊ะเมื่อเก็บในรูปแบบของดีเอ็นเอ

ดีเอ็นเอเป็นรูปแบบการเก็บข้อมูลในธรรมชาติที่เก่าแก่ที่สุด อย่างที่เรารู้กันว่ามันบรรจุข้อมูลทางพันธุกรรมที่สำคัญในการสร้างและทำให้มนุษย์ดำรงอยู่ได้มาจนถึงตอนนี้ ซึ่งก็เป็นเหตุผลที่ว่าทำไมการเก็บข้อมูลในรูปแบบของดีเอ็นเอ จึงเป็นเรื่องน่าสนใจ เพราะมันสามารถเก็บข้อมูลจำนวนมหาศาลได้ภายในพื้นที่ขนาดเล็กมาก ถ้าเกิดเราเอา ‘จีโนม’ (Genome – ชุดของดีเอ็นเอทั้งหมดที่บรรจุอยู่ในนิวเคลียสของทุกๆ เซลล์) ที่บรรจุดีเอ็นเอในรูปแบบของ ACGT — adenine, cytosine, guanine และ thymine ที่เป็นเบสในนิวคลีโอไทด์ กว่า 3 พันล้านตัวออกมาปริ้นต์บนกระดาษเอสี่ เราจะได้กองกระดาษที่สูงราวๆ 130 เมตร หรือประมาณครึ่งหนึ่งของตึกใบหยก และถ้าเอาพวก ACGT เหล่านี้แปลงเป็นข้อมูลดิจิทัลรูปแบบ 0,1 (binary) ขนาดของมันก็อยู่ราวๆ 1.5 GB และนั่นเป็นแค่ 1 จีโนม และในร่างกายของเรามีราวๆ 3 หมื่นล้านเซลล์ ซึ่งตีเป็นข้อมูลราวๆ 150 Zettabytes

การแปลงข้อมูลดิจิทัลให้เป็นรูปแบบของดีเอ็นเอมีความคล้างคลึงกับการเขียนโค้ดที่เราคุ้นเคยกันดี (อาจจะมีขั้นตอนเพิ่มขึ้นนิดหน่อย) บนคอมพิวเตอร์ตอนนี้ ข้อมูลถูกเขียนในรูปแบบของ 0 และ 1 เรียกกันว่า binary code สำหรับดีเอ็นเอ เหมือนที่กล่าวด้านบน คือ ประกอบไปด้วยเบสสี่ตัว ACGT ซึ่งเราก็สามารถมองเบสแต่ละตัวในรูปแบบของ ‘bit’ เหมือนกับ ‘0’ หรือ ‘1’ ได้เช่นเดียวกัน

ข้อมูลเหล่านี้ก็ถูกเขียนออกมาด้วยแมชชีนที่ปริ้นดีเอ็นเอสังเคราะห์ ความก้าวหน้าของเทคโนโลยีตรงนี้ทำให้การสร้างดีเอ็นเอสังเคราะห์รวดเร็วยิ่งขึ้น แล้วแต่ว่าข้อมูลที่เราต้องการเขียนในรูปแบบดีเอ็นเอมีขนาดใหญ่แค่ไหนด้วย โดย Guise บอกว่าต้องใช้เวลา 2-3 นาทีในการเติมเบสแต่ละตัวและทีมของเขาก็พยายามทำให้มันเร็วขึ้น เขาบอกว่า

“ขั้นตอนที่เป็นข้อจำกัดอย่างแท้จริงตอนนี้ก็คือการการสร้างดีเอ็นเอสังเคราะห์ขึ้นมา ซึ่งช้ากว่าที่ร่างกายของเราสร้างดีเอ็นเอ”

ในการอ่านข้อมูลในรูปแบบของดีเอ็นเอออกมาต้องใช้เครื่องอ่านแบบเฉพาะที่อ่านลำดับของ ACGT ที่ตามหา แต่ด้วยความที่ขนาดมันเล็กมาก การอ่านแค่ไฟล์เดียวหรือแค่ไม่กี่ไฟล์ทำให้เป็นเรื่องที่ท้าทายในการค้นหาข้อมูลในดีเอ็นเอสังเคราะห์ University of Washington ที่ร่วมงานกับ IARPA ใช้เทคนิคในการพัฒนาเคมีตัวหนึ่งที่สามารถตามหาข้อมูลในดีเอ็นเอสังเคราะห์และดึงมันออกมาได้ ในช่วงปี 2016 พวกเขาเก็บข้อมูลภาพจำนวน 4 ภาพไว้ในดีเอ็นเอสังเคราะห์แล้วดึงกลับออกมาได้โดยไม่เกิดความเสียหายกับข้อมูลเลย ถือว่าเป็นก้าวสำคัญเลยทีเดียว

หลังจากนั้นนักวิจัยที่ University of Washington และกลุ่มของไมโครซอฟต์ก็ได้ลองเก็บข้อมูลอีกหลายอย่างในรูปแบบของดีเอ็นเอ ทั้งวิดีโอและหนังสืออีบุ๊ก

ข้อได้เปรียบอย่างหนึ่งของดีเอ็นเอก็คือมันอยู่ได้นานหลายร้อยปีเมื่อเทียบกับพวกฮาร์ดไดร์ฟ แฟลชไดร์ฟ หรือ เทปแม่เหล็กที่ใช้กันอยู่ทุกวันนี้ ซึ่งจะค่อยๆ เสื่อมสภาพไปในเวลาไม่กี่ปี หลังจากที่นักวิทยาศาสตร์ใส่ข้อมูลเข้าไปในดีเอ็นเอสังเคราะห์ที่สร้างขึ้นมาแล้ว สิ่งที่พวกเขาต้องทำก็คือการหาวิธีเก็บรักษามัน โดยดีเอ็นเอสังเคราะห์สามารถทำให้อยู่ในรูปแบบของของเหลวหรือทำให้แห้งคล้ายแป้ง แล้วก็เก็บไว้ในวัสดุที่เป็นขวดแก้วขนาดเล็กตามหมวดหมู่ของข้อมูลที่อยู่ด้านใน ความเป็นไปได้อีกอย่างหนึ่งก็คือการนำดีเอ็นเอสังเคราะห์ในรูปแบบของเหลววางไว้บนพื้นผิวของชิปขนาดเล็ก ซึ่งไม่ว่าจะเลือกทางไหน ประโยชน์อีกอย่างหนึ่งของการเก็บข้อมูลในรูปแบบนี้ก็เรื่องคือของความปลอดภัย เพราะต้องใช้แมชชีนที่สามารถอ่านข้อมูลตรงนี้ได้ซึ่งมีราคาสูงมาก

ในอนาคตอันใกล้ เราคงยังไม่เห็นคนทั่วไปเก็บข้อมูลในรูปแบบของดีเอ็นเอที่บ้านของตัวเอง แต่เราน่าจะมีโอกาสได้ใช้งานมันโดยที่ไม่รู้ตัวซะมากกว่า เพราะเมื่อใดก็ตามที่บริษัทอย่างแอปเปิล เฟซบุ๊ก กูเกิล ไมโครซอฟต์ หรือเจ้ายักษ์ใหญ่ในตลาดเปลี่ยนจากพื้นที่เก็บข้อมูลบนคลาวน์เป็นดีเอ็นเอ ก็มีโอกาสที่ภาพวันหยุดครอบครัวที่เราอัปโหลดไปบนเฟซบุ๊กจะถูกจัดเก็บในรูปแบบของดีเอ็นเอสังเคราะห์ได้เช่นกัน

อ้างอิง

https://bit.ly/31DHF16

https://bit.ly/2veHhtU

https://bit.ly/2SpA1Do

https://bit.ly/3787GGZ

https://bit.ly/2ODRzuB

https://bit.ly/38nipit

ดีเอ็นเอ data center Big Data โสภณ ศุภมั่งมี

เรื่อง: โสภณ ศุภมั่งมี

ทำงานเป็นโปรแกรมเมอร์ให้กับบริษัท Intel และ Microsoft เป็นหนึ่งในทีมที่เริ่มต้น Search Engine bing.com ตอนนี้ดูแลธุรกิจสตาร์ทอัพ Busy Rabbit ที่เชียงใหม่ลงทุนในตลาดหุ้น เขียนหนังสือเป็นงานอดิเรก (ที่ตอนนี้เหมือนว่าใช้เวลากับมันเยอะกว่างานประจำซะอีก) มีความสนใจเรื่องของเทคโนโลยีและเรียนรู้สิ่งใหม่ๆ รักธรรมชาติ ชอบเดินทาง รักการอ่านและการเขียนมาตั้งแต่เด็ก ชอบอ่านหนังสือแนว non-fiction โดยเฉพาะอย่างยิ่งเกี่ยวกับสิ่งแวดล้อมและเทรนด์เทคโนโลยีที่กำลังเป็นที่น่าจับตามอง

Big Data is a Big Problem : เปลี่ยนดีเอ็นเอให้เป็นฮาร์ดไดร์ฟเก็บข้อมูล

เรื่อง: โสภณ ศุภมั่งมี

MOST READ

“ความตายคือการเดินทางของทั้งคนตายและคนที่ยังอยู่” นิติ ภวัครพันธุ์

ปาณิส โพธิ์ศรีวังชัย

วิตเทเกอร์ ครอบครัวที่ ‘เลือดชิด’ ที่สุดในอเมริกา

พิมพ์ชนก พุกสุข

การสืบราชสันตติวงศ์โดยราชสกุล “มหิดล”

กษิดิศ อนันทนาธร

เรื่อง: โสภณ ศุภมั่งมี

RELATED POSTS

MOST READ

ปาณิส โพธิ์ศรีวังชัย

พิมพ์ชนก พุกสุข

กษิดิศ อนันทนาธร

พลังความรู้และความคิดสร้างสรรค์ เป็นฐานสำคัญในการเปลี่ยนแปลงสังคมให้ดีขึ้น

เต็มที่กับบทความและสื่อสร้างสรรค์ที่จัดมาให้แบบรู้ใจที่สุด

บันทึกเนื้อหาไว้อ่านในภายหลัง

อ่าน 101 ในแบบที่คุณชื่นชอบ

เข้าสู่ระบบด้วยอีเมล

สมัครสมาชิก

สมัครสมาชิกเรียบร้อยแล้ว

ลืมรหัสผ่าน

เข้าสู่ระบบด้วย

พลังความรู้และความคิดสร้างสรรค์
เป็นฐานสำคัญในการเปลี่ยนแปลงสังคมให้ดีขึ้น