ซิชั่น พีอาร์ นิวส์ไวร์ - CISION PR Newswire
ออสติน รัฐเท็กซัส และซานโฮเซ รัฐแคลิฟอร์เนีย, 18 มีนาคม 2569 /PRNewswire/ -- Basecamp Research ห้องปฏิบัติการ AI แนวหน้าด้านการออกแบบชีวภาพ ประกาศเปิดตัว Trillion Gene Atlas โครงการวิทยาศาสตร์ครั้งสำคัญเพื่อสร้างและจำลองแบบข้อมูลชีวภาพในระดับหนึ่งล้านล้านยีน โครงการนี้เปิดตัวร่วมกับ Anthropic, Ultima Genomics และ PacBio และขับเคลื่อนด้วยโครงสร้างพื้นฐาน AI ของ NVIDIA โดยมีเป้าหมายขยายความหลากหลายทางพันธุกรรมเชิงวิวัฒนาการที่เป็นที่รู้จักเพิ่มขึ้น 100 เท่า ผ่านการรวบรวมข้อมูลจีโนมจากมากกว่า 100 ล้านสายพันธุ์ทั่วโลกจากหลายพันพื้นที่
ความสำเร็จนี้เกิดขึ้นได้จากเครือข่ายพันธมิตรด้านความหลากหลายทางชีวภาพทั่วโลกที่ Basecamp Research สร้างขึ้นอย่างต่อเนื่อง เป้าหมายสูงสุดคือการจัดเตรียมข้อมูลฝึกที่มีขนาดใหญ่และหลากหลายอย่างมหาศาล เพื่อให้ระบบ AI สามารถเรียนรู้จากวิวัฒนาการและออกแบบยาใหม่ได้ตามต้องการ
"โมเดล AI ด้านชีวภาพในปัจจุบันถูกฝึกจากตัวอย่างสิ่งมีชีวิตเพียงส่วนน้อยของโลก" Glen Gowers ผู้ร่วมก่อตั้งและซีอีโอของ Basecamp Research กล่าวบนเวที SXSW ที่เมืองออสติน "Trillion Gene Atlas จะขยายจักรวาลทางพันธุกรรมที่เรารู้จักออกไปหลายลำดับขั้นเกินกว่าที่มีอยู่ในฐานข้อมูลสาธารณะ การฝึกโมเดลในระดับใหญ่นี้จะสร้างกระบวนทัศน์ใหม่ของการออกแบบการรักษาที่สามารถโปรแกรมได้"
โครงการนี้ซึ่งมีขนาดเทียบเท่ากับ Human Genome Project ถูกเปิดตัวระหว่าง Health Track ในงาน SXSW และการประชุม NVIDIA GTC ที่เมืองซานโฮเซ
แก้ไขปัญหาคอขวดของข้อมูลชีวภาพ
แม้ขนาดโมเดลและพลังประมวลผลจะเพิ่มขึ้นอย่างมหาศาล แต่ข้อมูลที่หลากหลายยังคงเป็นปัจจัยสำคัญต่อความก้าวหน้าในการพัฒนายาด้วย AI และการสร้างเกณฑ์วัดผลในโลกจริง ปัจจุบันโมเดลพื้นฐานที่อิงลำดับพันธุกรรมทั้งหมดต่างพึ่งพาฐานข้อมูลสาธารณะชุดเดียวกัน โดย 80% ของโมเดลเหล่านี้ได้รับการฝึกฝนจากฐานข้อมูลสาธารณะที่มีลำดับดีเอ็นเอไม่ถึง 250 ล้านลำดับ
โมเดลพื้นฐาน EDEN ของ Basecamp Research ซึ่งเปิดตัวในเดือนมกราคม สามารถก้าวข้าม "กำแพงข้อมูล" เชิงวิวัฒนาการของอุตสาหกรรม ด้วยการฝึกสอนทั้งหมดบน BaseData™ ฐานข้อมูลจีโนมกรรมสิทธิ์ที่มีขนาดใหญ่กว่าทรัพยากรสาธารณะทั้งหมดรวมกันมากกว่า 10 เท่า การเรียนรู้จากยีนใหม่ที่ไม่เคยมีการบันทึกทางวิทยาศาสตร์มาก่อนถึง 1 หมื่นล้านยีนจาก 1 ล้านสายพันธุ์ที่เพิ่งถูกค้นพบ ทำให้ EDEN สามารถปลดล็อกการสเกลครั้งใหม่ที่สำคัญสำหรับ AI ในชีววิทยา
การขยายความหลากหลายของชุดข้อมูลในระดับมหาศาลนี้ ทำให้ EDEN ก้าวพ้นจากการคาดการณ์แบบง่าย ๆ และกลายเป็นโมเดลแรกที่สามารถออกแบบการรักษาที่หลากหลายได้โดยตรงจากคำสั่งเกี่ยวกับโรค ในการทดสอบในห้องปฏิบัติการ EDEN แสดงให้เห็นถึงกิจกรรมแบบ zero-shot ในเซลล์ T ของมนุษย์ขั้นปฐมภูมิ โดยไม่ต้องใช้ข้อมูลมนุษย์หรือข้อมูลทางคลินิก โดยโมเดลสามารถสร้างสารตั้งต้นที่มีศักยภาพในหลายรูปแบบการรักษาระดับแนวหน้า โดยเฉพาะการบุกเบิก AI-Programmable Gene Insertion (aiPGI) เพื่อแทรกยีนที่แข็งแรง และการออกแบบเปปไทด์ต้านจุลชีพแบบจำเพาะเป้าหมายที่มีอัตราความสำเร็จ 97% ต่อเชื้อก่อโรคสำคัญ
โครงการ Trillion Gene Atlas ต่อยอดแนวทางนี้โดยขยายทั้งขอบเขตและความลึกเชิงบริบทของข้อมูลจีโนมใน "อินเทอร์เน็ตแห่งชีววิทยา" ที่เหมาะสมต่อการฝึกฝน AI
"โมเดลที่ใหญ่ขึ้นเพียงอย่างเดียวนั้นไม่เพียงพอ" Phil Lorenz ซีทีโอของ Basecamp Research กล่าวเสริม "EDEN แสดงให้เห็นว่าประสิทธิภาพของ AI ทางชีวภาพเพิ่มขึ้นตามเส้นทางการสเกลที่ชันขึ้นมากด้วยข้อมูลที่มีคุณภาพสูงและมีบริบทที่สมบูรณ์ และ Trillion Gene Atlas จะขยายหลักการนี้เพิ่มอีก 100 เท่า"
ความร่วมมือด้านความหลากหลายทางชีวภาพทั่วโลก
ตลอดหกปีที่ผ่านมา Basecamp Research ได้สร้างเครือข่ายความร่วมมือทางวิทยาศาสตร์ใน 31 ประเทศ พัฒนากระบวนการจีโนมเชิงวิวัฒนาการที่ปรับขยายได้และออกแบบมาเพื่อการฝึก AI โดยเฉพาะ ผ่านการบุกเบิกกรอบการกำกับดูแลและเศรษฐศาสตร์รูปแบบใหม่ ควบคู่กับเทคโนโลยีการถอดรหัสดีเอ็นเอแบบออฟกริดเต็มรูปแบบ ช่วยให้บริษัทสามารถรวบรวมข้อมูลจีโนมคุณภาพสูงจากระบบนิเวศที่อยู่นอกเหนือขอบเขตของห้องปฏิบัติการแบบดั้งเดิม
ความร่วมมือเหล่านี้ยึดหลักการแลกเปลี่ยนองค์ความรู้ การเสริมสร้างศักยภาพในท้องถิ่น และข้อตกลงการเข้าถึงและการแบ่งปันผลประโยชน์อย่างเท่าเทียมกัน ซึ่งสอดคล้องกับกฎระเบียบข้อมูลลำดับดิจิทัลที่กำลังเกิดขึ้นใหม่ กรอบการทำงานนี้เปิดทางให้การรวบรวมข้อมูลจีโนมคุณภาพสูงในวงกว้างเป็นไปอย่างมีความรับผิดชอบ ควบคู่ไปกับการลงทุนในโครงสร้างพื้นฐานทางวิทยาศาสตร์และการฝึกอบรมภายในภูมิภาคพันธมิตร
เนื่องในโอกาสเปิดตัว Atlas ครั้งนี้ Basecamp ได้ประกาศความร่วมมือใหม่ในชิลีและอาร์เจนตินา รวมถึงการขยายความร่วมมือในแอนตาร์กติกา เพื่อขยายเครือข่ายความหลากหลายทางชีวภาพทั่วโลกเพิ่มเติม
การขยายการสร้างข้อมูลและพลังประมวลผลร่วมกับ Ultima Genomics, PacBio และ NVIDIA
Trillion Gene Atlas เกิดขึ้นได้จากความก้าวหน้าในการถอดรหัสพันธุกรรมแบบ short-read และ long-read ความเร็วสูงพิเศษ และระบบประมวลผลเร่งความเร็ว Basecamp ได้ร่วมมือกับ Ultima Genomics และ PacBio เพื่อให้บริการถอดรหัสพันธุกรรมในระดับอุตสาหกรรม รวมถึงข้อมูล long-read ที่มีความแม่นยำสูงและเต็มไปด้วยข้อมูลจำนวนมาก
Ultima เป็นผู้พัฒนาเทคโนโลยีระบบการจัดลำดับดีเอ็นเอรุ่นใหม่ (NGS) ความเร็วสูงพิเศษ ระบบการจัดลำดับดีเอ็นเอรุ่นล่าสุดของ Ultima ได้แก่ UG200 Series พัฒนาสถาปัตยกรรมการถอดรหัสแบบใช้เวเฟอร์เฉพาะของบริษัท เพื่อรองรับการถอดรหัสทั้งจีโนมและมัลติโอมิกส์ในระดับอุตสาหกรรม ด้วยต้นทุนที่เข้าถึงได้ เพื่อสนับสนุนโครงการอย่าง Trillion Gene Atlas
"ชีววิทยาขาดแคลนข้อมูลอย่างมากโดยพื้นฐานเมื่อเปรียบเทียบกับสาขาอื่นอย่างภาษาและคอมพิวเตอร์วิทัศน์ เนื่องจากนักวิจัยยังขาดเครื่องมือที่จำเป็นในการสร้างข้อมูลในระดับใหญ่" Gilad Almogy ผู้ก่อตั้งและซีอีโอของ Ultima Genomics กล่าว "เราเชื่อมั่นอย่างยิ่งว่า AI จะมีผลกระทบอย่างมหาศาลต่อความเข้าใจของเราเกี่ยวกับชีววิทยาและสุขภาพของมนุษย์ และ UG200 Series ได้รับการออกแบบตั้งแต่ต้นเพื่อรองรับชุดข้อมูลขนาดมหาศาลที่ BioAI ต้องการเพื่อทำให้คำมั่นสัญญานี้เป็นจริง เรารู้สึกตื่นเต้นที่เทคโนโลยีของเราจะสามารถสนับสนุนวิสัยทัศน์ของ Basecamp และผลักดันโครงการนวัตกรรมอย่าง Trillion Gene Atlas ให้ก้าวหน้า"
"PacBio HiFi sequencing ให้ข้อมูล long-read ที่มีความแม่นยำสูงมาก โดยคงบริบทของจีโนมไว้อย่างครบถ้วน และช่วยให้สามารถแยกความละเอียดได้ถึงระดับชนิดย่อยและแม้กระทั่งระดับสายพันธุ์ในตัวอย่างที่มีความซับซ้อน" Christian Henry ประธานและซีอีโอของ PacBio กล่าว "ข้อมูล HiFi มอบรากฐานที่เชื่อถือได้และอุดมด้วยข้อมูล ซึ่งเป็นสิ่งที่โมเดล AI ทางชีวภาพต้องการเพื่อเรียนรู้จากธรรมชาติในปริมาณมาก และขับเคลื่อนโครงการอย่าง Trillion Gene Atlas"
Trillion Gene Atlas จะขับเคลื่อนด้วยโครงสร้างพื้นฐานการประมวลผลแบบเร่งความเร็วของ NVIDIA เพื่อจัดการข้อมูลพันธุกรรมปริมาณมหาศาลในระดับเพตะเบส ภายใต้ความพยายามนี้ Basecamp มีแผนใช้ NVIDIA Parabricks เพื่อเร่งกระบวนการประกอบเมตาจีโนมอย่างมีนัยสำคัญ ความร่วมมือนี้มุ่งเน้นทั้งด้านวิศวกรรมขั้นสูงและการพัฒนาอัลกอริทึมรูปแบบใหม่ เพื่อเพิ่มประสิทธิภาพการประกอบตัวอย่างสิ่งแวดล้อมที่ซับซ้อนให้แม่นยำยิ่งขึ้น ด้วยการเร่งความเร็วนี้ การประมวลผลคู่เบสดีเอ็นเอระดับพันล้านล้าน ซึ่งเดิมอาจใช้เวลามากกว่า 20 ปี คาดว่าจะสามารถดำเนินการเสร็จสิ้นได้ภายในเวลาไม่ถึงสองปี
ด้วยการประมวลผลข้อมูลแบบขนาน การใส่คำอธิบายประกอบอัตโนมัติ และการฝึกโมเดลในระดับขนาดใหญ่ พันธมิตรคาดว่าจะบีบอัดงานที่เดิมต้องใช้เวลาประมวลผลมากกว่า 20 ปี ให้เหลือน้อยกว่าสองปี การย่นระยะเวลาตั้งแต่ขั้นตอนการถอดรหัส การประกอบ การใส่คำอธิบาย ไปจนถึงการฝึกโมเดลนี้ มีเป้าหมายเพื่อขยายทั้งประสิทธิภาพและขอบเขตของโมเดลพื้นฐานทางชีวภาพในการพัฒนาการรักษา
สร้างเวิร์กโฟลว์การออกแบบการรักษาเชิงตัวแทนแบบครบวงจร
Anthropic เข้าร่วมในโครงการนี้ในฐานะส่วนหนึ่งของความพยายามเพื่อเพิ่มขีดความสามารถใหม่ด้านวิทยาศาสตร์ชีวภาพ โดยเชื่อมต่อ Claude เข้ากับแพลตฟอร์มทางวิทยาศาสตร์ที่หลากหลายมากขึ้น ผ่านการทำงานร่วมกับทีม Claude for Life Sciences โดยมีเป้าหมายคือการใช้ประโยชน์จาก Trillion Gene Atlas และ EDEN เพื่อทำให้ Claude เป็นพันธมิตรด้านการวิจัยที่มีประสิทธิภาพมากยิ่งขึ้นสำหรับนักวิทยาศาสตร์และแพทย์ พร้อมทั้งสนับสนุนองค์กรที่นำความก้าวหน้าทางวิทยาศาสตร์ใหม่ ๆ สู่สาธารณะ
ด้วยการผสานความสามารถด้านการให้เหตุผลขั้นสูงของ Claude ความสามารถในการออกแบบการรักษาของ EDEN และไลบรารี CUDA-X ของ NVIDIA สำหรับประมวลผลข้อมูลที่ไม่มีโครงสร้าง โครงการนี้มีเป้าหมายสร้างเวิร์กโฟลว์แบบบูรณาการ เพื่อแปลความข้อมูลทางคลินิกที่ซับซ้อนและถ่ายทอดไปสู่การออกแบบการรักษาได้โดยตรง
Trillion Gene Atlas สร้างขึ้นบนสามเสาหลัก ได้แก่ การถอดรหัสดีเอ็นเอในระดับขนาดใหญ่ ความร่วมมือด้านการจัดหาข้อมูลระดับโลก และการประมวลผลขั้นสูง เมื่อทำงานร่วมกับระบบ AI ที่สามารถให้เหตุผลกับข้อมูลที่ซับซ้อนได้ รากฐานเหล่านี้จะช่วยเปลี่ยนชุดข้อมูลขนาดมหาศาลให้กลายเป็นการค้นพบด้านการรักษา ด้วยการเพิ่มข้อมูลเชิงวิวัฒนาการที่มีให้ AI อีก 100 เท่า Basecamp Research ตั้งเป้าทำให้การออกแบบยาเร็วขึ้นและเป็นระบบมากยิ่งขึ้น พร้อมต่อยอดความก้าวหน้าก่อนหน้าของ EDEN ในสาขาอย่างการบำบัดยีน และการต่อสู้กับแบคทีเรียดื้อยาปฏิชีวนะ

แสดงความคิดเห็น :