Phát triển cơ sở dữ liệu mở Ngân hàng Gen Việt Nam

21-11-2020 10:43 | Thời sự

SKĐS - Ngày 21/11/2020, tại Hà Nội đã diễn ra Lễ Ký kết hợp tác giữa Viện Phát triển Y Dược Công nghệ cao (Medpharin) và Công ty TNHH MTV My Health về xúc tiến nghiên cứu, phối hợp triển khai Trung tâm Ngân hàng Gen Việt Nam.

Tiếp theo thành công của các dịch vụ được kết hợp giữa 2 bên về dịch vụ phân tích giải trình tự gen người (xét nghiệm gen WGS, WES), lưu trữ hồ sơ sức khỏe cá nhân HR247, ứng dụng đọc xét nghiệm Dr.Vivi, ứng dụng bách khoa toàn thư về y tế và sức khỏe Dr.Kuka, Phần mềm miễn phí quản lý phòng khám Clinics,… hai bên tiếp tục phát triển dự án “Ngân hàng gen Việt Nam” (www.genbank.org.vn) vì phục vụ sự phát triển ngành công nghệ sinh học gắn với y tế và công nghệ thông tin tại Việt Nam.

Hiện nay, trên thế giới có 3 ngân hàng dữ liệu gen lớn (CSDL) là GenBank - NCBI (Ngân hàng CSDL sinh học của Mỹ), EMBL-Bank (CSDL của châu Âu về trình tự nucleotide, dự đoán tương tác protein-protein) và DDBJ – DNA Data Bank of Japan (Ngân hàng CSDL DNA của Nhật).

Đây là các ngân hàng cơ sở dữ liệu (CSDL) mở, được trao đổi hàng ngày nhằm góp phần tăng thêm tổng số dữ liệu về chuỗi trình tự trên thế giới. Các cơ sở dữ liệu đã chia sẻ hầu như thống nhất với nhau và được gọi là INSD – trình tự cơ sở dữ liệu quốc tế Nucleotide.

Khi các dữ liệu được xem dưới dạng là nguồn mở và được chia sẻ trong thế giới rộng lớn, các nhà nghiên cứu không ngừng nỗ lực để mô tả thông tin về các dữ liệu càng nhiều càng tốt, theo các quy tắc thống nhất của INSD.

Lợi ích của ngân hàng Gen:

Được coi là 1 thư viện, mỗi cuốn sách là 1 trình tự nucleotit hoặc axit amin của protein và được đánh số. Giúp người dùng tra cứu, tìm được các trình tự cần quan tâm: So sánh với 1 đoạn ADN bất kỳ với dữ liệu ngân hàng để biết nó của sinh vật nào; Dịch mã 1 phân tử ADN sang trình tự axit amin; Xác định đột biến, sai khác về trình tự nucleotit trong cùng một sản phẩm gen; Mô phỏng mối quan hệ loài, dưới loài dựa vào việc so sánh mức độ sai khác về trình tự nucleotit.

Lợi ích của việc biết được trình tự của 1 gen:

- Phát hiện sớm bệnh

- Nghiên cứu sự có mặt của các gen trong các loại sinh vật khác nhau

- Phương pháp trị liệu gen

- Tạo ra các sinh vật mới mang đặc tính mong muốn

- Xác định được axit amin nào đóng vai trò quan trọng - so sánh sự sai khác ở các loài

Genbank đáp ứng đầy đủ các điều kiện để vận hành ngân hàng gen, gồm có:

- Hệ thống máy chủ lớn, mạnh mẽ

- Dữ liệu lớn về các kết quả nghiên cứu trong lĩnh vực y sinh học

- Kết nối với các tạp chí khoa học

- Những chuyên gia trong lĩnh vực y sinh, tin sinh, hóa học,... để vận hành, đăng tải và cập nhật thường xuyên các thông tin và tri thức liên quan

- CSDL của các gen, các rối loạn di truyền, tính trạng của các loài động vật

- Các tổ chức GenBank trao đổi dữ liệu với nhau hàng ngày.

- CSDL mô hình cấu trúc phân tử 3D

- Các nguồn genom đặc thù của từng loài sinh vật - không phải chỉ có con người

- Gồm nhiều hệ thống CSDL khác liên quan như hóa học, genom, hệ thống học, protein, nucleotit, tài liệu, chuyên gia.

Tại Lễ ký kết, ông Phạm Hoàng Tứ - CEO Công ty TNHH My Health cho biết: “Ngân hàng dữ liệu mở về hệ gen người Việt Nam – GENBANK (www.genbank.org.vn) sẽ là một cơ sở dữ liệu tích hợp, có thể tìm kiếm, cung cấp thông tin toàn diện, thân thiện với người dùng về tất cả các gen người được chú thích và dự đoán.

Cơ sở kiến thức tự động tích hợp dữ liệu tập trung vào gen từ khoảng 150 nguồn web (CSDL liên kết), bao gồm thông tin gen, phiên mã, proteomics, di truyền, lâm sàng và chức năng. Ngoài ra, chúng tôi mong muốn tập hợp và quy tập được toàn bộ các chuyên gia về y sinh và tin học cho việc phối kết hợp, cộng tác vì sự phát triển của ngành công nghệ sinh học Việt Nam”.

Mặc dù các cơ sở dữ liệu trên thế giới được cấu trúc và phân loại có phần nào khác nhau, tuy nhiên, thống nhất chung vẫn bao gồm các chú thích của tất cả các trình tự DNA được công bố công khai: CSDL tài liệu, CSDL Nucleotide, CSDL Protein và cấu trúc 3 chiều (3D) của các domain trong phân tử protein, Cơ sở dữ liệu cấu trúc 3D domain, CSDL hệ thống học (Taxonomy), Cơ sở dữ liệu genome, CSDL của các dự án giải trình tự, CSDL gen biểu hiện, CSDL hóa học, các công cụ tìm kiếm và phân tích, CSDL bản đồ,…

Trước mắt, theo PGS.TS. Đinh Vạn Trung – Viện trưởng Viện Medpharin: “Chúng tôi sẽ tập trung cho việc xây dựng từ điển hệ gen người bao gồm việc dịch và chú giải 20.916 gen mã hóa protein.

Đây là công việc cần sự tham gia và phối hợp của nhiều chuyên gia và cơ quan vì số lượng này tương đương với ½ lượng từ vựng của Đại từ điển tiếng Việt. Việc dịch và phiên giải này sẽ là căn cứ cho phổ cập kiến thức và thông tin về phân tích gen cũng như nghiên cứu khoa học về gen tại Việt Nam”.

Nguyễn Hoàng

Quan tâm nhất Mới nhất

Xem thêm bình luận

Ý kiến của bạn