hoangvinh

hoangvinh’s Blog

Archive for the ‘Biology’ Category

Hidden Markov models in biological sequence analysis

Đăng bởi Hoàng Vinh on Tháng Mười Một 21, 2007

Hidden Markov models in biological sequence analysis

by E. Birney
The vast increase of data in biology has meant that many aspects of computational science have been drawn into the field. Two areas of crucial importance are large-scale data management and machine learning. The field between computational science and biology is varyingly described as “computational biology” or “bioinformatics.” This paper reviews machine learning techniques based on the use of hidden Markov models (HMMs) for investigating biomolecular sequences. The approach is illustrated with brief descriptions of gene-prediction HMMs and protein family HMMs.

Introduction

There has been a revolution in molecular biology over the last decade due to a simple economic fact: The price of data gathering has fallen drastically. Nowhere is this better illustrated than in large-scale DNA sequencing. At current costs, it is economical to determine the DNA sequence of the entire genome of a species (the genome is all of the DNA sequence passed from one generation to the next), even for species with large genomes, such as humans.

The basic information of interest in bioinformatics pertains to DNA, RNA, and proteins. Molecules of DNA are usually designated by different sequences of the letters A, T, G, and C, representing their four different types of bases. RNA molecules are usually designated by similar sequences, but with the Ts replaced by Us, representing a different type of base. Proteins are represented by 20 letters, corresponding to the 20 amino acids of which they are composed. A one-to-one letter mapping occurs between a DNA molecule and its associated RNA molecule; and a three-to-one letter mapping occurs between the RNA molecule and its associated protein molecule. A protein sequence folds in a defined three-dimensional structure, for which, in a small number of cases, the coordinates are known. The defined structure is what actually provides the molecular function of the protein sequence.

The basic paradigm of biology is shown graphically in Figure 1. Depicted in the figure is a region of DNA that produces a single RNA molecule, which subsequently produces a single protein having a well-defined biological function.

Figure 1Figure 1

Roughly speaking, the time and cost of determining information increases from the top of the diagram to the bottom. Determining DNA and RNA sequences is relatively cheap; determining protein sequences and protein structures is far more expensive; many person-years can be spent trying to elucidate the function of a single protein. A clear goal for bioinformatics is to provide a way to convert the cheaper information at the top to the more valuable information at the bottom. Two steps have proven to be difficult. For unknown reasons, large organisms deliberately process the RNA sequence that is derived from the DNA sequence by a method known as pre-mRNA splicing. This removes specific pieces of the RNA (called introns) and fuses the remaining pieces (called exons). The exons remain collinear with their original layout in the DNA sequence. The ratio of exon sequence to intron sequence is around 1:50 in human DNA, and the intron sequence appears to be extremely “random” in nature, making effective discrimination difficult. Despite this challenge, bioinformatics has developed a reasonably successful solution using HMMs (see below). The second problem is deducing protein structure from a linear protein sequence. This “folding problem” has resisted concerted attack from researchers over the last twenty years. Although there have been many exciting advances in the area of protein folding, it seems likely that there will not be a solution to this problem in the next five or more years.

Bioinformatics can thankfully sidestep both of these problems by using arguments of evolution. Imagine the proto-rodent that represents the common ancestor between mouse and human. This creature had a region of its DNA sequence which made a protein with a specific function (for example, catalyzing the reduction of ethanol to acetaldehyde). At some point there was a speciation event which led eventually to man and mouse. In the two lineages, the DNA sequences were maintained from generation to generation, sometimes suffering a mutation that changed the DNA sequence. As long as the mutation did not disadvantage the individual, in general preserving the function of the protein, the mutation would be passed on to its descendants. In the extant species of man and mouse, one ends up with two similar but not identical regions of DNA sequence which form two similar proteins with similar structures and functions.

This argument of common ancestry, or homology, is illustrated pictorially in Figure 1 by the horizontal arrows. Arguments of homology are the bedrock of bioinformatics. It is relatively easy to find a clearly homologous DNA sequence presupposed to exist at the first cellular organism and observable in all living organisms— for example, the DNA sequence which produces the proteins found in the ribosome. This conservation in the face of potentially billions of random mutations in the DNA sequence shows how much selection (i.e., an individual with a deleterious mutation is unlikely to pass on this mutation) occurs in biology.

Given that two proteins are homologous, one can deduce that, at the very least, portions of the 3D structure of the two proteins are similar, if not some functional aspects of the protein. Since there exist large databases of known proteins with known functions, a considerable amount of bioinformatics pertains to transferring knowledge from known to unknown proteins using arguments of homology. This process is very efficient. Despite the millions of organisms, each containing thousands of genes, researchers have estimated that there are only around 4000 unique protein parts which have been reused by evolution over time (although these 4000 unique protein parts form many more than 4000 molecular functions).

The degree of homology is determined by calculating some metric indicating how similar two sequences are. The observed similarity can be due either to homology between the two sequences or simply the “by chance” score created by matching two unrelated sequences. In more advanced formalisms, a single sequence is scored against a mathematical model of a particular type of conserved sequence region, again using a hidden Markov model, as discussed later. In general, the farther down the information flow of Figure 1, the better the measure of similarity, because it is easier to deduce that two protein sequences are homologous than two DNA sequences. The end result is that there are two everyday tasks for bioinformatics: deducing the protein sequence from the DNA sequence and comparing protein sequences to an existing database of protein sequences, both of which utilize hidden Markov models.

The rest of this paper describes these two methods in broad detail. The reader should be aware that the author deliberately ignores three large areas of probabilistic models that are being used in biology. One is the use of probabilistic models to represent the alignment of two sequences (often proteins). The basic HMM used here is quite rare in other fields but ubiquitous in bioinformatics; some recent papers are a fully Bayesian approach to sequence alignment [1] and a novel accuracy-based a posteriori decoding method [2]. The second area is the use of probabilistic models for evolutionary tree analysis, concerning which there is a long-established research interest; some recent papers include the integration of an HMM with tree methods [3]. The final area is the use of stochastic-context-free grammars (SCFGs) for RNA analysis. An SCFG is to yacc what a hidden Markov model is to lex, and they are ideally suited to RNA analysis, since RNA forms stem-loop structures analogous to the nested-bracket structure found in context-free grammars. Some recent papers discuss the exciting ability to push into more-context-dependent grammars [4]. Readers should also be aware that many of these probabilistic methods have nonprobabilistic parameterized counterparts, in some cases predating the probabilistic method by more than a decade and providing very effective techniques. The author’s own prejudice is to view nonprobabilistic parameterized systems as being interpretable as some sort of probabilistic model.

Hidden Markov models

An HMM is a graph of connected states, each state potentially able to “emit” a series of observations. The process evolves in some dimension, often time, though not necessarily. The model is parameterized with probabilities governing the state at a time t + 1, given that one knows the previous states. Markov assumptions are used to truncate the dependency of having to know the entire history of states up to this point in order to assess the next state: Instead, only one step back is required. As the process evolves in time through the states, each state can potentially emit observations, which are regarded as a stream of observations over time. These models are often illustrated graphically as shown in Figure 2, with the states being circles and transitions as arrows between the states.

Figure 2Figure 2

Given a particular set of parameterized models, two questions can be answered: For a given observed sequence, which model is the most likely to explain this data, and for a given sequence and a given model, what is the most likely reconstruction of the path through the states. In addition, models can be learned from the data, in which parameters are estimated by expectation-maximization techniques. It is very natural to use a Bayesian statistical framework with HMMs. This is because the likelihood of, for example, observing a sequence given a particular model is a natural calculation for HMMs. Bayesian statistics provide a framework for converting this likelihood into an a posteriori probability (the probability of the model, given the observed sequence) that includes the ability to integrate prior knowledge about, for example, the way in which proteins evolve.

For biological sequences, the “time” dimension is replaced by the position in the sequence. Hidden Markov models prove so successful in this field because they can naturally accommodate variable-length models of regions of sequence. This is generally achieved by having a state which has a transition back to itself. Because most biological data has variable-length properties, machine learning techniques which require a fixed-length input, such as neural networks or support vector machines, are less successful in biological sequence analysis.

Gene-prediction HMMs

Gene-prediction HMMs model the process of pre-mRNA splicing followed by protein translation. The input of this process is the genomic DNA sequence and the output is the parse tree of exons and introns on the DNA sequence, from which the protein sequence of the gene prediction can be predicted.

The gene-prediction HMMs are relatively standard: An abbreviated HMM is shown in Figure 2. There are states representing exons and introns, with specific states to model aspects of the gene parse; in particular, the crossover points between exons and introns (denoted as the 5 and 3 splice sites) have strong sequence biases. The exemplar program for the field is Genscan by Chris Burge and Samuel Karlin [5], with other good examples being Genie by David Kulp and colleagues [6] and HMMGene by Anders Krogh [7]. Depending on one’s outlook, these programs either do well, with base-pair specificity in the 80% range in well-defined test sets, or badly, in the sense that 50% gene predictions appear to be completely wrong in large-scale genomic tests.

Many of the new approaches are hoping to integrate additional information from similar sequences at the RNA or protein level. All of the authors mentioned above are integrating this information, and there are other approaches, such as the present author’s own work, which provide a formal integration of protein similarity with gene prediction [8, 9].

Profile HMMs

Anders Krogh and colleagues have developed a hidden Markov model equivalent of profile analysis for investigating protein families [10]. Profile analysis provided an ad hoc way to represent the “consensus profile” of amino acids for a set of protein sequences belonging to the same family. The hidden Markov model applied was deliberately modeled on this successful technique, but introduced the notion of using probability-based parameterization, allowing both a principled way of setting the gap penalty scores and also more novel techniques such as expectation maximization to learn parameters from unaligned data.

The architecture of the HMM is shown in Figure 3. It has a simple left-to-right structure in which there is a repetitive set of three states, designated as match, delete, and insert (M, D, and I). The match state represents a consensus amino acid for this position in the protein family. The delete state is a non-emitting state, and represents skipping this consensus position in the multiple alignment. Finally, the insert state models the insertion of any number of residues after this consensus position. This type of repetitive HMM is also common in speech recognition, where it is sometimes called a “time-dependent” HMM or “time-parameterized” HMM.

Figure 3Figure 3

The use of profile HMMs was greatly enhanced in the HMMER package by Sean Eddy [11]. HMMER provided a free, stable, and effective software package to build, manipulate, and use HMMs, as well as a number of important improvements to the use of HMMs. First, HMMER provided log-odds likelihood of the model compared to a random model to indicate the relative likelihood that a new sequence belongs to this family. In the second iteration of the package, HMMER2, the HMM architecture was improved, in particular reducing the number of parameters to learn and in addition deliberately modeling repeated occurrences of a single protein “domain” in one protein sequence. HMMER2 also introduced a frequentist interpretation of the log-odds likelihood statistic by providing the ability to calibrate an HMM against a random distribution of sequences and fitting a distribution under the assumption that it was an extreme value distribution. This calibration and curve-fitting approach produced a statistic that is far more powerful than, but still as accurate as, that produced by the Bayesian a posteriori probability approach.

The success of HMMER in providing a stable, robust way to analyze protein families gave rise to a number of databases of hidden Markov models. Such databases are similar in many ways to the databases of phonemes and longer words used in speech recognition: Since biology has a limited number of protein families in existence, sheer enumeration of these protein domains is achievable. Despite the early promise of using unsupervised training approaches to derive these HMMs, highly supervised approaches by bioinformatics experts have always outperformed the more automatic approaches. The databases of profile HMMs are therefore focused around manual adjustment of the profile HMMs followed by an automatic gathering of complete datasets from large protein sets, as illustrated by the use of the Pfam (protein family database) [12] and SMART (simple modular architecture research tool) [13] approaches. Pfam in particular now possesses coverage significant enough that 67% of proteins contain at least one Pfam profile HMM and 45% of residues in the protein database are covered in total by the HMMs. This extent of coverage, coupled with the good statistical behavior of the profile HMMs, has made Pfam an automatic protein classification system without peer.

Theoretical contributions from bioinformatics

It is easy to think that much of bioinformatics is the rather mundane application of existing machine learning techniques to yet another set of data. However, like any real-life problem, bioinformatics stretches the methods in ways in which other datasets have not. This has led to a number of advances in machine learning from bioinformatics. Here are some selected highlights:

  • Small dataset usage. Bioinformatics, like some other fields, uses small sets of data but comprises a large body of theory about how certain distributions are presumed to behave. By integrating some of this theory into more standard prior distribution style methods, a number of novel methods have been developed, such as applying multiple Dirichlet priors [14] and maximizing the use of small datasets [15].
  • Novel decoding methods. Much of bioinformatics is less interested in the question of which model a particular set of observations come from than in the path taken through a particular model. The standard maximum-likelihood path (also called the Viterbi path) is not always the best path for a particular problem. Novel methods include a posteriori decoding to maximize the accuracy of the path [2] and decoding methods for integrated probabilistic methods [7].
  • General extensions of techniques. Some interesting work has occurred in bioinformatics in the integration of machine learning techniques. In the author’s own work with Richard Durbin, we were led to derive a formal process to combine two separate HMMs into one [9]. David Haussler and Tommi Jaakkola provided a way of combining a discriminant method (support vector machines) with a generative HMM for providing better performance in a stringent class-distinction test [16].

Open areas for research in hidden Markov models in biology

Open areas for research in HMMs in biology include the following:

  • Integration of structural information into profile HMMs. Despite the almost obvious application of using structural information on a member protein family when one exists to better the parameterization of the HMM, this has been extremely hard to achieve in practice.
  • Model architecture. The architectures of HMMs have largely been chosen to be the simplest architectures that can fit the observed data. Is this the best architecture to use? Can one use protein structure knowledge to make better architecture decisions, or, in limited regions, to learn the architecture directly from the data? Will these implied architectures have implications for our structural understanding?
  • Biological mechanism. In gene prediction, the HMMs may be getting close to replicating the same sort of accuracy as the biological machine (the HMMs have the additional task of finding the gene in the genomic DNA context, which is not handled by the biological machine that processes the RNA). What constraints does our statistical model place on the biological mechanism— in particular, can we consider a biological mechanism that could use the same information as the HMM?

There are many other topics, both in probabilistic modeling and more generally in bioinformatics as a discipline waiting for enthusiastic machine-learning researchers. The author looks forward to the field growing over the coming decade.

References

Received August 2, 2000; accepted for publication December 19, 2000

Đăng trong Biology | Leave a Comment »

Đăng bởi Hoàng Vinh on Tháng Mười Một 16, 2007

Giải nobel y học hay sinh lí học 2007 và lợi ích cho người bệnh

Vietsciences- Nguyễn Văn Tuấn           11/11/2007


Theo thông lệ hàng năm, ngày 8 tháng 10 vừa qua, Hàn lâm viện Thụy Điển vừa công bố tên các nhà khoa học được trao giải Nobel về sinh lí học hay y học (physiology or medicine). Năm nay, qua bình chọn một thời gian, 3 nhà khoa học được trao giải thưởng cao quí (1,54 triệu USD) này: giáo sư Mario R. Capecchi, 70 tuổi (Viện nghiên cứu y khoa Howard Hughes, Đại học Utah, Mĩ); giáo sư Martin J. Evans, 66 tuổi (Đại học Cardiff, Anh); và giáo sư Oliver Smithies, 82 tuổi (Đại học North Carolina, Mĩ).  Ba nhà khoa học cùng nghiên cứu về di truyền và công nghệ sinh học, là những người tiên phong trong việc phát triển một mô hình khoa học có tên khá “dân giả” là “nốc ao” (“knock-out”, nhưng thuật ngữ khoa học là “gene targeting” hay “homologous recombination” – tái hợp tương đồng) để thẩm định ảnh hưởng của gene trên chuột.  Trong bài này, tôi sẽ bàn ngắn gọn về ý nghĩa của công trình “nốc ao” của ba nhà khoa học này.

Nhạc sĩ Trịnh Công Sơn có viết một câu nhạc rất thơ mà cũng thấm đẩm triết lí nhà Phật, “Hạt bụi nào hóa kiếp thân tôi, để một mai tôi về làm cát bụi”, như để nhắc nhở sự mong manh, tính phi vĩnh cửu của một đời người.  Nhưng lời nhạc và ý nghĩa của nó còn gián tiếp (hay chủ ý?) ví von một chân lí khoa học về sự cấu trúc cơ bản của cơ thể con người.  Quả thật, theo thuyết sinh học phân tử (molecular biology), mỗi chúng ta được hình thành bắt đầu từ chỉ một tế bào.  Tế bào này cứ phân chia liên tục và sản sinh ra nhiều tế bào mới để cấu tạo thành một con người “trưởng thành”.  Do đó, cơ thể con người được cấu tạo bằng nhiều tế bào.  Vài ước tính mang tính lí thuyết cho thấy con số tế bào trong con người dao động từ 60.000 tỉ đến 100.000 tỉ! 

Xin nhắc lại vài thông tin căn bản: trung tâm của mỗi tế bào là nhân (nucleus).  Nhân hàm chứa những chất liệu di truyền mà ta thường gọi là DNA (viết tắc từ chữ deoxyribonucleic acid). Mỗi nhân thường có hàng triệu DNA. Mỗi DNA gồm có bốn mẫu tự (còn gọi là nucleotide): A (adenine), C (cytosine), G (guanine), và T (thymine).  Một mảng DNA tạo thành một gene.  Và nhiều gene tạo thành một bộ di truyền hay nhiễm sắc thể (chromosome).  Cơ thể Con người có 23 đôi nhiễm sắc thể.  Có thể nói một cách ví von bằng cách dùng quyển sách như là một ví dụ để minh họa cho mối liên hệ giữa gene, nhiễm sắc thể, và bases.  Trong sách có 23 chương (chromosome); mỗi chương có nhiều câu chuyện (gene); mỗi câu chuyện có nhiều đoạn văn (exons); mỗi đoạn văn có nhiều chữ (codons); và mỗi chữ được viết bằng 4 mẫu tự (bases). 

Gene có chức năng gửi các tín hiệu hóa học đi đến tất cả các nơi trong cơ thể.  Những tín hiệu này có chứa đầy đủ các thông tin, các “chỉ thị” cụ thể cho các cơ quan trong cơ thể con người phải vận hành ra sao.  Nếu những gene trong cơ thể hoạt động “bình thường”, và sản phẩm hay tín hiệu của gene được chuyển giao một cách thích hợp thì cơ thể con người không có vấn đề; nhưng nếu trong quá trình vận hành của gene có sự cố thì hậu quả là cơ thể sẽ mất thăng bằng và dẫn đến bệnh tật cho con người.

            Do đó, có thể nói rằng phần lớn những khác biệt về đặc tính của con người, kể cả thế chất và tâm thần, đều do tác động của hai yếu tố: di truyền và môi trường.  Thật ra, nói chính xác hơn là những khác biệt giữa các cá nhân trong một quần thể là hệ quả của sự tương tác giữa di truyền và môi trường.  Chẳng hạn như nhiều nghiên cứu trong thời gian ba thập niên qua cho thấy các yếu tố di truyền có thể giải thích khoảng 70% những khác biệt về mật độ xương, 40-60% những khác biệt về tỉ trọng cơ thể (body mass index), 65-85% những khác biệt về chiều cao cơ thể, 30-40% những khác biệt về nguy cơ mắc bệnh đái tháo đường giữa các cá nhân trong quần thể.  Nhưng các yếu tố di truyền không thể giải thích tất cả những khác biệt, vì còn các yếu tố môi trường cũng đóng vai trò không kém phần quan trọng. 

Con người có bao nhiêu gene? Trước kia, khi công trình giải mã gen chưa hoàn tất, các nhà khoa học ước đoán rằng cơ thể con người có khoảng 100.000 gene.  Đến năm 2001, khi kết quả giải mã đầu tiên được công bố, con số này giảm xuống còn 30.000 đến 40.000 gene.  Nhưng nay, sau khi công trình giải mã gene hoàn tất, các nhà khoa học ước tính rằng cơ thể con người hàm chứa chỉ khoảng 20.000 đến 25.000 gene.  Như vậy số lượng gene trong con người có thể còn thấp hơn số gene trong cơ thể chuột (khoảng 30.000 gene)!

Ngoài chức năng quyết định đặc tính của cơ thể con người, gene còn có chức năng … gây bệnh.  Một khi gene đột biến (tức là một mảng DNA đột nhiên bị thay đổi, như từ TGCCA thành TCCCA chẳng hạn) có thể gây ra rối loạn tế bào, bệnh tật, thậm chí tử vong.  Chỉ một thay đổi rất nhỏ như thế có thể làm cho chúng ta phải suốt đời đau khổ vì gene! Một số bệnh chỉ do một gene gây nên như bệnh sơ nang (cystic fibrosis), bệnh Huntington, bệnh thiếu hồng huyết cầu hình lưỡi liềm (sickle cell disease), v.v… thường chỉ vì đột biến của một mẫu tự DNA trong gene. Các bệnh này thường được gọi là bệnh đơn gene (monogenic diseases).  Nhưng phần lớn các bệnh kinh niên mà chúng ta thường mắc phải như đái đường, cao huyết áp, béo phì, loãng xương, tai biến, v.v… là những bệnh do nhiều gene và môi trường gây nên, nên hay gọi là các bệnh đa gene (multifactorial diseases).  Cho đến nay, y học vẫn chưa tìn ra tất cả các gene liên quan đến các bệnh đa gene này. 

Mô hình nốc-ao gene

Do đó, vấn đề đặt ra là làm sao biết được gene nào có ảnh hưởng đến đặc tính hay bệnh nào ở con người.  Đây là vấn đề không đơn giản chút nào, vì tìm gene có liên quan đến một bệnh nào đó trong số 25.000 gene cũng chẳng khác nào “mò kim đáy biển”.  Một trong những vấn đề đặt ra cho y học thế kỉ 21 là phát triển phương pháp để truy tìm những gene có ảnh hưởng đến bệnh tật, và qua đó hi vọng sẽ tìm hiểu cơ chế ảnh hưởng của gene để phát triển phương pháp điều trị bệnh.  Công trình nghiên cứu, hay nói đúng hơn là mô hình, của giáo sư Mario R. Capecchi và đồng nghiệp của ông (giáo sư Martin J. Evans và giáo sư Oliver Smithies) thể hiện một sự đột phá trong nghiên cứu di truyền. 

             Về mặt ý tưởng, mô hình của họ rất đơn giản, và có thể minh họa bằng một ví von như sau: để biết xăng dầu có ảnh hưởng đến sự vận hành của một cỗ máy, người ta có thể lấy xăng dầu ra khỏi cỗ máy và thay thế bằng nước, và quan sát sự vận hành của cỗ máy sau đó ra sao.  Tương tự, nếu nhà nghiên cứu có lí do để cho rằng gene A có ảnh hưởng đến bệnh ung thư, họ có thể rút gene A khỏi cơ thể và thay thế vào đó bằng một gene khác (hay một mảng DNA khác) và xem quá trình phát sinh ung thư ra sao.  Đây là công nghệ có tên là “knock-out” (còn gọi là “gene targeting” hay “homologous recombination”).  Nói cách khác, công nghệ nốc-ao có mục đích là “quật ngã” gene hiện hành và thay thế nó bằng một gene mới để đánh giá xem gene bị quật ngã có thật sự ảnh hưởng đến bệnh tật. 

Vào thập niên 1980s, có thể nói đó là một ý tưởng táo bạo.  Ý tưởng trên được giáo sư Capecchi mô tả trong một đề cương nộp cho Viện Y tế Mĩ để xin tài trợ vào năm 1980.  Các chuyên gia bình duyệt bác bỏ đề cương của ông, vì họ cho rằng dự án nghiên cứu đó bất khả thi!  Bốn năm sau (1984), với một số kết quả sơ khởi, giáo sư Capecchi lại nộp đề cương đó xin tài trợ, và lần này ông được tài trợ.  Lần này, các chuyên gia bình duyệt phê trong đề cương rằng họ rất vui mừng khi thấy ông đã không nghe lời họ mà vẫn kiên trì theo đuổi ý tưởng đó! 

            Nhưng vì lí do y đức mô hình đó không thể thực hiện trên con người.  Không ủy ban y đức nào cho phép nhà nghiên cứu thay thế gene của một con người cả.  Đến đây thì chuột cung cấp cho các nhà nghiên cứu một giải pháp khả dĩ.  Chuột được xem là một con người thu nhỏ, vì loài vật này có những cơ phận rất giống với con người, và quan trọng hơn nữa, khoảng 95% các mảng DNA trong chuột cũng tìm thấy trong con người.  Chính vì thế, nghiên cứu trên chuột là một mô hình nghiên cứu cực kì có ích để có thể ứng dụng trên con người. 

            Về mặt kĩ thuật, mô hình của giáo sư Capecchi và đồng nghiệp của ông được thực hiện qua 6 bước như sau:

  • Bước 1, lấy tế bào từ túi phôi (blastocyst) của chuột và trồng thành một giòng phôi tế bào mầm;
  • Bước 2, chuẩn bị một mảng DNA (nhân tạo) mà nhà nghiên cứu muốn đánh giá tác động của gene;
  • Bước 3, đưa mảng DNA nhân tạo vào giòng tế bào mầm bằng phương pháp transfection (tức làm cho tế bào bị “nhiễm”);
  • Bước 4, tế bào mầm được cấy vào chuột sẽ “sinh sôi nẩy nở” (theo cấp số nhân) trở thành nhiều tế bào khác;
  • Bước 5, tiêm các tế bào mầm mới sản sinh vào túi phôi của chuột;
  • Bước 6, một thế hệ chuột mới ra đời với cấu trúc DNA mới của gen, và cho phép các nhà nghiên cứu ảnh hưởng của việc “nốc ao” gene nguyên thủy.

Ngày nay, mô hình gồm sáu bước trên của giáo sư Capecchi và đồng nghiệp được xem là mô hình kinh điển trong nghiên cứu ảnh hưởng của gene.  Mô hình này đã mở ra một định hướng nghiên cứu mới: định hướng nốc-ao.  Kể từ khi mô hình này ra đời, đã có hơn 40.000 công trình nghiên cứu gene sử dụng mô hình nốc-ao để nghiên cứu cơ chế và ảnh hưởng của gene đến bệnh và các đặc tính sinh học của con người.  Có thể nói không ngoa rằng mô hình (tuy đơn giản so với trình độ kĩ thuật hôm nay) của họ đã làm một cuộc cách mạng trong di truyền học và góp phần cho ra đời nền công nghệ sinh học ngày nay.  

Lợi ích của mô hình nốc-ao gene?

Nghiên cứu di truyền có 3 mục tiêu chính: tiên đoán bệnh, tìm hiểu cơ chế của bệnh, và phát triển thuốc để điều trị.  Khi một gene có liên quan đến một bệnh được phát hiện, các nhà khoa học có thể tiên đoán khả năng mà một cá nhân sẽ mắc bệnh ngay từ lúc mới lọt lòng mẹ (vì gene không thay đổi theo thời gian!), và do đó, y tế có thể tìm biện pháp phòng ngừa hay điều trị trước khi cá nhân mắc bệnh.  Mục đích thứ hai của gene là qua nghiên cứu cơ chế hoạt động của gene, các nhà khoa học có thể biết cơ chế và quá trình phát triển của bệnh như thế nào.  Lợi ích sau cùng là khi đã biết được cơ chế và quá trình phát triển, các nhà khoa học có thể bào chế thuốc hay phát triển một thuật điều trị để ngăn ngừa bệnh cho một cộng đồng.

            Cần nhắc lại rằng trong giai đoạn đầu của nền y học thế giới, kể cả cho đến những thập niên đầu thế kỉ 20, việc chữa trị bệnh hầu như chỉ tập trung vào chữa trị ở cấp “vĩ mô”, tức là các phương thức trị bệnh chủ yếu dựa trên cơ chế bệnh sinh và bệnh nguyên.  Trừ  nhóm bệnh nhiễm khuẩn là điều trị tương đối có kết quả, còn lại hầu như chỉ giải quyết được tức thời giảm triệu chứng, hoặc kéo dài sự chịu đựng của cơ thể mà không thể tiệt căn.  Ngay cả những bệnh truyền nhiễm thì chữa khỏi, nhưng những biến chứng hay di chứng của bệnh để lại lại là một chuyện nan giải cho cả bệnh nhân và thầy thuốc, điển  hình như biến chứng thần kinh, hoặc các biến chứng tim của bệnh thấp khớp.  Các thuật điều trị nếu có thể hoặc bảo tồn hoặc thay thế nhưng hầu như không thể nào gọi là chữa khỏi được. Vì thế, không ai ngạc nhiên khi thấy hầu hết các thuật chữa trị hiện nay chỉ đem lại hiệu quả cho khoảng 60 phần trăm bệnh nhân, và trong nhiều trường hợp bệnh nhân lại chịu phản ứng phụ có hại cho sức khoẻ.  Trong nhiều thập niên gần đây, nghiên cứu y khoa đã bắt đầu chuyển sang một phương hướng mới: đi tìm thuật chữa trị mới sao cho có thể ứng dụng cho từng cá nhân bệnh nhân.  Đó cũng là nhờ tiến bộ của ngành sinh học phân tử, nghiên cứu về tế bào và cấu trúc di truyền của tế bào.

            Do đó, có thể nói một cách vắn tắt rằng đa số các bệnh tật, dù là thể xác hay tinh thần, đều gần như có thể bắt nguồn từ những trục trặc của tế bào, hoặc gene.  Nhưng hầu như tất cả các thuật chữa trị bệnh tật hiện nay lại có tính cách gián tiếp, và ước chừng.  Giải phẫu, hay dùng dược phẩm đều chỉ là những phương pháp trợ tiếp, cầm chừng, và chỉ tấn công bề ngoài của căn bệnh, chứ chưa tiến sâu vào cơ chế hoạt động của tế bào.  Ngoài ra, tất cả các thuật chữa trị này đều dựa vào số đông chứ không dựa vào cá nhân.  Chẳng hạn như thuốc alendronate, thử nghiệm cho thấy có hiệu quả cho số đông của một nhóm bệnh nhân, và kết quả này được khái quát hóa cho hàng loạt bệnh nhân khác.

            Vì tế bào là đơn vị cơ bản nhất của con người, và mỗi con người là một cá thể độc đáo (trên phương diện sinh học, không ai giống ai), nên việc chữa trị bệnh tật bằng cách thay thế các tế bào hay gene bị hỏng bằng các tế bào hay gene lành mạnh là một phương pháp đang được giới khoa học chú ý nhiều nhất hiện nay.  Ngoài ra, việc thay thế những gene bị đột biến tai hại bằng những gene tốt cũng là một phương hướng chữa trị đang được ứng dụng cho một số bệnh.  Chữa trị bằng tế bào hay bằng gene, nếu không là một hi vọng sau cùng, thì cũng là một phát triển quan trọng nhất trong hành trình chinh phục bệnh tật của con người.

            Mô hình nốc-ao có thể đóng góp vào việc hoàn thành mục tiêu số 2 của nghiên cứu về gene, tức tìm hiểu cơ chế của bệnh.  Nhưng cho đến nay, sau hơn 2 thập niên kể từ mô hình nốc-ao gene ra đời, y học vẫn chưa áp dụng thành tựu của mô hình này trên con người.  Chúng ta vẫn chưa biết gene nào thật sự có ảnh hưởng đến bệnh nào.  Ngay cả một số ít gene được công nhận là có liên quan đến bệnh, chúng ta vẫn không biết tại sao và cơ chế vận hành của gene ra sao.  Do đó, cho đến nay, chúng ta vẫn chưa thể điều trị bệnh bằng gene như từng hi vọng.  Ngay cả ở một vài trường hợp cá biệt mà bệnh nhân được điều trị bằng cách thay đổi các mảng DNA cũng không (hay chưa) thành công. 

            Thật ra, mô hình nghiên cứu gene mà các nhà khoa học theo đuổi có vấn đề.  Như đề cập phần đầu của bài viết, phần lớn bệnh là do nhiều gene và các gene này tương tác với các yếu tố môi trường gây nên.  Do đó, tập trung nghiên cứu chỉ một gene như mô hình nốc-ao gene không thể nào thành công trong lâm sàng được, và chắc cũng rất ít khả năng dẫn đến một thuật điều trị bằng cách thay đổi một gene (bởi vì bệnh do nhiều gene và nhiều yếu tố môi trường).  Đó chính là lí do tại sao cho đến nay, chúng ta vẫn chưa biết gì cụ thể về gene và bệnh, chúng ta vẫn chưa thể sử dụng gene để tiên đoán nguy cơ mắc bệnh trong thực tế lâm sàng, dù hàng tỉ USD đã đầu tư cho các nghiên cứu này.

            Trong vài năm gần đây, giới y khoa đã bắt đầu nghi ngờ giá trị thực tế của giải thưởng Nobel.  Vài năm trước đây, giải thưởng được trao cho các nhà khoa học nghiên cứu về … mùi vị.  Trước đó, giải thưởng được trao cho các nhà khoa học với những công trình chẳng liên quan gì đến y khoa.  Năm 1949 giải Nobel được trao cho một bác sĩ giải phẫu (Moniz) vì phẫu thuật thùy não, hay lobotomy (hay còn gọi là leucotomy) trong việc chữa trị chứng lọan thần kinh (psychotic).  Trước khi phẫu thuật được ứng dụng, bệnh nhân phải chịu nhiều cực hình như bị “nhốt” trong một lồng sắt (straitjackets), tắm bằng nước lạnh, rồi mới đến giải phẫu và giật điện.  Ngày nay phẫu thuật thùy não được xem là một phẫu thuật vi phạm y đức.  Do đó, không ít nhà nghiên cứu chẳng để ý đến ai được hay không được giải thưởng này, vì họ cho rằng giải thưởng này càng ngày càng đi xa tôn chỉ của ông Alfred Nobel.  Thật vậy, giải thưởng Nobel được thiết lập theo di chúc của ông Alfred Nobel, trong đó ông viết rằng giải thưởng nên trao cho “những ai đã đem lại lợi ích lớn nhất cho con người.” 

Tuy không ai nghi ngờ rằng mô hình của ba nhà khoa học vừa đề cập thể hiện một bước đột phá trong nghiên cứu di truyền, nhưng ứng dụng của mô hình này trong y học lâm sàng và điều trị bệnh nhân vẫn còn là câu hỏi lớn.  Nói cách khác, mô hình này chưa đem lại lợi ích thực tế gì cho bệnh nhân (chứ chưa nói đến “lợi ích lớn nhất”).  Và, trong tương lai, chưa chắc mô hình này có thể ứng dụng rộng rãi ở con người.  Do đó, theo người viết bài này, giải thưởng năm nay có thể nói là không phù hợp với nguyện vọng và tinh thần trong di chúc của ông Nobel.

GS.BS Nguyễn Văn Tuấn

Đăng trong Biology | Leave a Comment »