생물 정보학
information : that which resolves uncertainty. (불확실한 것을 해결하는 방법)
컴퓨터 과학에서는 '정보' 를 bit 단위로 표현한다.
information = -log₂ (확률)
ex1) 동전을 한번 던졌을 때 뒷면이 위에 나타날 확률 = 1/2 → -log₂ (1/2) = 1 (bit)
ex2) 2개의 주사위를 던졌을 때 두 수의 합이 7이 될 확률 = 1/6 → -log₂ (1/6) = log₂ 6 = 2.58 (bits)
ex3) 2개의 주사위를 던졌을 때 두 수의 합이 3이 될 확률 = 1/18 → -log₂ (1/18) = log₂ 18 = 4.17 (bits)
information systems need mechanism for
- momory (storing information : 정보의 저장 방법)
- logic (processing information : 정보의 처리 방법)
- networks / connectivity (transporting information : 정보의 전달 방법)
컴퓨터 과학은 정보에 대한 학문이다.
그렇다면 biological systems 은 어떨까? biological system 도 information system 일까?
생물학에서 정보는 동식물의 연속적인 세대 사이에서 전달되기도 한다.
이때 구별가능한 특징(표현형)이 세대 간에 상속된다.
이때 열성 형질은 우성 형질에 의해 가려지기도 하는데, 이런 열성 형질은 이후 세대에서 나타날 수도 있다.
이를 유전의 법칙이라고 하며, 유전학의 기반이 된다.
생물학에서 정보가 전달되는 과정을 더 자세히 알아보자.
세포(cell)는 생물체가 독립적으로 기능을 수행할 수 있는 가장 작은 구조적 단위를 말한다.
세포의 구성 성분을 무게를 기준으로 나누면 70%의 물, 7%의 작은 분자 (나트륨, 아미노산, 뉴클레오타이드, 지방) 23%의 다분자 (단백질 등) 물질로 이루어져 있다.
세포는 크게 원핵세포 (prokaryotes)와 진핵세포(eukaryotes) 로 구분된다.
원핵 세포는 박테리아가 같는 세포 구조로 핵(nucleus)이 존재하지 않고, 진핵세포는 식물, 동물, 효모군 등에 해당하며 핵을 갖는다.
1879년에 Walther Fleming 이라는 사람이 세포 분할 과정에서 보이는 실과 같은 구조를 발견했다.
그는 이를 유전 물질 (meterial chromatin) 이라고 불렀으며, 나중에는 '염색체' (chromosomes) 로 불리게 된다.
1880년대 초반에는 Oskar Hertwig, Hermann Fol 이 최초로 염색체의 구조를 발견하였으며, 염색체는 핵산(nucleic acids)을 포함하고 있다는 것을 알아내었다.
1908년에는 (상속가능한 형질로 불렸었던) 유전자가 염색체에 존재한다는 것을 발견하였다.
또한 성염색체를 발견하여 반성유전자의 존재를 알아내었다. (성염색체에 존재하는 유전자)
1930년대에는 염색체에 존재하는 핵산이 DNA 라는 것을 알아내었다.
또한 염색체에는 히스톤 단백질이 존재한다는 것을 발견하였으며, DNA가 반복적인 긴 체인 구조로 되어있음을 발견하였다.
이때는 단백질이 유전에 관여하고, DNA는 그저 단백질을 이어붙이는 풀과 같은 역할을 한다고 생각했다.
유전자 추론
정상 유전자만을 가진 외계인과 4가지 열성형질 (파란눈, 갈색 피부, 짧은 왼쪽 손가락, 세모난 코)을 가진 외계인이 교배한 결과 정상으로 보이는 자식들이 나왔다.
이 자식들을 다시 교배한 결과 다음과 같이 나왔다.
이때 이 결과를 보고 각 유전자들의 관계를 추론해보자.
(어떤 유전자가 같은 염색체에 존재하는지)
1. 열성 형질 1가지에 대한 비율
- 갈색 피부 = (64 + 21 + 19 + 6 + 5 + 4 + 1 + 1) / 484 = 0.250
- 파란 눈 = (58 + 20 + 19 + 12 + 6 + 4 + 4 + 1) / 484 = 0.256
- 삼각형 코 = (54 + 21 + 20 + 12+ 6 + 5 + 4 + 1) / 484 = 0.254
- 짧은 손가락 = ... = 0.244
열성 형질들은 1가지씩 보았을 때 모두 거의 1/4 비율로 등장하였다.
(우,열) x (우,열) = (우, 우) (우, 열) (열, 우) (열, 열) 에서 1/4 로 등장하는 것이다.
2. 열성 형질 2가지에 대한 비율
만약 각각의 열성 형질이 모두 서로 다른 염색체에 존재해서 독립적이라면 1/4 x 1/4 x 484 = 대략 30 정도의 경우가 나와야 한다.
실제로 2개씩 묶어서 카운트를 해보면
- 갈색 피부 & 파란 눈 = 30
- 갈색 피부 & 삼각형 코 = 32
- 갈색 피부 & 짧은 손가락 = 31
- 파란 눈 & 삼각형 코 = 42
- 파란 눈 & 짧은 손가락 = 29
- 삼각형 코 & 짧은 손가락 = 99
다른 경우는 모두 예측한 대로 30 근처가 나왔으므로 모두 독립적인 것 같다.
그런데 삼각형 코와 짧은 손가락은 99로 높게 나왔다.
따라서 삼각형 코를 나타내는 유전자와 짧은 손가락을 나타내는 유전자는 서로 연관이 있으며 같은 염색체에 위치할 가능성이 높다.
파란 눈과 삼각형 코를 나타내는 유전자도 30보다 큰 값이 나왔기 때문에 연결되어있을 가능성이 있다.
반면 갈색 피부는 3가지 열성형질과 비교했을 때 모두 30이 나왔으므로 연관되어 있지 않을 가능성이 크다.
따라서 다음 그림과 같이 유전자가 존재할 수 있다.
DNA에 저장된 '정보' 는 무생물 분자 덩어리를 살아있는 생명체로 만들어준다.
그리고 이 '정보'는 DNA의 염기 서열에 의해 표현되며, 식물과 동물, 종, 각 개체를 구별할 수 있도록 만든다.
한 생명체의 완전한 DNA 염기서열을 genome 이라고 부른다.
그리고 각 DNA 염기서열은 Adenine, Cytosine, Guanine, Thymine 4가지로 구성된다.
또한 Adenine - Thymine, Cytosine - Guanine 은 쌍을 이룬다.
살아있는 생명체가 computing machine 이라면, DNA는 그 기계에 들어있는 OS 또는 프로그램이라고 볼 수 있다.
DNA에 의해 각 세포는 뉴런, 근육 세포, 뼈 세포 등 다양한 세포로 분화할 수 있으며, 각 세포는 세포 호흡을 통해 에너지를 얻는다.
또한 DNA 염기는 그 자체로 보호되며 스스로 복구하기도 하고, 복제되기도 한다.
이 프로그램은 어떻게 실행되고, 누가 실행할까?
DNA에서 특정 부분 문자열은 하나의 세포의 특정 기능을 결정한다.
이런 부분 문자열을 가리켜 'gene (유전자)' 라고 부른다.
DNA의 부분이 유전자를 포함하지는 않고, 유전자는 DNA 안에서 완전히 인접하지 않을 수도 있으며, 활성화가 될 수도 활성화가 되지 않을 수도 있다. 또한 이 유전자 정보는 '단백질' 을 만드는 명령어가 된다.
단백질은 20가지의 아미노산의 조합으로 만들어진다.
각 아미노산은 극성을 띄기도, 친수성을 띄기도, 산성을 띄기도 염기성을 띄기도 한다.
DNA의 염기서열이 20가지의 아미노산으로 번역되기 위해서는 1개의 정보로는 알 수 없다.
2개의 염기서열은 4**2 = 16가지의 서로 다른 형태를 가질 수 있고, 3개의 염기서열은 4**3 = 64가지의 서로 다른 형태를 가질 수 있다.
따라서 20가지의 아미노산 정보를 나타내려면 적어도 3개의 DNA 염기서열이 필요하다.
그리고 하나의 아미노산을 나타낼 수 있는 3개의 염기서열을 가리켜 '코돈' 이라고 부른다.
모든 유전자는 AUG 라는 특정 염기서열 (코돈) 으로부터 시작되며, 유전자의 번역을 멈추는 데에 사용되는 코든은 3가지가 있다.
대부분의 아미노산은 여러 종류의 코돈으로 만들어질 수 있기 때문에 돌연변이나 변형에 강하다.
유전자의 발현은 DNA의 특정 부분이 전사되어 mRNA 가 되고, mRNA 가 번역되어 아미노산이 된 후, 단백질로 만들어진다.
'CS > 문제해결기법' 카테고리의 다른 글
6. Advanced Sequence Alignment (0) | 2024.10.29 |
---|---|
5. Aligning Sequences (0) | 2024.10.29 |
4. Finding TFBS Motifs in our lifetime (0) | 2024.10.29 |
3. Searching Pattern (0) | 2024.10.29 |
2. Genome (2) | 2024.10.28 |