martes, 31 de mayo de 2011

IDENTIFICACION DE UN GEN

La identificación de un gen supone un largo proceso mediante el cual se ha de conocer:


a) su longitud y estructura, que vendrá identificada por la secuencia de bases y el número de bases presentes en los nucleótidos del ADN


b) su organización: mediante la cual sus componentes van a codificar los productos propios y característicos de se gen (tránscritos de ARN)


c) el producto(s) o molécula(s) originado(s) a partir del gen; es decir, el polipéptido o proteína resultante de la acción de ese gen. Con frecuencia, un mismo gen origina diversas proteínas que varían según sea el mecanismo que el gen ponga en marcha para producir una u otra molécula



d) la función que desempeña el producto resultante. Esta función ha de ser identificada a diversos niveles:


- el bioquímico: qué función cumple como molécula química (p. ej. enzima, receptor, transportador, etc.)
- el celular: dónde se localiza dentro de la célula y qué función cumple en ese sitio (p. ej., si es transportador, qué transporte ejecuta, dónde, cómo)
- el organismo completo: en qué órgano o tejido se expresa el gen, en qué momento de la vida, etc.


e) Las consecuencias que se derivan de la modificación estructural de ese gen por cambios en su contenido: mutaciones (supresión o cambio en algún aminoácido, duplicación de una secuencia), anulación del gen, duplicación o triplicación del gen completo, etc.

ADN repetido disperso


Son secuencias de ADN que se repiten de modo disperso por todo el genoma, constituyendo el 45% del genoma humano. Los elementos cuantitativamente más importantes son los LINEs y SINEs, que se distinguen por el tamaño de la unidad repetida.
Estas secuencias tienen la potencialidad de autopropagarse al transcribirse a una ARNm intermediario, retrotranscribirse e insertarse en otro punto del genoma. Este fenómeno se produce con una baja frecuencia, estimándose que 1 de cada 100-200 neonatos portan una inserción nueva de un Alu o un L1, que pueden resultar patogénicos por mutagénesis insercional, por desregulación de la expresión de genes próximos (por los propios promotores de los SINE y LINE) o por recombinación ilegítima entre dos copias idénticas de distinta localización cromosómica (recombinación intra o intercromosómica), especialmente entre elementos Alu.
Frecuencias y tipos de repeticiones dispersas en el genoma de varios organismos[9]
Tipo repetición
LINE,SINE
33,4%
0,7%
0,4%
0,5%
LTR/HERV
8,1%
1,5%
0%
4,8%
Transposones ADN
2,8%
0,7%
5,3%
5,1%
Total
44,4%
3,1%
6,5%
10,4%

SINE
Acrónimo del inglés Short Interspersed Nuclear Elements (Elementos nucleares dispersos cortos). Son secuencias cortas, generalmente de unos pocos cientos de bases, que aparecen repetidas miles de veces en el genoma humano. Suponen el 13% del genoma humano,[9] un 10% debido exclusivamente a la familia de elementos Alu (característica de primates).
Los elementos Alu son secuencias de 250-280 nucleótidos presentes en 1.500.000[9] de copias dispersas por todo el genoma. Estructuralmente son dímeros casi idénticos, excepto que la segunda unidad contiene un inserto de 32 nucleótidos, siendo mayor que la primera. En cuanto a su secuencia, tienen una considerable riqueza en G+C (56%),[9] por lo que predominan en las bandas R, y ambos monómeros presentan una cola poliA (secuencia de adeninas) vestigio de su origen de ARNm. Además poseen un promotor de la ARN polimerasa III para transcribirse. Se consideran retrotransposones no autónomos, ya que dependen para propagarse de la retrotranscripción de su ARNm por una retrotranscriptasa presente en el medio.
 LINE

Esquema simplificado del mecanismo de retrotransposición de un elemento LINE y un SINE. Un elemento LINE es transcrito produciendo un ARNm que sale del núcleo celular. En el citoplasma se traduce en sus dos marcos de lectura abiertos generando ambas proteínas (véase el texto), que para simplificar se han representado como ORF1p y ORF2p. Ambas permiten retrotranscribir el ARNm del LINE y de otros retrotransposones no autónomos, como SINEs y pseudogenes procesados. Durante la retrotranscripción la nueva secuencia de ADN se integra en otro punto del genoma.
Acrónimo del inglés Long Interspersed Nuclear Elements (Elementos nucleares dispersos largos). Constituyen el 20% del genoma humano. La familia de mayor importancia cuantitativa es LINE-1 o L1 que es una secuencia de 6 kb repetida unas 800.000 veces de modo disperso por todo el genoma, aunque la gran mayoría de las copias es incompleta al presentar el extremo 5' truncado por una retrotranscripción incompleta. Así, se estima que hay unas 5.000 copias completas de L1, sólo 90 de las cuales son activas,[9] estando el resto inhibidas por metilación de su promotor.

Su riqueza en G+C es del 42%,[9] próxima a la media del genoma (41%) y se localizan preferentemente en las bandas G de los cromosomas. Poseen además un promotor de la ARN polimerasa II.
Los elementos LINE completos son codificantes. En concreto LINE-1 codifica dos proteínas:
  1. Proteína de unión a ARN (’’RNA-binding protein’’): codificada por el marco de lectura abierto 1 (ORF1, acrónimo del inglés ‘’Open reading Frame 1’’)
  2. Enzima con actividad retrotranscriptasa y endonucleasa: codificada por el ORF2.
Por lo tanto, se consideran retrotransopsones autónomos, ya que codifican las proteínas que necesitan para propagarse. La ARN polimerasa II presente en el medio transcribe el LINE, y este ARNm se traduce en ambos marcos de lectura produciendo una retrotranscriptasa que actúa sobre el ARNm generando una copia de ADN del LINE, potencialmente capaz de insertarse en el genoma. Asimismo estas proteínas pueden ser utilizadas por pseudogenes procesados o elementos SINE para su propagación.
Diversos estudios han mostrado que las secuencias LINE pueden tener importancia en la regulación de la expresión génica, habiéndose comprobado que los genes próximos a LINE presentan un nivel de expresión inferior. Esto es especialmente relevante porque aproximadamente el 80% de los genes del genoma humano contiene algún elemento L1 en sus intrones.[9]

HERV
Acrónimo de Human endogenous retrovirus (retrovirus endógenos humanos). Los retrovirus son virus cuyo genoma está compuesto por ARN, capaces de retrotranscribirse e integrar su genoma en el de la célula infectada. Así, los HERV son copias parciales del genoma de retrovirus integrados en el genoma humano a lo largo de la evolución de los vertebrados, vestigios de antiguas infecciones retrovirales que afectaron a células de la línea germinal. Algunas estimaciones establecen que hay unas 98.000[11] secuencias HERV, mientras que otras afirman que son más de 400.000.[9] En cualquier caso, se acepta que en torno al 5-8% del genoma humano está constituido por genomas antiguamente virales. El tamaño de un genoma retroviral completo es de en torno a 6-11 kb, pero la mayoría de los HERV son copias incompletas.
A lo largo de la evolución estas secuencias sin interés para el genoma hospedador han ido acumulando mutaciones sin sentido y deleciones que los han inactivado. Aunque la mayoría de las HERV tienen millones de años de antigüedad, al menos una familia de retrovirus se integró durante la divergencia evolutiva de humanos y chimpancés, la familia HERV-K(HML2), que supone en torno al 1% de los HERV.
 Transposones de ADN
Bajo la denominación de transposones a veces se incluyen los retrotransposones, tales como los pseudogenes procesados, los SINEs y los LINEs. En tal caso se habla de transposones de clase I para hacer referencia a los retrotransposones, y de clase II para referirse a transposones de ADN, a los que se dedica el presente apartado.

Los transposones de ADN completos poseen la potencialidad de autopropagarse sin un intermediario de ARNm seguido de retrotranscripción. Un transposón contiene en gen de una enzima transposasa, flanqueado por repeticiones invertidas. Su mecanismo de transposición se basa en cortar y pegar, moviendo su secuencia a otra localización distinta del genoma. Los distintos tipos de transposasas actúan de modo diferente, habiendo algunas capaces de unirse a cualquier parte del genoma mientras que otras se unen a secuencias diana específicas. La transposasa codificada por el propio transposón lo extrae realizando dos cortes flanqueantes en la hebra de ADN, generando extremos cohesivos, y lo inserta en la secuencia diana en otro punto del genoma. Una ADN polimerasa rellena los huecos generados por los extremos cohesivos y una ADN ligasa restablece los enlaces fosfodiéster, recuperando la continuidad de la secuencia de ADN. Esto conlleva una duplicación de la secuencia diana en torno al transposón, en su nueva localización.

Se estima que el genoma humano contiene unas 300.000 copias[9] de elementos repetidos dispersos originados por transposones de ADN, constituyendo un 3% del genoma. Hay múltiples familias, de las que cabe destacar por su importancia patogénica por la generación de reordenaciones cromosómicas los elementos mariner, así como las familias MER1 y MER2.

EVOLUCIÓN

Los estudios de genómica comparada se basan en comparación de secuencias genómicas a gran escala, generalmente mediante herramientas bioinformáticas. Dichos estudios permiten ahondar en el conocimiento de aspectos evolutivos de escala temporal y espacial muy diversa, desde el estudio de la evolución de los primeros seres vivos hace miles de millones de años o las radiaciones filogenéticas en mamíferos, hasta el estudio de las migraciones de seres humanos en los últimos 100.000 años, que explican la actual distribución de las distintas razas humanas.

Genómica comparada entre distintas especies

Los estudios de genómica comparada con genomas de mamíferos sugieren que aproximadamente el 5% del genoma humano se ha conservado evolutivamente en los últimos 200 millones de años; lo cual incluye la gran mayoría de los genes y secuencias reguladoras. Sin embargo, los genes y las secuencias reguladoras actualmente conocidas suponen sólo el 2% del genoma, lo que sugiere que la mayor parte de la secuencia genómica con gran importancia funcional es desconocida. Un porcentaje importante de los genes humanos presenta un alto grado de conservación evolutiva. La similitud entre el genoma humano y el del chimpancé (PAN TROGLODYTES) es del 98,77%. En promedio, una proteína humana se diferencia de su ortóloga de chimpancé en tan sólo dos aminoácidos, y casi un tercio de los genes tiene la misma secuencia. Una diferencia importante entre los dos genomas es el cromosoma 2 humano, que es el producto de una fusión entre los cromosomas 12 y 13 del chimpancé 
Otra conclusión de la comparación del genoma de distintos primates es la notable pérdida de genes de receptores olfativos que se ha producido paralelamente al desarrollo de la visión en color (tricrómica) durante la evolución de primates.[14]

 Genómica comparada entre genomas humanos


Mapa de las migraciones humanas creado a partir de genómica comparada con los genomas mitocondriales de individuos actuales. Los números de la leyenda representan miles de años antes del presente. La línea azul rayada delimita el área cubierta de hielo o de tundra durante la última glaciación. Las letras englobadas por círculos indican los halogrupos de ADN mitocondrial; los halogrupos se usan para definir subpoblaciones genéticas, que frecuentemente tienen una correlación geográfica. Los principales halogrupos de ADNmt son: Africa: L, L1, L2, L3. Oriente próximo: J, N. Europa meridional: J, K. Europa (general): H, V. Europa septentrional: T, U, X. Asia: A, B, C, D, E, F, G (en el dibujo: M está compuesta por C, D, E, y G). Nativos Americanos: A, B, C, D y a menudo X. Véase el artículo: Haplogrupos de ADN mitocondrial humano.
Durante décadas las únicas evidencias que permitían profundizar en el conocimiento del origen y la expansión del Homo sapiens han sido los escasos hallazgos arqueológicos. Sin embargo, en la actualidad, los estudios de genómica comparada a partir de genomas de individuos actuales de todo el mundo, están aportando información muy relevante. Su fundamento básico consiste en identificar un polimorfismo, una mutación, que se asume que se originó en un individuo de una población ancestral, y que ha heredado toda su descendencia hasta la actualidad. Además, dado que las mutaciones parecen producirse a un ritmo constante, puede estimarse la antigüedad de una determinada mutación en base al tamaño del haplotipo en el que se sitúa, es decir, el tamaño de la secuencia conservada que flanquea la mutación. Esta metodología se ve complicada por el fenómeno de recombinación entre los pares de cromosomas de un individuo, procedentes de sus dos progenitores. Sin embargo, hay dos regiones en las que no existe dicho inconveniente porque presentan una herencia uniparental: el genoma mitocondrial (de herencia matrilineal), y el cromosoma Y (de herencia patrilineal).

En las últimas décadas, los estudios de genómica comparada basada en el genoma mitocondrial, y en menor medida en el cromosoma Y, han reportado conclusiones de gran interés. En diversos estudios se ha trazado la filogenia de estas secuencias, estimándose que todos los seres humanos actuales comparten un antepasado femenino común que vivió en África hace unos 150.000 años. Por su parte, por razones aún poco conocidas, la mayor convergencia del ADN del cromosoma Y establece que el antepasado masculino común más reciente data de hace unos 60.000 años. Estos individuos han sido bautizados como Eva mitocondrial e Y-cromosoma Adan.
La mayor diversidad de marcadores genéticos y en consecuencia, los haplotipos de menor longitud, se han hallado en África. Todo el resto de la población mundial presenta sólo una pequeña parte de estos marcadores, de modo que la composición genómica del resto de la población humana actual es sólo un subconjunto de la que puede apreciarse en África. Esto induce a afirmar que un pequeño grupo de seres humanos (quizá en torno a un millar) emigró del continente africano hacia las costas de Asia occidental, hace unos 50.000-70.000 años, según estudios basados en el genoma mitocondrial. Hace unos 50.000 años alcanzaron Australia y hace en torno a 40.000-30.000 años otras subpoblaciones colonizaron Europa occidental y el centro de Asia. Asimismo, se estima que hace 20.000-15.000 años alcanzaron el continente americano a través del estrecho de Bering (el nivel del mar era menor durante la última glaciación, o glaciación de Würm o Wisconsin), poblando Sudamérica hace unos 15.000-12.000 años.


 No obstante, estos datos sólo son estimaciones, y la metodología presenta ciertas limitaciones. En la actualidad, la tendencia es combinar los estudios de genómica comparada basados en el ADN mitocondrial con análisis de la secuencia del cromosoma Y.

 Genoma mitocondrial

Es el genoma propio de las mitocondrias de células eucariotas. La mitocondria es un orgánulo subcelular esencial en el metabolismo aerobio u oxidativo de las células eucariotas. Su origen es endosimbionte, es decir, antiguamente fueron organismos procariotas independientes captados por una célula eucariota ancestral, con la que desarrollaron una relación simbiótica. Las características de su genoma, por tanto, son muy semejantes a las de un organismo procariota actual, y su código genético es ligeramente distinto al considerado universal. Para adaptarse al nicho intracelular y aumentar su tasa de replicación, el genoma mitocondrial se ha ido reduciendo sustancialmente a lo largo de su coevolución, presentando en la actualidad un tamaño de 16.569 pares de bases. Así, la gran mayoría de las proteínas localizadas en las mitocondrias (~1500 en mamíferos) están codificadas por el genoma nuclear (al que hacen referencia todos los apartados anteriores), de modo que muchos de estos genes fueron transferidos de la mitocondria al núcleo celular durante la coevolución de la célula eucariota. En la mayoría de mamíferos, sólo la hembra transmite al zigoto sus mitocondrias, por lo que presentan, como ya se ha dicho, un patrón hereditario matrilineal. En general una célula humana media contiene 100-10.000 copias del genoma mitocondrial por cada célula, a razón de unas 2-10 moléculas de ADN por mitocondria.

Diagrama simplificado del genoma mitocondrial. Pueden apreciarse los 37 genes y la secuencia origen de replicación no codificante. En este esquema no se señala la cadena ligera y la pesada.
El genoma mitocondrial posee 37 genes:[9]
Al contrario de lo que sucedía con el genoma nuclear, donde sólo el 1,5% era codificante, en el genoma mitocondrial el 97% corresponde a secuencias codificantes. Es una única molécula de ADN doble hebra circular. Una de las hemihebras recibe el nombre de cadena pesada o cadena H, y contiene 28 de los 37 genes (2 ARNr, 14 ARNt y 12 polipéptidos). La hemihebra complementaria (cadena ligera o L) codifica los 9 genes restantes. En ambas cadenas, los genes de los ARNt aparecen distribuidos entre dos genes ARNr o codificantes de proteínas, lo cual es de gran importancia para el procesamiento del ARN mitocondrial.

lunes, 30 de mayo de 2011

VARIABILIDAD

Si bien dos seres humanos del mismo sexo comparten un porcentaje elevadísimo (en torno al 99,9%)9 de su secuencia de ADN, lo que nos permite trabajar con una única secuencia de referencia, pequeñas variaciones genómicas fundamentan buena parte de la variabilidadfenotípica interindividual. Una variación en el genoma, por sustitucióndeleción o inserción, se denomina polimorfismo o alelo genético. No todo polimorfismo genético provoca una alteración en la secuencia de una proteína o de su nivel de expresión, es decir, muchos son silenciosos y carecen de expresión fenotípica.

SNPs

La principal fuente de variabilidad en los genomas de dos seres humanos procede de las variaciones en un sólo nucleótido, conocidas comoSNPs (Single nucleotide polimorphisms), en las cuales se han centrado la mayor parte de los estudios. Dada su importancia, en la actualidad existe un proyecto internacional (International HapMap Project) para catalogar a gran escala los SNPs del genoma humano. En este contexto, la denominación de SNP frecuentemente se restringe a aquellos polimorfismos de un sólo nucleótido en los que el alelo menos frecuente aparece en al menos el 1% de la población.

Variación estructural

Este tipo de variaciones se refiere a duplicaciones, inversiones, inserciones o variantes en el número de copias de segmentos grandes del genoma (por lo general de 1000 nucléotidos o más). Estas variantes implican a una gran proporción del genoma, por lo que se piensa que son, al menos, tan importantes como los SNPs.12



ENFERMEDADES GENETICAS


La alteración de la secuencia de ADN que constituye el genoma humano puede causar la expresión anormal de uno o más genes, originando un fenotipo patológico. Las enfermedades genéticas pueden estar causadas por mutación de la secuencia de ADN, con afectación de la secuencia codificante (produciendo proteínas incorrectas) o de secuencias reguladoras (alterando el nivel de expresión de un gen), o por alteraciones cromosómicas, numéricas o estructurales. La alteración del genoma de las células germinales de un individuo se transmite frecuentemente a su descendencia. Actualmente el número de enfermedades genéticas conocidas es aproximadamente de 4.000, siendo la más común la fibrosis quística.
El estudio de las enfermedades genéticas frecuentemente se ha englobado dentro de la genética de poblaciones. Los resultados del Proyecto Genoma Humano son de gran importancia para la identificación de nuevas enfermedades genéticas y para el desarrollo de nuevos y mejores sistemas de diagnóstico genético, así como para la investigación en nuevos tratamientos, incluida la terapia génica.

Mutaciones

Las mutaciones génicas pueden ser:
  • Sustituciones (cambios de un nucleótido por otro): Las sustituciones se denominan transiciones si suponen un cambio entre bases del mismo tipo químico, o transversiones si son un cambio purina (A, G)→pirimidina (C, T) o pirimidina→purina.
  • Deleciones o inserciones: son respectivamente la eliminación o adición de una determinada secuencia de nucleótidos, de longitud variable. 
  • Trastornos de un sólo gen

    Son enfermedades genéticas causadas por mutación en un sólo gen, que presentan una herencia de tipo mendeliano, fácilmente predecible

componentes


Cromosomas

El genoma humano (como el de cualquier organismo eucariota) está formado por cromosomas, que son largas secuencias continuas de ADN altamente organizadas espacialmente (con ayuda de proteínas histónicas y no histónicas) para adoptar una forma ultracondensada enmetafase. Son observables con microscopía óptica convencional o de fluorescencia mediante técnicas de citogenética y se ordenan formando un cariotipo.

Genes

Un gen es la unidad básica de la herencia, y porta la información genética necesaria para la síntesis de una proteína (genes codificantes) o de un ARN no codificante (genes de ARN). Está formado por una secuencia promotora, que regula su expresión, y una secuencia que se transcribe, compuesta a su vez por: secuencias UTR (regiones flanqueantes no traducidas), necesarias para la traducción y la estabilidad del ARNm, exones (codificantes) e intrones, que son secuencias de ADN no traducidas situadas entre dos exones que serán eliminadas en el procesamiento del ARNm (ayuste).

Archivo:Gene.png
Genes de ARN
Además de los genes codificantes de proteínas, el genoma humano contiene varios miles de genes ARN, cuya transcripción reproduce ARN de transferencia (ARNt), ARN ribosómico (ARNr), microARN (miARN), u otros genes ARN no codificantes. Los ARN ribosómico y de transferencia son esenciales en la constitución de los ribosomas y en la traducción de las proteínas. Por su parte, los microADN tienen gran importancia en la regulación de la expresión génica, estimándose que hasta un 20-30% de los genes del genoma humano puede estar regulado por el mecanismo de interferencia por miARN. Hasta el momento se han identificado más de 300 genes de miARN y se estima que pueden existir unos 500-
Distribución de genes
A continuación se muestran algunos valores promedio del genoma humano. Cabe advertir, sin embargo, que la enorme heterogeneidad que presentan estas variables hace poco representativos a los valores promedio, aunque tienen valor orientativo.

CONTENIDO EN GENES Y TAMAÑO DEL GENOMA DE VATIOS ORGANISMOS


3
EspecieTamaño del
genoma (Mb)
Número
de genes
Mycoplasma genitalium0,58500
Streptococcus pneumoniae2,22300
Escherichia coli4,64.400
Saccharomyces cerevisiae125.800
Caenorhabditis elegans9719.000
Arabidopsis thaliana12525.500
Drosophila melanogaster (mosca)18013.700
Oryza sativa (arroz)46645-55.000
Mus musculus (ratón)250029.000
Homo sapiens (ser humano)290027.000