UNIVERSIDAD DE LA HABANA FACULTAD DE BIOLOGÍA
Desarrollo de métodos bioinformáticos para la identificación de proteínas en mezclas complejas.
Tesis presentada en opción al grado científico de Doctor en Ciencias Biológicas.
Autor: Ing. Yasset Pérez Riverol
Tutores: Dr. Aniel Sánchez Puentes Dr. Lázaro H. Betancourt Núñez Dr. Juan Antonio Vizcaíno
CENTRO DE INGENIERÍA GENÉTICA Y BIOTECNOLOGÍA 2013
ABREVIATURAS EMPLEADAS EN EL DOCUMENTO Por orden alfabético: 2D-PAGE BSA COFRADIC DF-PAGE ESI FDR HCD HPLC ICAT ICR IEF IT LC LC-ESI-MS LC-MS/MS LTQ LTQ-FT-ICR LTQ-Orbitrap m/z MALDI MRM MS MS/MS MudPIT OGE PAGE pI PITC ppm QQQ QTOF RP RP-HPLC Rt SCX SDS SDS-FREEPAGE SDS-PAGE TOF
Electroforesis bidimensional Albúmina de suero bovino “Fractional Diagonal Chromatography” Doble fraccionamiento en geles de poliacrilamida Ionización por electronebulización Porciento de identificaciones incorrectas entre todas las identificaciones juzgadas como correctas Disociación de alta energía realizada en la trampa C Cromatografía líquida de alta resolución Marcador de afinidad con marcaje isotópico Resonancia ciclotrónica de iones Focalización isoeléctrica Analizador tipo trampa de iones (tridimensional) Cromatografía líquida Cromatografía líquida acoplada a espectrometría de masas con ionización por electronebulización Cromatografía líquida acoplada a espectrometría de masas en sucesión Analizador tipo trampa de iones (en dos dimensiones) Analizador híbrido formado por un analizador tipo trampa de iones (en dos dimensiones) uno de resonancia ciclotrónica de iones con transformada de Fourier Analizador híbrido formado por un Orbitrap y uno tipo trampa de iones (en dos dimensiones) Relación masa/carga Desorción e ionización por láser asistido por matriz Monitoreo de Reacciones Múltiples Espectrometría de masas Espectrometría de masas en tándem Tecnología multidimensional para la identificación de proteínas Focalización isoeléctrica fuera de gel Electroforesis en geles de poliacrilamida Punto isoeléctrico Isotiocianato de fenilo Partes por millón Analizador híbrido formado por tres analizadores tipo cuadrupolo Analizador híbrido formado por un analizador tipo cuadrupolo y uno de tiempo de vuelo Cromatografía de fase reversa Cromatografía líquida de alta eficacia por fase reversa Tiempo de retención Cromatografía de intercambio catiónico fuerte Dodecil sulfato de sodio Electroforesis en geles de poliacrilamida en ausencia de dodecil sulfato de sodio Electroforesis en geles de poliacrilamida con dodecil sulfato de sodio Analizador por tiempo de vuelo
Síntesis El presente trabajo describe el desarrollo y aplicación de tres nuevos métodos bioinformáticos para la identificación de proteínas en mezclas complejas a partir del análisis in silico de bases de datos de proteínas. El primero de los métodos permitió el diseño y creación de bases de datos centradas en péptidos en sustitución de las bases de datos de proteínas. Los resultados del proceso de identificación de péptidos y proteínas de dos líneas celulares humanas (Huh7 – carcinoma de hígado), (H125 – cáncer de pulmón) demostraron un aumento del número de proteínas identificadas comparado con los métodos de búsqueda en bases de datos de proteínas. El segundo método permite la identificación de péptidos modificados con isotiocianato de fenilo, con la asignación del residuo N- terminal y el empleo también de bases de datos centradas en péptidos. El desarrollo de dos programas bioinformáticos (SIM y HI-bone) de identificación posibilita la aplicación del método en experimentos de proteómica de alto flujo. La cantidad de espectros y proteínas identificadas son superiores a los alcanzados con los programas informáticos de identificación más utilizados actualmente por la comunidad científica. A partir de los resultados anteriores se exploraron las bases teóricas de un tercer método de identificación de péptidos y proteínas con el empleo de diferentes propiedades químico-físicas. El análisis in silico de seis proteomas y de una muestra compleja de péptidos de Drosophila melanogaster demuestra que la combinación del punto isoeléctrico, el tiempo de retención, la masa de los péptidos y el aminoácido N- terminal puede ser empleada como criterio de identificación. Los resultados indican que el número de identificaciones es significativamente mayor cuando el método se combina con bases de datos centradas en péptidos.
Índice
Índice Introducción .....................................................................................................................................1 I. Revisión bibliográfica ....................................................................................................................7 I.1 Introducción a la proteómica .......................................................................................................7 I.2 Métodos electroforéticos ..............................................................................................................7 I.3 Métodos Cromatográficos y de aislamiento selectivo de péptidos.................................................8 I.3.1 Péptidos con cisteína ...................................................................................................................... 9 I.3.2 Péptidos con metionina .................................................................................................................. 9 I.3.3 Péptidos delimitados por residuos de Arginina y que no presentan Lisina ............................ 10 I.3.4 SCAPE: Péptidos no cargados .................................................................................................... 10 I.3.5 Péptidos multicargados................................................................................................................ 10 I.4 Espectrometría de masas ...........................................................................................................11 I.4.1 Espectro de Masas ........................................................................................................................ 12 I.4.2 Incremento de la eficiencia de fragmentación a través de modificaciones químicas ............. 15 I.5 Proteómica computacional y bioinformática..............................................................................15 I.5.1 Análisis in silico de proteomas .................................................................................................... 16 I.5.2 Diseño de bases de datos centradas en péptidos para estudios de proteómica ....................... 18 I.5.3 Estimación de propiedades químico-físicas de péptidos y proteínas ....................................... 19 I.5.4 Identificación de proteínas basada en la interpretación de espectros de masas ..................... 22 I.5.5 Validación de la identificación de péptidos y proteínas ............................................................ 28 I.5.6 Validación de péptidos identificados empleando propiedades químico-físicas (punto isoeléctrico y tiempo de retención). ..................................................................................................... 29 I.5.7 Estandarización de los datos de proteómica .............................................................................. 31 II. Artículos Originales ...................................................................................................................33 Artículo
Artículo Artículo
Artículo Artículo Artículo Artículo Artículo
I.Charge state-selective separation of peptides by reversible modification of amino groups and strong cation-exchange chromatography: Evaluation in proteomic studies using peptide-centric database searches. ...................................................................................... 33 II.Peptide fractionation by acid ph SDS-FREE electrophoresis. .......................................... 41 III.Evaluation of phenylthiocarbamoyl-derivatized peptides by electrospray ionization mass spectrometry: selective isolation and analysis of modified multiply charged peptides for liquid chromatography-tandem mass spectrometry experiments. ...................................... 47 IV.Hi-bone: a scoring system for identifying phenylthiocarbamoyl-derivatized peptides based on precursor mass and high intensity b one (b1) fragment ions. ......................................... 57 V.Effectively addressing complex proteomic search spaces. ............................................... 63 VI.Pride inspector: a tool to visualize and validate ms proteomics data. .............................. 65 VII. In silico analysis of accurate proteomics, complemented by selective isolation of peptides. .............................................................................................................................. 72 VIII. Isoelectric point optimization using peptide descriptors and support vector machines . 84
III. Discusión General .....................................................................................................................89 III.1 Diseño de bases de datos centradas en péptidos para la identificación de proteínas en mezclas complejas ........................................................................................................................................91 III.1.1 Optimización de método de aislamiento selectivo de péptidos y aplicación de bases de datos centradas en péptidos. Prueba de concepto en una línea celular humana de carcinoma de hígado..................................................................................................................................................... 92 III.1.2 Optimización del método de electroforesis en geles de poliacrilamida en ausencia de dodecil sulfato de sodio y aplicación de bases de datos centradas en péptidos. Prueba de concepto en una línea celular humana de cáncer de pulmón ........................................................................... 94
Índice
III.2 Identificación de proteínas con el empleo del ion fragmento b1 de los péptidos multicargados aislados selectivamente y con modificados isotiocianato de fenilo. Prueba de concepto en mezcla compleja de proteínas de Escherichia coli .......................................................................................97 III.3 Identificación de proteínas empleando el aminoácido N- terminal e iones fragmentos en el espectro de masas de los péptidos modificados con isotiocianato de fenilo. Prueba de concepto en mezcla compleja de proteínas de Escherichia coli ...........................................................................99 III.3.1 Identificación empleando patrones de fragmentación y etiquetas de secuencia. Herramienta Bioinformática: HI-bone ............................................................................................. 100 III.3.2 Identificación empleando iones fragmentos teóricos. Herramienta Bioinformática: SIM .............................................................................................................................................................. 102 III.4 Identificación de proteínas empleando métodos de aislamiento selectivo de péptidos en combinación con propiedades químico-físicas de los péptidos. Prueba de concepto en experimento de proteómica sobre mezcla compleja de proteínas de Drosophila melanogaster ........................... 105 III.5 Estimación de punto isoeléctrico de péptidos empleando máquinas de soporte vectorial y propiedades experimentales de aminoácidos ................................................................................. 108 IV. Conclusiones ........................................................................................................................... 111 V. Recomendaciones ..................................................................................................................... 112 VI. Referencias Bibliográficas....................................................................................................... 113 VII. Bibliografía del Autor............................................................................................................ 122 VII.1 Publicaciones del autor relacionadas con el tema de tesis .......................................................... 122 VII.2 Presentaciones en eventos científicos relacionadas con el tema de tesis .................................... 123 VIII.3 Otras publicaciones del autor..................................................................................................... 124
Introducción
Introducción El conjunto de proteínas expresadas por una célula o tejido en un estado fisiológico determinado es conocido como proteoma (Wilkins et al., 1996). La proteómica tiene como objetivo la caracterización y el análisis del proteoma en cuanto a sus interacciones, sus modificaciones postraduccionales y abundancia relativa. Al igual que la genómica, es una de las nuevas tecnologías que más desarrollo ha alcanzado en la rama de las investigaciones biomédicas (Nilsson et al., 2010). La caracterización del proteoma y sus componentes se realiza mediante la integración de cuatro herramientas fundamentales: 1) tecnologías analíticas para la separación de péptidos y proteínas, 2) espectrometría de masas, 3) programas computacionales de identificación y 4) herramientas de visualización y evaluación de la calidad del experimento. La estrategia más eficiente para el análisis de mezclas complejas de proteínas está basada en la hidrólisis enzimática de la mezcla compleja de proteínas, la separación y análisis de mezcla de péptidos resultante mediante cromatografía líquida de alta resolución (HPLC) y espectrometría de masas en sucesión (LC-MS/MS) (Wolters et al., 2001, Link et al., 1999). Los espectros generados para cada péptido (espectro MS/MS) son identificados con diferentes estrategias y algoritmos de identificación. El método más conocido es la identificación de proteínas con la combinación de programas bioinformáticos y bases de datos de secuencias de proteínas (Edwards, 2011). Los programas de identificación en bases de datos de secuencias buscan la mejor correlación entre los espectros experimentales y los MS/MS teóricos generados a partir de las secuencias de la base de datos seleccionada. Las bases de datos de secuencias de proteínas son conjuntos de secuencias de aminoácidos anotadas en ficheros de texto, que han sido obtenidas por algoritmos computacionales o que han sido secuenciadas a través de técnicas analíticas (Apweiler et al., 2004). Estas bases de datos son el componente principal en el proceso de identificación debido a que contienen el péptido y proteína a identificar. El análisis in silico de las bases de datos de secuencias puede definir el diseño experimental de las metodologías y técnicas analíticas para el estudio de proteomas. En muchos de los casos han contribuido de manera decisiva en la creación de métodos analíticos para solucionar problemáticas asociadas a la complejidad de la mezcla de péptidos analizada y la limitada capacidad de análisis de los sistemas cromatográficos y los espectrómetros de masas (Cagney et al., 2003). El estudio in silico de bases de datos permitió dar los elementos necesarios para el establecimiento de los métodos de aislamiento selectivo de péptidos que simplificaron la mezcla 1
Introducción
de péptidos generada antes de su análisis por LC-MS/MS. Así, es posible la selección de un pequeño grupo de péptidos (3-5 péptidos/proteína) que representan la mayor cantidad posible de proteínas presentes en la mezcla inicial (Domon and Aebersold, 2006). Originalmente estos procedimientos se basaron en la modificación química “selectiva” de la cadena lateral de aminoácidos poco abundantes y el posterior aislamiento de los péptidos que los contienen, mediante diferentes principios cromatográficos. Los métodos más establecidos emplean el aislamiento selectivo de péptidos que contienen Cisteína (Gygi et al., 1999), Metionina (Gevaert et al., 2002), con Serina o Treonina en el extremo N-terminal (Chelius and Shaler, 2003), y con Arginina en el extremo C-terminal (Foettinger et al., 2005). En el departamento de Proteómica del Centro de Ingeniería Genética y Biotecnología (CIGB) se han desarrollado varias metodologías de aislamiento selectivo de péptidos, basadas en las diferencias producidas en la composición de carga de los péptidos trípticos después de ser modificados los grupos amino y la posterior separación por cromatografía de intercambio catiónico (Betancourt et al., 2005, Sanchez et al., 2006a). Como resultado, la mezcla compleja puede ser fácilmente clasificada en dos grupos de péptidos: los no cargados y los cargados positivamente. Por otra parte, los métodos electroforéticos como la electroforesis en geles de poliacrilamida con dodecil sulfato de sodio (SDS-PAGE) o la focalización isoeléctrica fuera de gel (OGE) (Ramos et al., 2008); también permiten la separación de las mezclas de péptidos en subgrupos más simples y han sido aplicados en experimentos de proteómica. Al igual que los métodos de aislamiento selectivo de péptidos la mezcla de péptidos es dividida en subgrupos más simples lo que permite el análisis de las proteínas menos abundantes. Como resultado experimental se obtiene determinada información de las propiedades electrostáticas de los péptidos identificados (punto isoeléctrico y relación masa/carga). Sin embargo, la utilización de esta información no ha sido eficientemente utilizada para la reducción del espacio de búsqueda de las bases de datos, lo cual pudiera incrementar considerablemente el número de péptidos y proteínas a identificar con los programas de búsqueda. Adicionalmente, las propiedades químico físicas de los péptidos y proteínas identificados en los métodos de fraccionamiento y que pueden ser estimadas con la información de las bases de datos (punto isoeléctrico, relación masa/carga, tiempo de retención, patrón de secuencia del péptido) no se emplean como información complementaria en las estrategias actuales de identificación. Otro de los problemas que enfrenta la proteómica es el bajo porcentaje de espectros MS/MS (obtenidos de una corrida cromatográfica), que pueden ser correctamente asignados. Una de las posibles razones es que durante el análisis por LC-MS/MS muchos de los péptidos analizados no se fragmentan eficientemente (Michalski et al., 2011). Los espectros MS/MS de este tipo de 2
Introducción
péptidos por lo general contienen muy pocas señales, por lo que disminuye la eficiencia de los algoritmos actuales de identificación que dependen de la calidad del espectro MS/MS. La fragmentación en fase gaseosa mediante disociación inducida por colisiones de péptidos modificados con isotiocianato de fenilo (PITC) permite observar el ión fragmento b1 en un espectro MS/MS con independencia de la secuencia del péptido. Este fragmento contiene el primer residuo de aminoácido (aminoácido N-terminal) y puede ser utilizado como alternativa para aumentar la eficiencia en el proceso de fragmentación e identificación de péptidos en las bases de datos (Summerfield et al., 1997). Sin embargo, la aplicación de esta estrategia como metodología de identificación en experimentos de proteómica de alto flujo requiere del desarrollo de herramientas bioinformáticas especializadas que permitan identificar y visualizar eficientemente los espectros de masas de estos péptidos modificados en bases de datos durante un experimento de proteómica de alto flujo. El presente está focalizado en el desarrollo de métodos y herramientas bioinformáticas para la identificación de proteínas en mezclas complejas por espectrometría de masas. Bajo esta línea de investigación se formuló la siguiente hipótesis:
Es posible incrementar el número de identificaciones de péptidos modificados o no con isotiocianato de fenilo mediante la creación de bases de datos centradas en péptidos, el desarrollo de herramientas bioinformáticas y el uso de propiedades químico-físicas como el punto isoeléctrico y el tiempo de retención.
A partir de esta hipótesis de trabajo se trazó el siguiente objetivo general:
Desarrollar nuevos métodos bioinformáticos para incrementar la identificación de péptidos y proteínas en experimentos de proteómica de alto flujo.
Para cumplimentar el objetivo general se diseñaron los siguientes objetivos específicos:
I. Desarrollar herramientas bioinformáticas para el estudio in silico de proteomas, el diseño de bases de datos centradas en péptidos y el análisis de los resultados de experimentos de proteómica de alto flujo. Tareas para darle cumplimiento a este objetivo:
3
Introducción
•
Desarrollar una herramienta bioinformática para el estudio in silico de bases de datos de secuencias y la creación de bases de datos centradas en péptidos.
•
Desarrollar una herramienta bioinformática para la visualización y análisis de los resultados de los experimentos de proteómica.
II. Diseñar y aplicar bases de datos centradas en péptidos a métodos de aislamiento selectivo de separación por carga y de fraccionamiento de péptidos SDS-Free PAGE. Tareas para darle cumplimiento a este objetivo: •
Diseñar bases de datos centradas en péptidos a partir de patrones de secuencias observados en los subgrupos de péptidos aislados selectivamente y de la distribución teórica del punto isoeléctrico de péptidos fraccionados mediante SDS-Free PAGE.
•
Comparar los resultados del empleo de bases de datos centradas en péptidos con bases de datos de proteínas para la identificación de un extracto de proteínas humanas solubles de la línea celular Huh7 de carcinoma de hígado, analizado por el método de aislamiento selectivo de péptidos y de un extracto de proteínas humanas de la línea celular H125 de cáncer de pulmón, analizado por el método SDS-Free PAGE.
III. Desarrollar un método de identificación de péptidos modificados con isotiocianato de fenilo basados fundamentalmente en la asignación del residuo N- terminal en el espectro MS/MS.
Tareas para darle cumplimiento a este objetivo: •
Desarrollar un método de identificación de péptidos modificados con isotiocianato de fenilo en experimentos de proteómica de alto flujo.
•
Evaluar el método propuesto en una mezcla compleja de proteínas de Escherichia coli.
− Desarrollar algoritmos de identificación en bases de datos de péptidos modificados con isotiocianato de fenilo a partir del método propuesto que empleen:
•
Etiquetas de secuencia y patrones de fragmentación.
La asignación de todos los fragmentos teóricos del espectro de masas.
Comparar los algoritmos y herramientas bioinformáticas desarrolladas con las herramientas bioinformáticas de identificación Mascot, SEQUEST; comúnmente
4
Introducción
utilizadas en experimentos de proteómica en una mezcla compleja de proteínas de E. coli. IV. Diseñar un método de identificación de péptidos modificados con isotiocianato de fenilo mediante la asignación del residuo N- terminal, del punto isoeléctrico, el tiempo de retención y la masa molecular en combinación con bases de datos centradas en péptidos.
Tareas para darle cumplimiento a este objetivo: •
Analizar proteomas anotados en bases de datos con el empleo del punto isoeléctrico, tiempo de retención, el aminoácido en el extremo N- terminal, la masa de los péptidos y bases de datos centradas en péptidos para la identificación de péptidos modificados con isotiocianato de fenilo en experimentos de proteómica de alto flujo.
•
Desarrollar de una función de estimación de punto isoeléctrico para péptidos, basada en máquinas de soporte vectorial y propiedades experimentales de los aminoácidos.
El análisis de los resultados evidencia varios aportes al conocimiento. En primer lugar, el empleo integrado de los tres métodos de aislamiento selectivo de péptidos (RH0, RH1, RH2) y el diseño de bases de datos centradas en péptidos sobre un experimento de identificación de proteínas humanas solubles de la línea celular Huh7 de carcinoma de hígado demostraron por primera vez la posibilidad de emplear los métodos de aislamiento selectivo en conjunto e incrementar el número de proteínas identificadas con respecto a las metodologías actuales de identificación en bases de datos. El desarrollo de un nuevo método de identificación basado en la asignación de ion fragmento b1, la masa de los péptidos y los métodos de aislamiento selectivo demostraron la posibilidad de identificar más proteínas que los algoritmos y programas que existen en la actualidad. El análisis in silico de seis proteomas diferentes evidenció la posibilidad de identificar péptidos modificados con isotiocianato de fenilo utilizando el punto isoeléctrico, el tiempo de retención, el aminoácido N- terminal y los métodos de aislamiento selectivo de péptidos. De igual forma se desarrolló e implementó de un nuevo método de estimación del punto isoeléctrico de péptidos y proteínas basado en máquinas de soporte vectorial y descriptores moleculares mucho más preciso que los métodos actuales. Estos hallazgos constituyen novedades científicas de esta tesis.
5
Introducción
De igual forma, la función de punto isoeléctrico basada en máquinas de soporte vectorial y descriptores moleculares de los péptidos demostró una mejor precisión en la estimación de esta propiedad comparada con todos los algoritmos que existes en el estado del conocimiento. La importancia práctica del trabajo radica en que los métodos y herramientas propuestos son de fácil implementación en cualquier laboratorio dedicado a la proteómica o a la química de proteínas. Los algoritmos propuestos para la identificación de proteínas y el cálculo del punto isoeléctrico superan a todos los de su tipo existentes en la actualidad y se encuentran implementados en herramientas de código libre y no comerciales disponibles a los laboratorios de proteómica. Estos métodos se aplicaron exitosamente en el estudio de proteomas de organismos simples (E. coli) y complejos (Homo sapiens). Las librerías de programas y herramientas bioinformáticas generadas en este trabajo han sido incluidas dentro de la plataforma y repositorio de datos de proteómica PRIDE que almacena datos públicos de la comunidad de proteómica internacional. Este trabajo de tesis presentado en la modalidad de artículos consta de: Introducción (7 páginas), Revisión Bibliográfica (22 páginas), Artículos (1 página), Discusión General (15 páginas), Conclusiones (1 página), Recomendaciones (1 página), Referencias (23 páginas). Los resultados presentados en esta tesis han sido discutidos en varios Congresos Nacionales e Internacionales: 7th HUPO World Congress 2008, 8th Siena Meeting from genome to proteome: Integration and proteome completion, Biotecnología Habana 2009, Biotecnología Habana 2012. Además, forman parte de ocho publicaciones científicas, en las revistas internacionales de alto impacto “Nature Biotechnology (1 artículo)”, “Bioinformatics (1 artículo)”, “Journal of Proteomics (3 artículos)”, “Analytical Chemistry (2 artículos)” y “Electrophoresis (1 artículo)”. La mayor parte del trabajo experimental y bioinformático se realizó en el Centro de Ingeniería Genética y Biotecnología (CIGB) de La Habana. El desarrollo de las librerías para la visualización y lectura de formatos estándares de proteómica se desarrolló en el Instituto Europeo de Bioinformática en colaboración con el grupo PRIDE.
6
Revisión Bibliográfica
I. Revisión bibliográfica I.1 Introducción a la proteómica El proteoma describe el estado celular o las condiciones externas de la célula. Su análisis puede ser visto como un amplio ensayo geonómico para diferenciar y estudiar estados celulares y determinar el mecanismo molecular que los controla (Haynes et al., 1998). La proteómica constituye el próximo paso, en el esfuerzo por descubrir información acerca de cómo los genes están relacionados con una función biológica o un estado patológico. Dado que la mayoría de los blancos farmacológicos son proteínas, existe un gran interés en las potencialidades de la proteómica en la identificación de nuevos blancos para la intervención y tratamiento de enfermedades (Miao et al., 2012). Proteínas específicas pueden ser identificadas como biomarcadores precisos y sensibles para estadios tempranos de enfermedades, lo que puede asegurar su utilidad en el diagnóstico y pronóstico de las enfermedades (Schirle et al., 2012). Actualmente, los principales retos de la proteómica lo constituyen: (i) la identificación de las proteínas presentes en mezclas complejas, (ii) la comparación de los perfiles de expresión de las proteínas identificadas, (iii) el análisis de las interacciones de las proteínas. La identificación y validación de las proteínas presentes en una mezcla compleja es uno de los campos de investigación más dinámico y en desarrollo dentro de la proteómica (Angel et al., 2012). Las etapas fundamentales para la identificación de proteínas son: (i) la preparación de la muestra, (ii) la separación de proteínas y péptidos, (iii) su identificación y (iv) el análisis y validación de los resultados obtenidos. La preparación de la muestra es un paso crítico, que define las posibilidades de éxito en las etapas posteriores del experimento (Castellanos-Serra and Paz-Lago, 2002). La mezcla de proteínas y péptidos se pueden separar mediante el uso de técnicas multidimensionales, entre las que se destacan las electroforéticas y las cromatográficas. La identificación de las proteínas se lleva a cabo mediante el empleo de la espectrometría de masas y el uso de herramientas bioinformáticas que posibilitan la identificación de la secuencia de las proteínas bajo estudio. I.2 Métodos electroforéticos La electroforesis bidimensional (2-DE) fue desarrollada independientemente por P. H. O’ Farrel (O'Farrell, 1975) y J. Klose (Klose, 1975) en el año 1975. La 2-DE permite el análisis de muestras proteicas complejas debido a su capacidad de separar miles de proteínas en un solo gel. La metodología se fundamenta con la combinación ortogonal de dos propiedades físico-
7
Revisión Bibliográfica
químicas: el punto isoeléctrico (pI) y la talla molecular. Cada mancha resultante se corresponde, generalmente, con una proteína de la muestra biológica (O'Farrell, 1975). Sin embargo, proteínas con puntos isoeléctricos y pesos moleculares extremos, y las proteínas hidrofóbicas, están poco representadas en los geles bidimensionales. Se estima que el 30% de las proteínas totales de una célula son de membrana y solamente un 1% de las proteínas integrales de membranas han sido identificadas en geles bidimensionales (Santoni et al., 2000). Por este motivo, generalmente las proteínas hidrofóbicas son separadas mediante electroforesis de geles de poliacrilamida en presencia de SDS (SDS-PAGE) (Ornstein, 1964, Laemmli, 1970). En el procedimiento, la mezcla de proteínas se fracciona por SDS-PAGE, el carril se corta en fragmentos y cada fracción de proteínas se digiere en gel con tripsina. La mezcla de péptidos se eluye del gel y se analiza por cromatografía líquida en fase reversa acoplada a espectrometría de masas (RP-LC-MS/MS). El empleo de SDS-PAGE ha demostrado las potencialidades de este método electroforético para la separación y posterior identificación de proteínas de membrana (Simpson et al., 2000). La focalización isoeléctrica fuera del gel (OGE) es un método de reciente aplicación en la proteómica (Ros et al., 2002). Los péptidos focalizan en la solución contenida en la parte superior de las tiras de pH inmovilizado. Una vez concluida la corrida, las fracciones se colectan en cada una de las cámaras en solución y se analizan por LC-MS. Este enfoque permite el fraccionamiento y la rápida identificación de los componentes de muestras complejas. Los péptidos identificados son caracterizados con su punto isoeléctrico experimental y esta propiedad puede ser empleada como criterio de validación de la identificación (Heller et al., 2005, Horth et al., 2006, Reiter et al., 2009, Krijgsveld et al., 2006). I.3 Métodos Cromatográficos y de aislamiento selectivo de péptidos Durante la última década, la cromatografía líquida acoplada a espectrometría de masas (LC-MS) se ha convertido en una herramienta indispensable para la proteómica (Nilsson et al., 2010). Sin embargo, separaciones de una sola dimensión carecen de suficiente resolución para resolver muestras biológicas complejas (Guiochon, 2006). Por esta razón se requiere la combinación de métodos de separación ortogonales con el fin de proporcionar un análisis exhaustivo de los componentes de la muestra (Nagaraj et al., 2011). La separación multidimensional de proteínas o péptidos de una mezcla compleja tiene en cuenta dos o más propiedades físico-químicas, las más comúnmente utilizadas son la carga, hidrofobicidad e interacciones bioespecíficas. Este enfoque ayuda a la identificación de especies poco abundantes a partir de la obtención de mezclas más simples (Wu and MacCoss, 2002). 8
Revisión Bibliográfica
En 1999 se publicó una metodología conocida en sus inicios como DALPC (del inglés Direct Analysis of Large Protein Complexes) (Link et al., 1999), que combina la cromatografía de intercambio catiónico fuerte (SCX) y la fase reversa (RP) para la separación de péptidos. Optimizaciones posteriores de este sistema resultaron en la forma actual de la metodología MudPIT (del inglés Multidimensional Protein Identification Technology) (Washburn et al., 2001). A pesar de la excelente resolución de las técnicas cromatográficas de RP y SCX para la separación de péptidos, la complejidad de la muestra excede las capacidades de estos sistemas. Adicionalmente, el número de péptidos que se detectan en un análisis por LC-MS/MS supera la capacidad de fragmentación de los espectrómetros de masas actuales. Una alternativa de simplificación de la muestra surge con la aplicación del concepto de aislamiento selectivo de pocos péptidos por proteína (3-5 péptidos/proteína) (Gevaert et al., 2003). La mayoría de estos procedimientos se basan en la modificación química selectiva de la cadena lateral de algunos aminoácidos y el posterior aislamiento de los péptidos modificados mediante métodos cromatográficos (Domon and Aebersold, 2006).
I.3.1 Péptidos con cisteína En la metodología ICAT (del inglés Isotope-Coded Affinity Tags) se procede a la derivatización química de los péptidos con residuos de cisteína en su secuencia. Según el diseño original este tipo de reactivo consta de tres elementos funcionales: un grupo reactivo específico, un brazo espaciador isotópicamente codificado y un marcador de afinidad (biotina). La cromatografía de afinidad biotina-avidina se utiliza para el aislamiento de los péptidos modificados. Esta metodología permite la simplificación de la mezcla a 3-4 péptidos por proteína y cubre entre el 80-90% de los proteomas (Gygi et al., 1999).
I.3.2 Péptidos con metionina El método conocido como COFRADIC (del inglés COmbined FRActional DIagonal Chromatography) consiste en dos corridas RP-HPLC de péptidos con una reacción intermedia de modificación química o enzimática. Los péptidos no modificados eluyen en la misma fracción en las dos corridas cromatográficas, mientras que los péptidos derivatizados cambian su tiempo de retención. Este principio puede aplicarse en el aislamiento selectivo de péptidos que contienen Metionina o Cisteína en sus secuencias o péptidos N-terminal de proteínas. De manera similar, se
9
Revisión Bibliográfica
pueden seleccionar péptidos con modificaciones pos-traduccionales como los fosfopéptidos o péptidos N-glicosilados (Gevaert et al., 2002, Van Damme et al., 2009b, Gevaert et al., 2003). I.3.3 Péptidos delimitados por residuos de Arginina y que no presentan Lisina Sánchez y colaboradores desarrollaron un método para el aislamiento de péptidos delimitados por residuos de Arginina y que no contienen Lisina interna (RRnK) (Sanchez et al., 2006b). En este método las proteínas son digeridas con la enzima lisil endopeptidasa, proteasa que hidroliza específicamente por el extremo C de los residuos de lisina. Los grupos ε- amino de las cadenas laterales de las lisinas y los α-amino de los péptidos generados por la digestión son biotinilados y luego digeridos con tripsina, obteniéndose nuevos péptidos con grupos α- amino libres, algunos de ellos con la presencia de Arginina en el extremo C. Finalmente, se realiza una cromatografía de afinidad utilizando estreptavidina inmovilizada. Todos los péptidos que contienen al menos un grupo amino biotinilado son retenidos en la columna de afinidad. Los péptidos no biotinilados no se retienen y son colectados para su análisis por LC-MS/MS. Esta metodología permite seleccionar (como promedio) de 4 a 5 péptidos por proteína, representativos del 85% al 87% del proteoma. I.3.4 SCAPE: Péptidos no cargados Betancourt y colaboradores propusieron la metodología SCAPE (Betancourt et al., 2005) que se basa en las diferencias producidas en la carga de los péptidos trípticos después de ser modificados los grupos amino. Como resultado, la mezcla compleja puede ser fácilmente clasificada en dos grupos de péptidos: los no cargados y los cargados positivamente. Estos últimos se protonan por la presencia de residuos de Histidina y Arginina en su secuencia. La mezcla de péptidos se aplica a una columna de SCX, donde los péptidos con carga positiva son capturados mientras que las especies no cargadas no se retienen. Los péptidos no retenidos no contienen residuos de Histidina ni Arginina y se denominan péptidos RH0 o (R+H=0) (Betancourt et al., 2005). I.3.5 Péptidos multicargados Sánchez y colaboradores propusieron un método para el aislamiento selectivo de péptidos conocido como RH2. El método desarrollado se basa en la modificación de los grupos aminos primarios de los péptidos (α-y ε-NH2) para restringir la presencia de carga positiva. En presencia de medio ácido, sólo se cargan positivamente los péptidos que contienen Arginina e Histidina, lo 10
Revisión Bibliográfica
que permite una separación por cromatografía de intercambio catiónico de las especies neutras (R + H=0) y cargadas (R + H > 1) (Sanchez et al., 2006a). I.4 Espectrometría de masas La Espectrometría de Masas es la técnica analítica que permite la generación de iones en fase gaseosa además de su separación y detección. Los espectrómetros de masas se pueden usar para determinar la masa molecular de una proteína o un péptido, así como para determinar su estructura primaria (Aebersold and Mann, 2003). Para ello es necesario seleccionar un ion específico y someterlo a un proceso de fragmentación, conocido como espectrometría de masas en sucesión (MS/MS) (Witze et al., 2007). En un primer espectro se obtiene la masa del compuesto que se ha de analizar, y en un segundo espectro, las masas de los fragmentos obtenidos. Las partes básicas de un espectrómetro de masas son: el sistema de introducción de muestras, la fuente de ionización, el analizador de masas y el detector de iones (de Hoffmann, 2007). En la fuente de ionización, las muestras son llevadas a estado gaseoso y son ionizadas mediante expulsión de electrones, protonación o deprotonación. Los iones formados, pueden ser electrostáticamente dirigidos al analizador, separados acorde con su relación masa/carga (m/z) y finalmente detectados, registrándose el número de iones para cada valor de m/z. El resultado de la ionización, separación de iones y detección es lo que se conoce como espectro de masas, de cuyo estudio se puede extraer información acerca de la masa molecular y de la estructura de los compuestos (de Hoffmann, 2007). La Ionización por Electronebulización (ESI) (Fenn et al., 1989) y la Ionización y Desorción por Láser Asistido por Matriz (MALDI) (Karas and Hillenkamp, 1988) son los dos métodos de ionización más comúnmente usados en el análisis de proteínas y péptidos por espectrometría de masas. Por su parte, el analizador (separador de iones de acuerdo a su m/z) determina parámetros claves como son la sensibilidad, la resolución, la exactitud de las masas y la habilidad para generar información estructural de los péptidos. Los analizadores más comúnmente usados son: los de trampa de iones (IT) (Cooks et al., 1983), los de tiempo de vuelo (TOF) (Vestal and Campbell, 2005), los analizadores tipo cuadrupolo (March, 1997), los de resonancia cincrotrónica de iones con transformada de Fourier (FT-ICR) (Marshall et al., 1998) y los llamados Orbitrap (Hu et al., 2005). Las combinaciones híbridas de estos analizadores son comunes, destacándose los triple cuadrupolos y cuadrupolo-tiempo de vuelo (QTOF) (Chernushevich et al., 2001).
11
Revisión Bibliográfica
Los analizadores Orbitrap son los primeros introducidos en el mercado en los últimos 30 años, basado en un nuevo principio físico, la separación de iones en un campo eléctrico oscilante (Tabla 1). Este instrumento posee valores de resolución y exactitud comparables a los FT-ICR y generalmente se comercializa como un espectrómetro híbrido en unión a una trampa lineal (LTQ-Orbitrap).
Tabla 1: Diferentes analizadores de masas y relación de los valores resolución y precisión asociados a estos.
2’000
Trampa de iones 4’000
100 ppm
100 ppm
Cuadrupolo Resolución Exactitud
TOF FTreflectron ICR 5’000 20’000 500’000 200 5 ppm) es la que ofrece mejores resultados. I.4.1 Espectro de Masas Una de las potencialidades de la espectrometría de masas es que permite determinar la secuencia de péptidos y proteínas. Además posibilita la detección y ubicación de las modificaciones postraduccionales. Para realizar estos análisis es necesario someter a la molécula ionizada a un
12
Revisión Bibliográfica
proceso de disociación, y de este modo obtener un espectro de masas de los iones fragmentos (MS/MS). Aunque existe una amplia variedad de métodos de fragmentación, el conocido por Disociación Inducida por Colisiones (DIC) (Hayes and Gross, 1990), continúa siendo el más utilizado para analizar este tipo de moléculas. De esta manera en los espectros MS/MS obtenidos con trampas iónicas y QTOFs, predominan las series de iones y”n y bn, que se producen por la ruptura del enlace peptídico (Roepstorff and Fohlman, 1984).
x3
y” 3
z3
x2
y” 2
R1
z2
x1
y” 1
z1
R3
NH2 –CH – CO – NH – CH – CO – NH – CH – CO – NH – CH – COOH R2 a1
b1
c” 1
a2
R4 b2
c” 2
a3
b3
c” 3
Iones N-terminal
Iones C-terminal R3
R1
a2 :
+
x2 :
NH2 – CH – CO – NH – CH
+
– C – NH – CH – CO – NH – CH – COOH O – – R4
R2 R3
R1
b2 :
+
– NH2 – CH – CO – NH – CH – C – – O
y”2 :
+
NH3 – CH – CO – NH – CH – COOH R4
R2 R1
c’’2 :
R3 +
NH2 – CH – CO – NH – CH – CO – NH3
z2 :
R2
+
CH – CO – NH – CH – COOH R4
Figura 1: Iones fragmentos más comúnmente generados por la disociación de los enlaces del esqueleto carbonado de un tetrapéptido hipotético.
La Figura 1 muestra los iones fragmentos del esqueleto carbonado de un péptido que pueden producirse durante un experimento de espectrometría de masas. Estos iones pueden ser agrupados en dos grandes familias: iones N-terminales e iones C-terminales en dependencia de cuál de los extremos del péptido ellos conserven. Ambas familias se subdividen en series de fragmentación según el sitio alrededor del enlace peptídico donde ocurre la disociación del ión precursor. El subíndice que acompaña a estas series de iones indica la cantidad de residuos que contiene cada ión fragmento, y los apóstrofes señalan el número de protones ganados por estos en el proceso de fragmentación. El espectro de masas representa la frecuencia y la relación masa/carga de los iones fragmentos detectados por el espectrómetro de masas (de Hoffmann, 2007). Cada altura de pico o señal (intensidad del pico) es proporcional a la frecuencia del ion fragmento a un valor de masa/carga determinado (Figura 2). Los espectros de masas son comúnmente representados como un gráfico
13
Revisión Bibliográfica
donde el eje de las x representa la relación masa/carga y el eje de las y representa la intensidad relativa de cada pico. La diferencia de masas entre señales consecutivas de iones correspondientes a una misma serie, nos indicará la pérdida de un aminoácido, la posición que ocupa dentro de la secuencia y en el caso en que se obtengan valores de masas inesperados, estos pudieran relacionarse con aminoácidos modificados. De esta forma es posible localizar modificaciones post-traduccionales y determinar la secuencia de péptidos de forma bidireccional, lo que redunda en una mayor confiabilidad en la interpretación del espectro. Una característica particular de los experimentos de DIC, es que cualquiera sea el régimen de energía que se utilice, la eficiencia de la fragmentación del péptido o la proteína en estudio, es dependiente de su secuencia. Esto provoca que aunque se han realizado múltiples esfuerzos, sea prácticamente impredecible en su mayoría la relación de intensidades y la aparición de los fragmentos en el espectro de masas.
Figura 2: Espectro de Masas MS/MS obtenido en un analizador TOF de un péptido con secuencia HisAla-Ala-Xle-Glu-Val-Ala-Pro-Arg. Los iones fragmentos (bn, an, zn, y”n) se encuentran representados en color azul. La señal (M+2H)2+ representa la señal del ion precursor. El eje de las x muestra la relación masa/carga para cada ion fragmento y el eje de las y la intensidad relativa del ion fragmento.
14
Revisión Bibliográfica
I.4.2 Incremento de la eficiencia de fragmentación a través de modificaciones químicas Es posible, mediante modificaciones químicas producir algún patrón de fragmentación en particular o generar iones fragmentos específicos (Wysocki et al., 2005, Michalski et al., 2011). La mayoría de los métodos de derivatización están diseñados para modificar el extremo N de los péptidos. Esto se debe a que el grupo amino del N-terminal se puede modificar de manera más específica que el grupo carboxilo del C-terminal (Ekman et al., 2008). Los grupos aminos α del extremo N y ε de la lisina pueden ser modificados de manera selectiva en dependencia de las condiciones del medio. En cambio la modificación de los grupos carboxilos del C-terminal y de los aminoácidos ácidos Asp y Glu pueden ocurrir en extensiones similares. La modificación de péptidos empleando PITC es una de las estrategias que se utilizan para la obtención de iones fragmentos específicos más intensos (Wang et al., 2009). Cuando un péptido modificado con PITC se fragmenta en fase gaseosa mediante disociación inducida por colisiones a baja energía, ocurre un proceso análogo a la degradación de Edman en fase líquida (Summerfield et al., 1997). Esta fragmentación promueve la formación de los iones complementarios b1 y yn-1, con elevados rendimientos (70-90%) (Diego et al., 2010). Gaskell y colaboradores emplearon esta reacción para identificar proteínas de levadura presentes en geles de poliacrilamida (Brancia et al., 2001). En otra aplicación a la proteómica, Yao y colaboradores propusieron el empleo de los iones b1 y yn-1 para la cuantificación absoluta de proteínas mediante Monitoreo de Reacciones Múltiples (MRM) (Wang et al., 2009). I.5 Proteómica computacional y bioinformática El desarrollo de la proteómica y sus técnicas analíticas han estado estrechamente relacionados con la evolución de la bioinformática y en especial de la proteómica computacional (Aebersold, 2011). La proteómica computacional es el conjunto de herramientas informáticas y análisis bioinformáticos que se emplean en los estudios de proteómica (Colinge and Bennett, 2007). Una simple célula de bacteria puede producir más de 4000 proteínas, mientras que el número de proteínas expresadas en eucariontes superiores es 10 veces mayor. Por esta razón, intentar analizar, validar, visualizar y catalogar los datos de proteómica se ha convertido en uno de los mayores retos de la bioinformática y la proteómica computacional (Aebersold, 2011, Martens, 2011). Eric W. Deutsch y colaboradores describen las etapas donde el empleo de las herramientas bioinformáticas son cruciales en un experimento de identificación de proteínas (Deutsch et al., 2008): (i) análisis in silico de proteomas, (ii) identificación de péptidos y
15
Revisión Bibliográfica
proteínas, (iii) validación de péptidos y proteínas identificadas, (iv) visualización, análisis y almacenamiento de los datos obtenidos (Figura 3). El carácter cíclico de este flujo de etapas se debe a la necesidad de optimizar las condiciones del experimento analítico, conocidos los resultados alcanzados en el experimento. Cuando el diseño experimental ha sido optimizado y el protocolo analítico es conocido no es necesario realizar análisis in silico del proteoma estudiado.
Análisis in silico de proteomas
Experimento Analítico
Identificación de péptidos y proteínas
Validación de péptidos y proteínas identificadas
Visualización, análisis y almacenamiento de los datos obtenidos Figura 3: Definición de los pasos bioinformáticos más comunes el desarrollo de metodologías de identificación de proteínas en experimentos de proteómica de alto flujo.
I.5.1 Análisis in silico de proteomas El análisis in silico de proteomas permite predecir la eficiencia del diseño experimental en términos de cantidad y calidad de los péptidos y proteínas identificadas. El estudio de las propiedades de los péptidos y proteínas como la hidrofobicidad, carga eléctrica, masa y punto isoeléctrico posibilitan ajustar las variables experimentales para producir mejores resultados (Cagney et al., 2003). Cebrat y colaboradores realizaron un estudio profundo de la relación del punto isoeléctrico con la taxonomía, el tamaño de las secuencias, y la localización celular de las proteínas (Kiraga et al., 2007). El estudio demostró la distribución bimodal que presenta el punto isoeléctrico de proteínas y péptidos para la mayoría de las taxonomías. El análisis in silico de 16
Revisión Bibliográfica
proteomas se subdivide en dos grandes componentes: bases de datos de secuencias de proteínas y plataformas bioinformáticas que permitan el procesamiento de estas bases de datos (Cagney et al., 2003, Colinge et al., 2006). La identificación de proteínas está basada comúnmente en el empleo de programas de búsqueda en bases de datos (Edwards, 2011). Las bases de datos de secuencias de proteínas son conjuntos de secuencias de aminoácidos anotadas en ficheros de texto, que han sido obtenidas por algoritmos computacionales o que han sido secuenciadas a través de técnicas analíticas (Apweiler et al., 2004). Estas bases de datos son anotadas en ficheros de texto con diferentes estructuras como los archivos estándares XML o ficheros FASTA (ficheros texto donde se anotan solo las secuencias de aminoácidos y los identificadores de las proteínas). Entre las bases de datos de secuencias de proteínas más empleadas en proteómica se encuentran: (i) UniProt KnowledgeBase (SWISS-PROT/TrEMBL), (ii) la base de datos no redundante de NCBInr (del inglés National Center for Bioinformatics Information), (iii) el índice internacional de proteínas (IPI – del inglés International Protein Index) (Kersey et al., 2004). UniProt (SWISS-PROT/TrEMBL) El repositorio central de secuencias de proteínas Uniprot está integrado por dos fuentes fundamentales: (i) SWISS-PROT y (ii) TrEMBL (Magrane and Consortium, 2011). La diferencia principal entre estas dos bases de datos radica en el proceso de curación manual al cual es sometida SWISS-PROT. Todas las entradas (secuencias) en SWISS-PROT han pasado un riguroso control manual por biólogos y curadores expertos. Durante el proceso de curado diversas fuentes de información son consultadas y verificadas de forma cruzada con el objetivo de establecer las anotaciones que están claramente soportadas sobre solidas evidencias biológicas y experimentales. Obviamente, el proceso de curación es intenso en términos de recursos humanos y tiempo, lo que limita su crecimiento. TrEMBL fue creada con el objetivo de complementar esta debilidad, lo que hace de forma eficiente. TrEMBL está dividida en dos secciones, llamadas SP-TrEMBL y REM-TrEMBL. SP-TrEMBL contiene todos los registros que van a ser incorporados a UniProt/SwissProt. Por el contrario, REM-TrEMBL (del inglés REMaining TrEMBL) contiene secuencias sintéticas, truncadas, y otros fragmentos de proteínas que no son anotados por los mantenedores de UniProt/SwissProt. Adicionalmente, para cada proteína, UniProt contiene un conjunto de anotaciones sobre las modificaciones postraduccionales, función y proceso celular, etc. Otros recursos como las bases de datos UniParc (Leinonen et al., 2004) y UniRef (Suzek et al., 2007), herramientas de procesamiento y búsqueda son provistos por este recurso central. 17
Revisión Bibliográfica
Base de datos no redundante de NCBI El NCBI provee la base de datos de secuencias de proteínas no redundantes (NCBInr). Esta base de datos agrupa secuencias de varias fuentes de datos incluidas SWISS-PROT, TrEMBL y RefSeq. Las secuencias pueden ser anotadas en dos formas básicas distintas: NP y XP. Las secuencias NP tienen evidencias que corroboran la existencia de la secuencia como son ADN complementario, mientras que las secuencias XP están basadas puramente en predicciones. El nivel de anotación para cada secuencia depende de la variabilidad de las fuentes de donde se tomó la secuencia. La base de datos es no redundante al nivel de secuencia de proteína, lo que significa que no existen secuencias completamente idénticas. Empleando la herramienta web Entrez (http://www.ncbi.nlm.nih.gov/entrez/) se controlan el historial y todas las versiones de la base de datos. El índice internacional de proteínas El índice internacional de proteínas (IPI) es una base de datos de secuencias de proteínas originalmente creada con el proyecto de secuenciación del proteoma humano (Kersey et al., 2004). La base de datos fue concebida como una fuente de secuencias de proteínas humanas no redundantes. Durante los últimos años el crecimiento y expansión de esta base de datos ha dejado atrás el propósito inicial. En la actualidad IPI contiene una variedad de especies y organismos incluidos humanos, ratón y rata. IPI presenta una vista automáticamente curada de las secuencias contenidas en Uniprot, RefSeq y EnsEMBL utilizando un conjunto de programas y algoritmos computacionales que permiten desechar las secuencias duplicadas. El programa computacional emplea algoritmos de agrupamientos (clustering) de secuencia y remueve todas aquellas secuencias los clusters en donde las secuencias muestran más de un 95% de homología. A cada grupo (cluster) se le asigna finalmente un identificador IPI y todas las anotaciones de las diferentes fuentes en el grupo son adicionadas al grupo. IPI de igual forma proporciona el historial de los archivos generados, lo que permite conocer las modificaciones realizadas a cada secuencia (Kersey et al., 2004). I.5.2 Diseño de bases de datos centradas en péptidos para estudios de proteómica El diseño de bases de datos persigue reducir el espacio de búsqueda para los programas computacionales de identificación, conocidas la condiciones y diseño experimental (Yen et al., 2006, Gevaert et al., 2002). El ejemplo más sencillo es la reducción del espacio de búsqueda y
18
Revisión Bibliográfica
creación de una base de datos que solo contenga la taxonomía que se estudia. El procedimiento permite que el programa de búsqueda no emplee secuencias de proteínas que no están en la mezcla biológica y por ende reduce la posibilidad de identificar falsos positivos (conocido como el problema de distracción) (Yen et al., 2006), así como reduce el tiempo de búsqueda e identificación (Li et al., 2010). Gevaert y Martens propusieron por primera vez el empleo de bases de datos centradas en péptidos para el estudio de péptidos N-terminales aislados selectivamente (Gevaert et al., 2003). La creación de una base de datos centrada en péptidos N-terminales en combinación con el método de aislamiento selectivo de los péptidos N-terminales de las proteínas, posibilitó el incremento de 40% de las péptidos y espectros identificados (Martens et al., 2005c, Gevaert et al., 2003). Martens y colaboradores crearon posteriormente una herramienta de escritorio DBtoolkit (Martens et al., 2005c) y web “Database on Demand” (Reisinger and Martens, 2009) para automatizar y facilitar la creación de bases de datos centradas en péptidos. Estas herramientas fueron empleadas en la generación de bases de datos centradas en péptidos Nterminales en diferentes estudios de proteómica de alto flujo (Martens et al., 2005b). De igual forma, Resing y colaboradores desarrollaron bases de datos centradas en péptidos para incrementar la sensibilidad de los programas de búsqueda dado que bases de datos más pequeñas resultan en menos distracción para los programas de búsqueda (Yen et al., 2006). En esta metodología, empleando programas computacionales y un conjunto de reglas, se excluyen las secuencias de péptidos que se estiman no deben aparecer en la muestra biológica. Resing y colaboradores pudieron definir que todos los péptidos identificados se encontraban dentro del intervalo de masa de 950 Da a 4500 Da y que el número máximo de cortes incompletos era 2. El empleo de esta metodología permitió la reducción entre 3 y 9 veces el tamaño original de la base de datos de secuencias. I.5.3 Estimación de propiedades químico-físicas de péptidos y proteínas Los métodos de separación tanto de electroforesis y cromatografía, así como espectrometría de masas; emplean propiedades químico-físicas para separar y diferenciar los péptidos y las proteínas en una mezcla compleja. Las técnicas electroforéticas por ejemplo emplean por lo general las propiedades electrostáticas de las macromoléculas para su separación: carga, punto isoeléctrico, relación masa/carga. Por su parte los métodos cromatográficos pueden emplear la hidrofobicidad o hidrofilicidad, y el estado de carga de las moléculas. La espectrometría de masas emplea la masa de cada péptido o proteína así como de los iones fragmentos como criterio
19
Revisión Bibliográfica
de diferenciación (Eidhammer et al., 2008). La estimación teórica precisa de estas propiedades químico-físicas permite la evaluación de la eficiencia del método de separación e identificación. Estimación teórica del punto isoeléctrico El punto isoeléctrico de una proteína o péptido se define como aquel valor de pH al cual la carga eléctrica neta de la molécula es nula, lo que imposibilita su desplazamiento en un campo eléctrico (Nelson and Cox, 2004). A este valor de pH, la molécula muestra un mínimo de solubilidad y no existe repulsión electrostática entre moléculas vecinas. Debido a que las proteínas difieren en el contenido de aminoácidos con grupos laterales ionizables, estas poseen diferentes valores de pI, por lo que este parámetro puede ser utilizado como criterio de separación de proteínas y péptidos (Nelson and Cox, 2004). La separación de péptidos y proteínas sobre la base de su carga eléctrica depende de sus propiedades ácido/básicas, las cuales se determinan por el número y tipo de grupos ionizables de sus cadenas polipeptídicas. El punto isoeléctrico está determinado por el número de grupos que se ionizan y sus constantes de ionización (pK). Este valor será relativamente elevado (por encima de pH= 7,0) si la cadena peptídica posee un contenido elevado de aminoácidos básicos (Lisina, Arginina), y relativamente bajo (inferior a pH=7,0) si la proteína posee aminoácidos ácidos (Aspártico, Histidina y Glutámico) (Nelson and Cox, 2004). Los algoritmos y modelos matemáticos que se emplean para la predicción del punto isoeléctrico de péptidos y proteínas se basan únicamente en la estructura primaria de la proteína (secuencia de aminoácidos). La ecuación de Henderson-Hasselbach (Nelson and Cox, 2004) es utilizada para aproximar el valor de pI basado en los pK de los grupos laterales ionizables ácidos (Ecuación 1) y básicos (Ecuación 2). [𝐴− ] =
10𝑝𝐻−𝑝𝐾𝑎
10𝑝𝐻−𝑝𝐾𝑎 +1
[𝐻𝐴+ ] =
1
10𝑝𝐻−𝑝𝐾𝑎 +1
Ecuación 1 Ecuación 2
Estas ecuaciones proporcionan el modelo matemático para predecir la magnitud de la carga neta de un péptido a un pH dado. Obteniendo las cargas del total de grupos laterales ionizables presente en cada especie, es posible determinar el pH al cual la carga neta es nula. Para la correcta estimación del punto isoeléctrico de péptidos y proteínas existen diferentes conjuntos de pK que han sido obtenidos bajo diferentes condiciones electroforéticas (Patrickios and Yamasaki, 1995, Sillero and Ribeiro, 1989, Ribeiro and Sillero, 1990, Righetti, 2004, Shimura et al., 2000). 20
Revisión Bibliográfica
Bjellqvist y colaboradores demostraron en 1993 que las constantes de ionización de cada aminoácido varían dependiendo de la posición en la secuencia (Bjellqvist et al., 1993). El principal aporte de este trabajo fue definir la constante de ionización del grupo carboxilo (CTerminal) y el grupo amino (N- terminal) en dependencia del aminoácido que se encuentra en la posición C- terminal o N- terminal respectivamente. Varias optimizaciones de las constantes de ionización han sido nuevamente estudiadas teniendo en cuenta la demostración de Bjellqvist y colaboradores (Wilkins et al., 1999, Shimura et al., 2000, Gauci et al., 2008). Recientemente, Cargile y colaboradores (Cargile et al., 2008) establecieron que el valor de la constante de ionización de un aminoácido depende además de su interacción con los aminoácidos adyacentes. El modelo desarrollado aplica una corrección a la constante de ionización de los aminoácidos Glutámico, Aspártico y el extremo C-terminal de los péptidos dependiendo de los residuos adyacentes. Los autores emplearon un algoritmo genético con 5000 péptidos trípticos correctamente identificados y obtuvieron un conjunto nuevo de valores de pK para los tres residuos. El algoritmo propuesto permite la estimación del punto isoeléctrico con una correlación de 0,98 y un error en la estimación menor que 0,15 unidades de pH en la fracción acida de pH de 3,5 a 4,5 (Cargile et al., 2008). Estimación del tiempo de retención
A principios de los años 80 fue postulado que el tiempo de retención de los péptidos puede ser estimado como la suma de los coeficientes de hidrofobicidad de los residuos que conforman la secuencia del péptido (Meek, 1980). Varios modelos similares han sido desarrollados (Browne et al., 1982, Guo et al., 1986, Sasagawa et al., 1982), cuyo aporte fundamental es la introducción de factores de corrección que dependen del tamaño de la secuencia (Mant et al., 1988). En particular, estos algoritmos han hecho énfasis en el tamaño de la secuencia y la presencia de estructuras secundarias (Purcell et al., 1993, Sereda et al., 1995). Petritis y colaboradores con el empleo de 7000 péptidos identificados por HPLC-ESI MS/MS y un algoritmo genético desarrollaron un modelo matemático capaz de estimar el tiempo de retención con una desviación estándar por debajo de 0,2 (Petritis et al., 2003). No obstante la eficiencia del método estaba determinada por el conjunto de datos de entrenamiento y el tiempo de ejecución del algoritmo era excesivo para experimentos de proteómica. Krokhin y colaboradores propusieron en el 2006 un modelo de predicción y programa de cálculo (SSRCalc) del tiempo de retención basado en un modelo aditivo (Krokhin, 2006). Los autores combinaron el método aditivo con correcciones a los coeficientes de hidrofobicidad dependientes
21
Revisión Bibliográfica
del tamaño de la secuencia y el aminoácido en el extremo N-terminal. La aplicación de un algoritmo de aprendizaje y un conjunto de 350 péptidos identificados con una alta confiabilidad permitieron generar y validar los coeficientes de ajuste del modelo aditivo y predecir el tiempo de retención teórico con una correlación de R2 de 0,97 (Krokhin, 2006). Estimación de la masa molecular El cálculo teórico de la masa molecular de péptidos y proteínas es un método simple que se resume a la adición de las contribuciones de cada residuo de la secuencia de aminoácidos. Además se adicionan los valores de masas de los átomos en los extremos N- y C- terminal, generalmente H y OH, respectivamente. Si la secuencia se encuentra modificada se adicionan las contribuciones en masa de las modificaciones químicas (Eidhammer et al., 2008). I.5.4 Identificación de proteínas basada en la interpretación de espectros de masas El éxito de la espectrometría de masas para la identificación de proteínas en mezclas complejas depende del desarrollo de herramientas computacionales eficientes que permitan la asignación del espectro de masas MS/MS a una secuencia de aminoácidos. Las diferentes metodologías de identificación y herramientas bioinformáticas pueden ser catalogadas en tres grupos fundamentales: (i) algoritmos de búsqueda en bases de datos que emplean una función de puntuación que evalúa la concordancia entre el espectro (MS/MS) de masas obtenido experimentalmente y y los espectros teóricos de todos los péptidos almacenados en bases de datos (Nesvizhskii, 2007, Edwards, 2011), (ii) los algoritmos de novo y de etiquetas de secuencia que reconstruyen la secuencia de un péptido a partir del espectro MS/MS y la masa molecular (Ma and Johnson, 2012, Dancik et al., 1999), y (iii) librerías de espectros (MS/MS) previamente identificados y anotados (Lam and Aebersold, 2011, Lam et al., 2008). El espacio de búsqueda de los algoritmos de identificación puede ser representado como tres grandes de grupos: (i) el espacio que contiene a todos los péptidos posibles a identificar en un experimento de proteómica, (ii) el espacio que contiene a todos los péptidos de la muestra que están anotados en bases de datos, (iii) el subconjunto de péptidos que han sido identificados en experimentos de proteómica previos (Figura 4). En el espacio de búsqueda más amplio se desarrollan los métodos de novo y de etiquetas de secuencia, los cuales no realizan asunciones acerca de cuál péptido o proteína se debe encontrar en la muestra (Ma and Johnson, 2012). Estos algoritmos buscan entre todas las combinaciones posibles de los 20 aminoácidos conocidos que representan el espectro MS/MS obtenido analíticamente. Los algoritmos de búsqueda en bases de
22
Revisión Bibliográfica
datos se limitan al espacio de péptidos contenidos en las secuencias de proteínas reportadas en bases de datos (Edwards, 2011). Los algoritmos de búsqueda en librerías de espectros necesitan que los péptidos se encuentren identificados previamente bajo las mismas condiciones experimentales (Lam and Aebersold, 2011).
Figura 4: Espacio de búsqueda para los tres tipos fundamentales de algoritmos de identificación: algoritmos de novo y etiquetas de secuencia, algoritmos de búsqueda en bases de datos y algoritmos de búsqueda en librerías de espectros.
Algoritmos de búsqueda en bases de datos El objetivo principal de los algoritmos de búsqueda en bases de datos es la identificación de la secuencia de la proteína que mejor identifica un espectro de masas (Edwards, 2011). Los algoritmos de búsqueda en bases de datos reproducen in silico las etapas de un experimentos de espectrometría de masas (Figura 5): (i) la bases de datos de proteínas es digerida en péptidos empleando la enzima que fue utilizada en el experimento analítico, (ii) la masa teórica de todos los péptidos generados en la base de datos son comparados con el valor de masa experimental del precursor del espectro MS/MS empleando un error que corresponde con la exactitud del espectrómetro, (iii) se generan el espectro teórico MS/MS de los péptidos seleccionados que coinciden en masa con la masa del precursor y son comparados con el espectro experimental teniendo en consideración los iones fragmentos generados (iv) finalmente se genera una función de puntuación que cuantifica la correlación entre el espectro teórico y el espectro experimental.
23
Revisión Bibliográfica
El componente más importante de un algoritmo de búsqueda en bases de datos para la identificación de proteínas es el desarrollo de un modelo y función de puntuación robusta que correlacione los espectros MS/MS teórico y experimental (Kapp et al., 2005). Debido a la variabilidad de patrones de fragmentación, diversidad de espectrómetros de masas e intensidad de las señales entre diferentes corridas para el mismo modelo de espectrómetro de masas, la generación de una función de puntuación es un reto matemático y computacional. El consenso entre la mayoría de los algoritmos existentes es expresar la relación entre el espectro teórico y experimental, en función de la cantidad de iones fragmentos del espectro teórico que se encuentran en el espectro experimental empleando para la comparación un valor de error que depende de la exactitud del espectrómetro (Nesvizhskii, 2007).
Experimento analítico
Algoritmo de búsqueda en bases de datos
Muestra de Proteínas
Base de Datos de Proteínas
Digestión Proteolítica
Digestión enzimática in silico
Análisis MS
Selección de péptidos por masa
Fragmentación
Fragmentación in silico
Análisis MS/MS
Comparación de espectro teórico y espectro MS/MS
Figura 5: Diagrama de flujo de un algoritmo de búsqueda en bases de datos y homología a un experimento analítico.
Eng y colaboradores en 1994 reportaron el primer algoritmo y herramienta computacional para identificación de MS/MS basada en modelos de búsqueda en bases de datos (Eng et al., 1994). El 24
Revisión Bibliográfica
algoritmo, nombrado SEQUEST, posibilitó la interpretación automática y masiva de espectros de masas empleando bases de datos de secuencias. La herramienta de búsqueda Mascot basado en el algoritmo MOWSE (búsqueda de peso molecular) fue desarrollado en 1998 (Perkins et al., 1999). La función de puntuación del programa Mascot es un modelo de similitud que provee una probabilidad de que N iones fragmentos sean identificados de forma aleatoria. Otros dos algoritmos y herramientas computacionales de código abierto son el algoritmo de búsqueda de espectrometría de masas (OMSSA – del inglés Open Mass Spectrometry Search Algorithm) (Geer et al., 2004) y el programa X!Tandem distribuidos por el Centro Nacional para la Información Biotecnológica y la Organización Global del Proteoma (GPMO) (Craig and Beavis, 2004). Cada algoritmo computacional emplea uno o más funciones de puntuación para evaluar la calidad de la asignación del espectro experimental MS/MS al espectro teórico de la secuencia. En todos los casos los resultados también dependen de los parámetros de ejecución del programa, de la base de datos que se emplea para realizar la búsqueda y de la calidad de los espectros de masas. El tamaño de la base de datos, la cantidad de cortes incompletos en las secuencias, la exactitud del espectrómetro (error en ppm) y las modificaciones posttraduccionales seleccionas para realizar la búsqueda son algunos de los parámetros que más influencia tienen en la calidad de la búsqueda. Además, la calidad de los espectros MS/MS, en términos de iones fragmentos generados es determinante. Estos factores han propiciado que como promedio solo se identifiquen entre el 30-40% de los espectros MS/MS que se generan con el espectrómetro de masas con estos algoritmos (Michalski et al., 2011). Balgley y colaboradores demostraron que los tres programas de identificación en bases de datos más empleados (Mascot, SEQUEST, X!Tandem) comparten más de un 70% de las identificaciones en un experimento de proteómica (Balgley et al., 2007). El 30% restante de las proteínas son identificadas por solo uno de los programas de identificación. Los algoritmos de búsqueda en bases de datos han sido complementados por otras metodologías de identificación debido a que solo explorar un espacio de soluciones determinado y solo pueden ser empleados en aquellos experimentos donde la muestra biológica provenga de un organismo de proteoma o genoma conocido (existencia de base de datos de secuencias). Algoritmos de novo y de etiquetas de secuencia Los algoritmos de novo son empleados para predecir la secuencia completa o parcial partiendo de la información en el espectro de masas (Ma and Johnson, 2012).
La característica
fundamental de estos algoritmos es que no necesitan información de la secuencia del péptido
25
Revisión Bibliográfica
como los algoritmos de búsqueda en bases de datos, sino que emplean la información de los iones fragmentos contenidos en el espectro de masas para construir la secuencia del péptido. Los algoritmos de novo emplean una representación de grafos para reducir el espacio de búsqueda de las posibles soluciones (Figura 6). En el grafo del espectro cada vértice corresponde con un tipo de ion fragmento (bn, an, yn, etc), mientras que las aristas del grafo corresponden con el aminoácido que se puede asignar a la diferencia en masa entre los dos vértices (iones fragmentos). Cada vértice del grafo recibe un valor de puntuación empleando diferentes funciones y modelos matemáticos. La función de puntuación de la secuencia identificada (péptido identificado) corresponde con el camino óptimo no cíclico entre el aminoácido Nterminal (vértice v0) y el C- terminal (vértice vM) de la secuencia (Ma and Johnson, 2012).
Figura 6: Representación en forma de grafos de un espectro de masas MS/MS. Este grafo representa el espectro MS/MS observado del péptido DAGTIAGLNVLR. Cada ion fragmento y señal del espectro es representado como un nodo (triángulos y círculos), mientras que las aristas representan los aminoácidos cuya masa corresponde a la diferencia entre dos señales del espectro (nodos).
El algoritmo PepNovo (Frank and Pevzner, 2005) mejora la función de puntuación del modelo de grafos empleando coeficientes numéricos dependientes de patrones de fragmentación conocidos. El modelo de grafos es ineficiente cuando iones fragmentos dentro del espectro de masas no aparecen, por lo que el algoritmo no puede conectar la secuencia desde el N- terminal al Cterminal. El algoritmo del programa comercial PEAKS (Ma et al., 2003) emplea programación dinámica para ajustar los valores de masa en el espectro en contraste con la búsqueda de los iones fragmentos. Los algoritmos de novo son la opción computacional más completa para la identificación de proteínas de genomas desconocidos y para la identificación de nuevas modificaciones post-
26
Revisión Bibliográfica
traduccionales en las secuencias. No obstante, cuando se emplean en experimentos de espectrometría de masas suelen reportar muchas soluciones (secuencias) incompletas e inutilizables. Además, los algoritmos de novo necesitan que la aparición de los iones fragmentos en los espectros de masas sean completas para poder obtener las secuencias de los péptidos, ya que no pueden complementar la información con la secuencia en la base de datos. La obtención de una secuencia completa de un péptido empleando los algoritmos de novo a partir del espectro MS/MS resulta difícil debido a que muchos iones fragmentos no son generados en el espectro de masas (Allmer, 2011). Los algoritmos de etiquetas de secuencia (del inglés, sequence tags) emplean pequeños segmentos de secuencia para identificar los péptidos y proteínas en la base de datos. Estos algoritmos pueden ser vistos como casos especiales de algoritmos de novo, donde no se necesita obtener la secuencia total del péptido (Sunyaev et al., 2003). La determinación de etiquetas de secuencia con un alto valor de puntuación posibilita buscar las secuencias de péptidos en la base de datos que poseen estas etiquetas; una estrategia varias veces referida como algoritmos híbridos. El programa computacional GutenTag genera las etiquetas de secuencia de tamaños (cantidad de aminoácidos) configurables por el usuario y luego identifica las 25 mejores secuencias de péptidos que puedan ser identificadas en la base de datos (Tabb et al., 2003). Tabb y colaboradores emplearon con posterioridad un modelo estadístico más riguroso para generar las etiquetas de secuencias en el algoritmo DirecTag (Tabb et al., 2008). Los resultados de la comparación del programa DirecTag con los programas Inspect (Tanner et al., 2005) y Gutentag mostraron una mayor eficiencia en la generación de las etiquetas de secuencias y en la cantidad de proteínas identificadas. Algoritmos de búsqueda en librerías de espectros Los algoritmos de búsqueda en librerías de espectros son un campo emergente en la identificación de proteínas por espectrometría de masas y una solución híbrida entre los algoritmos de búsqueda en bases de datos y los algoritmos de novo (Lam and Aebersold, 2011). La búsqueda en librerías de espectros es una estrategia relativamente nueva en proteómica, pero tiene una larga historia como método de identificación y análisis de moléculas pequeñas. En 1999 Yates y colaboradores introdujeron por primera vez el concepto de este tipo de algoritmos en proteómica empleando la demostración de que los espectros MS/MS son lo suficientemente reproducibles entre diferentes experimentos de proteómica empleando las mismas condiciones analíticas (Yates et al., 1998).
Conceptualmente, estos algoritmos emplean el patrón de
fragmentación del espectro MS/MS de un péptido bajo condiciones experimentales determinadas
27
Revisión Bibliográfica
como huella de identificación del péptido, permitiendo que el espectro a identificar pueda ser comparado con los espectros en la librería. Los programas y herramientas actuales comienzan por la compilación de largas bases de datos de espectros identificados a través de algoritmos de búsqueda en bases de datos. Estos espectros identificados son procesados eliminando espectros que sean iguales y obteniendo un espectro consenso que represente al péptido identificado. Los algoritmos de búsqueda son implementados finalmente para que comparen los espectros bajo estudio con todos los espectros consenso en la base de datos y muestren los péptidos identificados (Lam and Aebersold, 2011). Los programas X!Hunter (Craig et al., 2006), Bibliospec (Frewen et al., 2006) y SpectraST (Lam et al., 2007) que implementan de forma eficiente algoritmos de búsqueda en librerías de espectros fueron publicados por primera vez en el año 2006, casi simultáneamente. X!Hunter es el programa de búsqueda en librería de espectros del grupo de GPM , el mismo grupo de desarrollo del programa X!Tandem. X!Hunter comparte los mismos métodos estadísticos y componentes de software que el programa X!Tandem por lo que ambos pueden ser integrados en un mismo flujo de trabajo. Bibliospec provee su propia librería de espectros e implementa diferentes funciones de filtrado y similitud entre espectros, incluida la implantación de la función de correlación del SEQUEST. SpectraST integrado dentro de la plataforma para los estudios de proteómica TPP (del inglés – Trans-Proteomic Pipeline) (Deutsch et al., 2010) permite la identificación de péptidos en librerías de espectros y proporciona la plataforma para la validación estadística de estas identificaciones. I.5.5 Validación de la identificación de péptidos y proteínas Todos los algoritmos de identificación de péptidos y proteínas contienen un porciento de error asociados a cada asignación y relacionado con el modelo matemático empleado y diferentes factores analíticos (Nesvizhskii, 2010). Entre los factores experimentales que más contribuyen se encuentran: fragmentación incompleta (espectros MS/MS de poca calidad), presencia de cortes incompletos y modificaciones post-traduccionales en los péptidos obtenidos luego la digestión proteolítica de la muestra e inclusión de modificaciones químicas producto del diseño experimental. Estos factores generan espectros de masas de péptidos que no se encuentran dentro del espacio de búsqueda del programa de identificación y sin embargo son asignados a péptidos. Estas asignaciones constituyen falsos positivos dentro del algoritmo de asignación. La medida del error asociado a cada péptido identificado es una medida estadística que unida a la
28
Revisión Bibliográfica
función de puntuación, permite la comparación de los resultados entre diferentes experimentos y ofrece una medida de la calidad de la asignación. El método más común para la validación de los péptidos asignados es el empleo del valor p (pvalue). La definición del valor p en el contexto de los algoritmos de identificación es la probabilidad de observar una asignación incorrecta con un valor de puntuación alto, donde un valor p bajo indica que la probabilidad de identificar un péptido incorrectamente es bajo. Por ejemplo, un valor p de 0.05 se pueden esperar 500 identificaciones incorrectas dentro de 10’000 péptidos identificados en el experimento de proteómica. Los programas Mascot y X!Tandem emplean el valor p como criterio de validación de las identificaciones resultantes y como parámetro de corte los valores de puntuación de cada péptido (Nesvizhskii, 2010). El porciento de identificaciones incorrectas entre todas las identificaciones juzgadas como correctas (FDR – del inglés, False Discovery Rate) es otro de los métodos más empleados en el análisis estadístico de grandes volúmenes de datos como los estudios de proteómica o genómica (Elias et al., 2005). I.5.6 Validación de péptidos identificados empleando propiedades químico-físicas (punto isoeléctrico y tiempo de retención). Heller y colaboradores (Heller et al., 2005) propusieron por primera vez la combinación del punto isoeléctrico y el tiempo de retención para la validación de los péptidos identificados por espectrometría de masas. Estas propiedades químico-físicas pueden ser obtenidas durante el experimento analítico como resultado de aplicar métodos electroforéticos (pI) o métodos cromatográficos (Rt). El método de validación propone que aquellos péptidos identificados deben tener un punto isoeléctrico o tiempo de retención teórico similar a los valores experimentales. Los autores validaron las identificaciones empleando el punto isoeléctrico y el tiempo de retención y confirmaron que de 1837 proteínas identificadas inicialmente solo 1130 identificaciones eran correctas (Figura 7). PeptideProphet es el primer algoritmo de validación y herramienta computacional que integra el punto isoeléctrico como criterio de validación en la función de puntuación y probabilidad de la identificación (Keller et al., 2002). Aebersold y colaboradores demostraron que la función de probabilidad que valida las identificaciones en correctas o incorrectas es más preciso cuando considera el punto isoeléctrico como criterio de validación. El algoritmo del PeptideProphet emplea las identificaciones más confiables en cada fracción del experimento de electroforesis para calcular la media y la desviación estándar de punto isoeléctrico por fracción. Luego
29
Revisión Bibliográfica
adiciona a la probabilidad del PeptideProphet para cada péptido la probabilidad de que sea falso positivo por punto isoeléctrico teniendo en cuenta los valores de media y desviación estándar de la fracción donde focaliza el péptido. La misma metodología fue empleada dentro del algoritmo MAYU de validación de identificaciones empleando tasa de falsos positivos y punto isoeléctrico de péptidos (Reiter et al., 2009). El uso del tiempo de retención como criterio de validación ha sido también muy empleado en experimentos de MS/MS. El principio matemático es similar al del punto isoeléctrico y consiste en eliminar aquellos péptidos que posean un tiempo de retención diferente (empleando un error) de la media para cada número de barrido. El componente clave para obtener resultados más confiables en la validación de identificaciones empleando variables complementarias es la estimación teórica precisa de estas propiedades químico-físicas. Los métodos matemáticos y algoritmos computacionales más empleados son los de Bjellqvist y colaboradores para el punto isoeléctrico y Krokin y colaboradores para el tiempo de retención (Krokhin, 2006, Heller et al., 2005, Reiter et al., 2009).
pI Teórico
A
pI Experimental
r
T Teórico
B
Tr Experimental
Figura 7: Relación de los valores teóricos y experimentales del punto isoeléctrico (A) y el tiempo de retención (B) para los péptidos identificados con el programa SEQUEST.
30
Revisión Bibliográfica
I.5.7 Estandarización de los datos de proteómica Los primeros datos que se generan en un experimento de espectrometría de masas son los espectros de masas. Cada espectrómetro de masas emplea un tipo diferente de formato propietario para almacenar y representar los espectros producidos (Yates et al., 2009). La estructura de estos ficheros depende del instrumento y del tipo de experimento, y típicamente contiene la información del espectro MS1 y de múltiples espectros MS/MS. La gestión de experimentos de proteómica en ficheros propietarios origina dos grandes inconvenientes. El primero de estos problemas es la dependencia para la lectura y escritura de la información de las aplicaciones informáticas de los propietarios de los formatos de ficheros (Martens et al., 2005a). Los formatos evolucionan con el tiempo junto con los programas informáticos que los interpretan, por lo que en muchas ocasiones los experimentos de proteómica antiguos no pueden ser leídos con los programas propietarios actuales. Este segundo fenómeno se conoce como envejecimiento de los formatos de ficheros propietarios (Martens et al., 2005a). La creación de diferentes formatos estándares basados en XML ha permitido resolver estos problemas y expandir la creación de nuevas herramientas informáticas de visualización y análisis de los datos de proteómica. Además ha propiciado el intercambio y compartimiento de los datos entre laboratorios empleando múltiples servicios y bases de datos. mzXML (Pedrioli et al., 2004) desarrollado por el Instituto de Biología de Sistemas (ISB – del inglés, Insitute for System Biology) fue el primer formato adoptado por la comunidad e integrado completamente en la plataforma TPP. Recientemente, la Iniciativa para la Estandarización de los datos de proteómica (PSI – del inglés, HUPO Proteomics Standards Initiative) ha implementado un conjunto de ficheros XML para representar los datos de proteómica como: mzML (Martens et al., 2011) para representar los espectros de masas, mzIdentML (Jones et al., 2012) para representar los péptidos y proteínas identificados, y mzQuantML para representar la información de cuantificación (http://code.google.com/p/mzquantml). mzML define una estructura basada en XML para la organización de los espectros de masas y provee un vocabulario para la definición de los términos que describen la generación, procesamiento y análisis de los espectros de masas. mzIdentML estructura la información de los péptidos y proteínas identificados por diferentes metodologías, así como la descripción de los protocolos y aplicaciones informáticas empleados para la validación de estos resultados. Estos formatos están soportados por una amplia definición de términos comúnmente empleados en experimentos de proteómica, los que constituyen el vocabulario controlado (Cote et al., 2006). Un término, por ejemplo, define como se referencia y describe el centrado de los espectros de
31
J O U R NA L O F PR O TE O MI CS 74 ( 20 1 1 ) 2 2 1 0–2 2 1 3
available at www.sciencedirect.com
www.elsevier.com/locate/jprot
Technical note
Charge state-selective separation of peptides by reversible modification of amino groups and strong cation-exchange chromatography: Evaluation in proteomic studies using peptide-centric database searches Lázaro H. Betancourta,⁎, Aniel Sáncheza , Yasset Péreza , Jorge Fernandez de Cossioa , Jeovanis Gila , Patricia Toledoa , Seiji Iguchib , Saburo Aimotob , Luis J. Gonzáleza , Gabriel Padróna , Toshifumi Takaob , Vladimir Besadaa a b
Center for Genetic Engineering and Biotechnology, Ave. 31 e/158 y 190, Cubanacán, P.O. Box 6162, 10600 Habana, Cuba Institute for Protein Research, Osaka University, Yamadaoka 3-2, Suita, Osaka 565-0871, Japan
AR TIC LE IN FO
ABS TR ACT
Article history:
Here we describe an integrated approach for the selective separation of peptides from
Received 16 February 2011
complex mixtures using strong cation-exchange chromatography. The procedure exploits
Accepted 29 April 2011
the charge differences produced by reversible modification of primary amino groups in
Available online 9 May 2011
peptides, enabling their separation into three major fractions: 1) neutral peptides 2) peptides with one positive charge and 3) peptides with 2 or more positive charges. The procedure
Keywords:
demonstrated an excellent selectivity which allowed restricted MS/MS ion searches with
Proteomics
peptide-centric databases.
Selective-peptide-isolation
© 2011 Elsevier B.V. All rights reserved.
Cation-exchange Peptide-centric-database
Comprehensive proteome analysis requires the identification and quantification of individual species in samples containing thousands of proteins with abundances spanning a range of several orders of magnitude. The currency of proteome analysis by mass spectrometry is the peptides generated from the proteolysis of a sample, which results in a significant increase of complexity. This problem is usually tackled through the use of multidimensional liquid chromatography techniques. Alternative strategies, such as the reduction of this complexity by obtaining representative subsets of target peptides, selectively isolated on the basis of their lowabundance amino acid content have also been extensively tested [1–7]. Selective isolation methods, however, usually fail
to produce a peptide subset that is fully representative of the protein population. Furthermore, non-target peptides are frequently discarded from the analysis, losing complementary and potentially valuable information. Our group has reported several selective isolation methods based on chemical modification of peptide primary amino groups [8–12]. In this work, an integrating approach of these methods into a new separation scheme was developed. The general workflow is showed in Fig. 1. The mixture of proteins is digested with trypsin. Then, α- and ε-amino groups of the peptides are chemically modified through a reversible reaction using 2-(Methylsulfonyl)ethyl succinimidyl carbonate (NHS-Msc) [13]. A reversible blocking group was chosen to
⁎ Corresponding author. Tel.: +53 7 271 6022. E-mail address:
[email protected] (L.H. Betancourt). 1874-3919/$ – see front matter © 2011 Elsevier B.V. All rights reserved. doi:10.1016/j.jprot.2011.04.029
2211
J O U R NA L O F PR O TE O MI CS 7 4 ( 2 01 1 ) 2 2 1 0–2 2 1 3
(A) 0
trypsin Reversible blocking of amino group (*)
1+
~~~~ K + ~~~~R + ~~H~~K
2+
+ + ~~H~~R
* SCX
Abs
RH0 RH1
RH2
1000
Abs at 215 nm
Protein mixture
RH0
RH1
600
RH2 200
10 t
deblocking Downstream fractionation
20
30
40
t(min)
(B) 5
675
224
6
409
101
LC-MS/MS Peptides
Database identification Fig. 1 – Scheme of the procedure for the selective separation and identification of RH0, RH1 and RH2 tryptic peptides from a complex mixture of proteins. The open triangle represents the reversible blocking group.
Proteins
(C) 300
241
225
209
200
100
91
84 38 5
0
allow the analysis of unmodified peptides, which improve mass detection and facilitate protein identification with automatic MS/MS database search engines. The reaction eliminates the positive charge of α- and ε-amino groups under acidic conditions, allowing the selective separation with a strong cation exchanger (SCX) of the mixture of derivatized peptides into three groups: 1) RH0 [R + H = 0], that is, peptides devoid of histidine and arginine; 2) RH1 [R + H = 1] representing those peptides containing either a histidine or an arginine; and 3) RH2 [R + H ≥ 2] which stands for peptides with more than one histidine and/or arginine residue. The RH0 peptides are collected in the flow-through from the SCX step, the RH1 peptides are eluted in a single step of increased salt concentration, and the RH2 peptides are eluted with a steep gradient. Each peptide pool is then subjected to a procedure that regenerates their free amino groups and, if necessary, further fractionated before LC-MS/MS analysis. The ability of the proposed method to exclusively separate peptides according to their charge state was initially evaluated on recombinant streptokinase (SKr) as a model protein and on an artificial mixture of four proteins (SKr, p64K, cytochrome c and apotransferrin). All the mass spectrometry-detected peptides were successfully sorted into their corresponding SCX fraction (data not shown) indicating the highly selective of this method. A soluble protein extract from human liver carcinoma Huh7 cell line was also studied, using 100 μg of protein (see Supplementary data: Experimental section). Fig. 2A shows the SCX profile obtained. The three peptide groups RH0, RH1 and RH2 still display a high degree of complexity requiring additional fractionation. We chose the high pH RP approach since it is robust and user-friendly system and has shown a high degree of orthogonality with low pH RP separations. Each SCX-enriched peptide pool was separated by RP-HPLC at basic
RH0
2 RH1
4 RH2
Fig. 2 – Analysis of a soluble protein extract from HuH7 cells. (A) SCX profile of RH0, RH1 and RH2 peptides. (B) Vent diagram of total number of peptides and proteins identified by protein sequence databases (smaller circles) and peptide-centric database (larger circles) searches. (C) Classification and distribution of peptides identified with peptide-centric databases. Gray bars (true positives): same assignment by each search type. White bars (false negatives): same assignment by each search type, but scored below the threshold in protein sequence database search for an FDR of 1%. Black bars (different assignment): represent cases where the assignment was different between the two search strategies.
pH into 10 fractions, using an ACN/H2O/NH3 solvent system that also works as desalting step, prior LC-MS/MS. A total of 680 peptide assignments (FDR = 1%) were made corresponding to 415 protein identifications. Approximately 22% (92) of the proteins were identified exclusively in the RH0 fraction, 20% (83) in the RH1, 29% (121) in the RH2, and the rest 29% (119) were found in at least two of the three SCX fractions. The numbers of specific vs. unspecific peptides identified in each SCX fraction behave as follows: for RH0, 225 vs. 2; for RH1, 210 vs. 2; and for RH2, 241 vs. 5; which resulted in a selectivity of at least 98% in every case. This outcome allowed exploratory searches against peptide-centric databases. When peptide-centric databases were used, 69% of the proteins were identified in only one of the SCX fractions (distributed as 23% (116) in RH0, 16% (83) in RH1 and 30% (151) in RH2). The remaining 31% (139) was comprised by species
2212
J O U R NA L O F PR O TE O MI CS 74 ( 20 1 1 ) 2 2 1 0–2 2 1 3
detected in two or three of the fractions. Protein sequence database searches were clearly outperformed by peptidecentric databases searches, which yielded increases of 41%, 17% and 33% for the number of identified peptides and increases of 36%, 14% and 30% for the number of identified proteins in the RH0, RH1 and RH2 fractions, respectively. In addition, the use of peptide-centric database searches increased the number of proteins identified by two or more peptides: overall, 95 of the proteins previously identified with protein sequence database searches gained a total of 115 additional peptide identifications. An examination of the peptide assignments carried out with peptide-centric database searches reveals a match with the assignments performed with protein sequence database searches in 675 of the cases, with 224 new exclusive assignments and only 5 missed identifications in the former (Fig. 2B). This translates to 409 common proteins as well as 101 new identifications and only 6 missing identifications for the peptide-centric searches. Combining the results of both searches, a total of 516 proteins were identified from 904 different peptides. (For details about identifications see Supplementary data: Results from protein (IPI) and peptide (PEP) databases). Fig. 2C shows the distribution and classification of peptides identified by peptide-centric databases according to their previous assignment by protein sequence database searches. As expected, the increase of assignments mostly originates from identification of lower scoring peptides (white bars). The improvement in identifications agrees with previous reports [14–16]. The search space is smaller in a peptide-centric database compared to a protein database; consequently better FDRs can be reached with similar peptide scores. This allowed lower scoring peptides to be accepted at the same FDR selected for protein database search. In general, the results from the SCX fractions were highly complementary, as 70% of the proteins were identified in a single fraction for both database search experiments. Consequently, the overlap of identified proteins between the different fractions was small; for instance, less than 7% of all proteins were identified in all three fractions. This implies that all SCX fractions should always be analyzed. The number of reports describing approaches similar to the one presented here is not frequent. Martens et al., for instance, used the COFRADIC technology for selection of methionyl, cysteinyl and amino-terminal peptides to characterize the proteome of human platelets [17]. In that study the sample had to be processed independently 3 times in order to target each peptide subgroup, a time-consuming work which also discarded a large portion of the sample and potentially valuable information. More recently, Taouatas et al. separated Lys-N generated peptides by SCX into four categories: acetylated N-terminal peptides; singly phosphorylated peptides containing a single basic (Lys) residue; peptides containing a single basic (Lys) residue; and peptides containing more than one basic residue [18]. This work highlighted the potentialities of SCX for chargeselective separation of peptides in complex mixtures. Several studies have addressed the analysis of rejected peptide identifications by “digging” into statistically nonsignificant hits [19–21]. In this sense, our attention was drawn in particular to the work of Yen et al., who attempted to increase sensitivity in shotgun proteomics by using peptide-centric
database searches, applying peptide elution rules in SCX, and excluding unlikely missed tryptic cleavages [20]. However, the overlap between SCX peptide fractions in their methodology could have made unfeasible to take full advantage of the proposed procedure, which therefore yields only modest improvements in the number of identified peptide and proteins. The present study suggested that complex mixtures of tryptic peptides, such as those generated in proteomic experiments, could be fractionated by SCX in a single workflow into subsequent, well-defined and highly enriched peptide subsets, and without discarding any peptide fraction. The procedure sacrifices the resolution that SCX typically displays with unmodified tryptic peptides, but this is compensated by RP separation at basic pH of each SCX peptide pool. Furthermore, the truly control of charge based separation and gain in selectivity, results in useful information to validate identifications and to effectively use peptide database searches. The noticeable small numbers of peptide and protein identified was attributed to the low performance of the mass spectrometer used. It is expected that the use of state-of-art instrument will yield higher number of peptide and protein identifications, which in turn will confirm the high selectivity achievable with the present approach. Supplementary materials related to this article can be found online at doi:10.1016/j.jprot.2011.04.029.
Acknowledgments The authors wish to thank INSPUR (China) for the kind donation of the TS10000 computer cluster used in a large part of the bioinformatics study. We are also grateful to Mr. Alejandro M. Martin (CIGB, Cuba) for English correction of the manuscript.
REFERENCES [1] Leitner A, Lindner W. Chemistry meets proteomics: the use of chemical tagging reactions for MS-based proteomics. Proteomics 2006;6:5418–34. [2] Olsen JV, Andersen JR, Nielsen PA, Nielsen ML, Figeys D, Mann M, et al. HysTag — a novel proteomic quantification tool applied to differential display analysis of membrane proteins from distinct areas of mouse brain. Mol Cell Proteomics 2004;3:82–92. [3] Wang H, Qian WJ, Chin MH, Petyuk VA, Barry RC, Liu T, et al. Characterization of the mouse brain proteome using global proteomic analysis complemented with cysteinyl-peptide enrichment. J Proteome Res 2006;5:361–9. [4] Fang X, Zhang WWJ. Affinity separation and enrichment methods in proteomic analysis. Proteomics 2008;71:284–303. [5] Gygi SP, Rist B, Gerber SA, Turecek F, Gelb MH, Aebersold R. Quantitative analysis of complex protein mixtures using isotope-coded affinity tags. Nat Biotechnol 1999;17:994–9. [6] Gevaert K, Van Damme J, Goethals M, Hoorelbeke B, Demol H, Martens L, et al. Isolation of methionine-containing peptides for gel-free proteome analysis: identification of more than 800 Escherichia coli proteins. Mol Cell Proteomics 2002;1:896–903. [7] Gevaert K, Goethals M, Martens L, Van Damme J, Staes A, Thomas G, et al. Exploring proteomes and analyzing protein processing by mass spectrometric identification of sorted N-terminal peptides. Nat Biotechnol 2003;21:566–9.
J O U R NA L O F PR O TE O MI CS 7 4 ( 2 01 1 ) 2 2 1 0–2 2 1 3
[8] Betancourt L, Gil J, Besada V, González LJ, Fernández-de-Cossio J, García L, et al. SCAPE: a new tool for the Selective CApture of PEptides in protein identification. J Proteome Res 2005;4:491–6. [9] Sánchez A, González LJ, Ramos Y, Betancourt L, Gil J, Besada V, et al. Selective isolation of lysine-free tryptic peptides delimited by arginine residues: a new tool for proteome analysis. J Proteome Res 2006;5:1204–13. [10] Sánchez A, González-López LJ, Betancourt L, Gil J, Besada V, Fernández-de-Cossío J, et al. Selective isolation of multiple positively charged peptides for 2-DE-free quantitative proteomics. Proteomics 2006;16:4444–55. [11] Gil J, Betancourt LH, Sardiñas G, Yero D, Niebla O, Delgado M, et al. Proteomic study via a non-gel based approach of meningococcal outer membrane vesicle vaccine obtained from strain CU385: a road map for discovering new antigens. Hum Vaccin 2009;5:347–56. [12] Sanchez A, Sun W, Wang L, Ma J, Betancourt L, Gil J, et al. Letter: selective isolation-detection of two different positively charged peptides groups by strong cation exchange chromatography and matrix-assisted laser desorption/ionization mass spectrometry: application to proteomics studies. Eur J Mass Spectrom 2010;16:693–702. [13] Brik A, Keinan E, Dawson PE. Protein synthesis by solid-phase chemical ligation using a safety catch linker. J Org Chem 2000;65:3829–35. [14] Resing KA, Ahn NG. Proteomics strategies for protein identification. FEBS Lett 2005;579:885–9. [15] Rudnick PA, Wang Y, Evans E, Lee ChS, Balgley BM. Large scale analysis of MASCOT results using a mass accuracy-based
[16]
[17]
[18]
[19]
[20]
[21]
2213
threshold (MATH) effectively improves data interpretation. J Proteome Res 2005;4:1353–60. Martens L, Van Damme P, Van Damme J, Staes A, Timmerman E, Ghesquière B, et al. The human platelet proteome mapped by peptide-centric 207 proteomics: a functional protein profile. Proteomics 2005;5:3193-204. Taouatas N, Maarten Altelaar AF, Drugan MM, Helbig AO, Shabaz M, Heck AJR. Strong cation exchange-based fractionation of Lys-N-generated peptides facilitates the targeted analysis of post-translational modifications. Mol Cell Proteomics 2009;8:190–200. Resing KA, Meyer-Arendt K, Mendoza AM, Aveline-Wolf LD, Jonscher KR, Pierce KG, et al. Improving reproducibility and sensitivity in identifying human proteins by shotgun proteomics. Anal Chem 2004;76:3556–68. Wielsch N, Thomas H, Surendranath V, Waridel P, Frank A, Pevzner P, et al. Rapid validation of protein identifications with the borderline statistical confidence via de novo sequencing and MS BLAST searches. J Proteome Res 2006;5: 2448–56. Tharakan R, Edwards N, Graham DRM. Data maximization by multipass analysis of protein mass spectra. Proteomics 2010;10:1160–71. Yen CY, Steve R, Mendoza AM, Meyer-Arendt K, Sun S, Cios KJ, et al. Improving sensitivity in shotgun proteomics using a peptide-centric database with reduced complexity: protease cleavage and SCX elution rules from data mining of MS/MS spectra. Anal Chem 2006;78:1071–84.
SUPPLEMENTARY INFORMATION EXPERIMENTAL SECTION Materials and reagents. Lysyl endopeptidase (LEP) and Trypsin were from Wako (Japan) and Promega
(USA)
respectively.
Horse
cytochrome
C,
human
apotransferrin
and
2-
(Methylsulfonyl)ethyl succinimidyl carbonate (NHS-Msc) were obtained from SIGMA (USA). The recombinant proteins (streptokinase (SKr) and p64K) were produced at Center for Genetic Engineering and Biotechnology (Cuba).
Sample Preparation and Digestion. Huh7 cells were cultured in DMEM supplemented with 10% SFB, 2 mM glutamine, 2 mM sodium pyruvate, and 1% antibiotic-antimycotic solution until the monolayer reached confluence. For protein extraction the cells were re-suspended in 1 mL of lysis buffer containing 10 mM HEPES, 1mM EDTA and EDTA-free protease inhibitor cocktail, and were submitted to 3 cycles of freezing and thawing by incubation in liquid nitrogen and at 37°C, respectively. The soluble protein fraction was obtained by centrifugation at 15000 during 15 min. The supernatant was collected and subjected to protein determination by BCA assay. An aliquot of 0.5 mg of the lysate was dissolved in 100 PL of 4 M urea, 200 mM HEPES, pH 8.1, and incubated for 2 hours with 10 mM DTT in a nitrogen atmosphere at 37qC. Iodoacetamide was added to a final concentration of 20 mM, and the reaction proceeded at room temperature in the dark for 30 minutes. Proteins were diluted two-fold with water and digested with LEP 12 hours at 37 qC. The sample was again diluted two-fold with water, and incubated with trypsin for another 8 hours at 37qC. The digestions were carried out at an enzyme-tosubstrate mass ratio of 1/100.
Acylation of amino groups with NHS-Msc. The peptide mixture was diluted with 200 PL of 500 mM HEPES, pH 7.1, to give a final pH around 7.5. The NHS-Msc reagent, dissolved in DMSO, was added to the peptide solutions at a 25-fold molar excess over the total concentration of amino groups, or adding 20 mg of the NHS-Msc per 1 mg of protein. The reaction proceeded for 15 minutes at 4qC.
Strong Cation Exchange Chromatography. The acylated peptides were first desalted with a Bond Elut C18 SPS cartridge (Varian). SCX chromatography was performed on an 1100 HPLC (Agilent) using a Merck Manu-Fix cartridge (4 x 50 mm) packed in-house with Polysulfoethyl A resin (5 Pm, 200 Å, PolyLC). The column was equilibrated with 0.01% H3PO4, pH 2.6 containing 20% ACN (buffer solution A). N-acylated peptides were dissolved in 500 PL of buffer A, and loaded onto the column. After 5 minutes, 2 mL of 20 mM KH2PO4, pH 2.6 20% ACN (buffer solution B) were injected and the column was washed for another 5 minutes with buffer A. Then, a 10-min gradient was run from 0% to 6% of buffer solution C (5mM KH2PO4, 500 mM KCl, pH 2.5 in 20% ACN) followed by 10 min of 100% buffer C. The collected fractions were concentrated under vacuum to a volume of 100 PL and submitted to the procedure for the regeneration of amino groups.
Regeneration of amino groups. The Msc groups were released from the peptides by incubation with 100 mM NaOH at room temperature for 15 minutes. Next, formic acid was used to lower pH before desalting the samples with C18 ZipTips (Millipore) or basic pH RP-HPLC separation, respectively.
Rp-HPLC at basic pH. The peptide fractions were injected via an 1100 HPLC (Agilent) into an Xterra RP-C18 column (50 x 1 mm, Waters) at a flow rate of 50 PL/min. The elution was performed with a mobile 1-60% phase B gradient, over 60 min (A, 10 mM NH3 in water pH 9.5; B, 10 mM NH3 in ACN). Fractions were collected every 2 min (10 fractions in total), evaporated under vacuum to dryness and then reconstituted into 15 PL of LC-MS/MS solvent A. Six microliters of each reconstituted fraction were delivered to the NanoFrontier system (detailed below).
LC-MS/MS experiments. The LC-MS/MS analysis was performed on a NanoFrontier integrated system (Hitachi) equipped with a nanoLC liquid chromatograph and a Linear Ion Trap-TOF MS, using 2% ACN / 0.3% HCOOH as solvent A and 98% ACN / 0.3% HCOOH as solvent B. The injected samples were desalted on a monolithic C18 trap column (15 cm x 50 Pm I.D, Kyoto Monotech Co. Ltd.) using 2% solvent B for 10 min. In turn, this column was connected by valve switching to a monolithic C18 column (30 cm x 50 Pm I.D, Kyoto Monotech Co. Ltd.) where separation was performed at 200 nL/min using first an isocratic gradient of 2% solvent B, followed by a 55 min gradient from 2% to 55% of solvent B. Online nanoESI-MS survey scan and data-dependent acquisition of CID MS/MS were fully automated and synchronized with the nanoLC runs under the NanoFrontier LD Data Processing software. Helium was used as the collision gas for CID-MS/MS. For routine protein identification analysis, 20 ms-survey scans were acquired over the predefined mass range (m/z 200-1300) and a maximum of 2 concurrent MS/MS acquisitions were triggered for 2+, 3+, 4+ and 5+ charged precursors detected above a threshold intensity of 100 counts. Each MS/MS
acquisition was completed and switched back to survey scan when precursor intensity fell below the 100-count threshold or after three consecutive acquisitions for the same precursor.
Protein identification and data analysis. MS/MS spectra were searched against the IPI-Human database V3.61 (ftp://ftp.ebi.ac.uk/pub/databases/IPI/old/HUMAN/ipi.HUMAN.v3.61.fasta.gz) concatenated with reversed copies of all protein sequences using MASCOT (version 2.2.0, Matrix Science). Carbamidomethylation of cysteines were set as fixed, and methionine oxidation as well as asparagine/glutamine deamidation were set as variable modifications. Peptide mass and MS/MS ion mass tolerances were set at 0.15 Da and one missed cleavage was allowed. Similar searches were also performed against peptide-centric databases concatenated with reversed copies of their sequences. These peptide databases contained separated lists of every potentially detectable (800 Da - 4000 Da) RH0, RH1 and RH2 peptide derived from all human protein sequences, and considering complete and one missed cleavage by trypsin. A precomputation step was required to digest each protein in silico into peptides and to generate reversed copies of each peptide sequence. Peptides were sorted into RH0, RH1 or RH2 sets, and each set was then divided into individual FASTA entries for each peptide, using a common identifier for peptides derived from the same protein. The databases of RH0, RH1 or RH2 peptides were used as input to Mascot, and in silico proteolysis of peptides with missed cleavage sites was prevented by specifying a false enzyme cleaving at an unreal amino acid. Maximum false discovery rates (FDR) for searches at both the protein and peptide levels, were set to 1%.
1323
Electrophoresis 2011, 32, 1323–1326
Yassel Ramos Yairet Garcia Yasset Pe´rez-Riverol Alejandro Leyva Gabriel Padro´n Aniel Sa´nchez Lila Castellanos-Serra Luis J. Gonza´lez Vladimir Besada Center for Genetic Engineering and Biotechnology, La Habana, Cuba
Received December 17, 2010 Revised January 25, 2011 Accepted January 26, 2011
Short Communication
Peptide fractionation by acid pH SDS-free electrophoresis SDS-free polyacrylamide gel electrophoresis is an effective alternative approach to peptide fractionation. Here we describe a discontinuous buffer system at acid pH that improves the separation of acidic peptides from tryptic digestion. MOPS and chloride act as trailing and leading ions, respectively, in this system, while histidine operates as counterion and buffers all solutions. In these electrophoretic conditions, peptides with pI below 5.5 migrate with low overall electrophoretic mobilities but high differences from one another, which allows for their efficient resolution. In silico analysis of several proteomes shows that the acid pH system allows a peptide simplification of 2.5-fold with respect to the total peptide mixture, and still a proteome coverage of about 95% is achievable. A straightforward method with a protocol including proteomic studies was achieved for SDS-PAGE of proteins, enzyme treatment and further peptide fractionation by SDS-free acid PAGE. Keywords: Fractionation / MS / PAGE / Proteomics DOI 10.1002/elps.201000677
Protein separation via electrophoresis based on their ion mobilities has evolved since A. Tiselius reported in 1937 the ‘‘Moving Boundary Electrophoresis’’ [1]. For the next two decades, significant developments in devices and support media for electrophoresis were described [2–4] and in 1957, Poulik demonstrated increased resolution in protein separation using a discontinuous buffer system [5]. In the 1960s, Ornstein [6] and Davis [7] reported a pioneer work describing the theory and experimental results of a multiphasic buffer system for negatively charged protein separation based on polyacrylamide gel electrophoresis (PAGE). In that procedure, proteins and peptides are concentrated in a very thin starting zone before their separation into the resolving gel. This phenomenon is based on the ‘‘Kohlrausch function’’ [8] that regulates the migration of the trailing and leading ions (glycinate and chloride, respectively, for the Ornstein system). Ions with electrophoretic mobilities lower than the leading ion and higher than the trailing ion mobility stay trapped into the boundary between these two ionic species. Once the boundary reaches the resolving gel, this stationary system becomes unstable at a pH value where the trailing ion increases its electrophoretic mobility and surpasses most of the proteins. In these conditions, proteins and peptides migrate to the anode
Correspondence: Dr. Vladimir Besada, Center for Genetic Engineering and Biotechnology, Apartado 6162, POB 10600, La Habana, Cuba E-mail:
[email protected] Fax: 1573-271-6022
& 2011 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
according to their electrophoretic mobility, which is proportional to their charge and inversely proportional to their size. On the basis of this theory, several discontinuous buffer systems for electrophoresis were proposed [9] and their application has substantially improved the resolution of the gel-based protein separation techniques [10–12]. Several years later, Laemmli introduced SDS as the main solubilizing agent for protein electrophoresis [13]. This detergent homogenizes the negative charge density of the proteins, allowing their separation by molecular size. The use of SDS greatly supported the achievements of this technique. Despite the high diffusion coefficients of peptides, as compared with proteins, electrophoretic techniques have also been successfully applied to peptide separation [14–16] even in the presence of SDS [17]. Recently, we reported the use of SDS-free PAGE for peptide fractionation and its usefulness for proteomic studies [18] in combination with a first dimension for protein separation via SDS-PAGE. Peptides fractionated by SDS-free PAGE on the Ornstein gel system had theoretical isoelectric points ranging between 3.0 and 7.3 [18], which suggested that manipulating the pH of the buffer should allow fractionating a different subset of peptides. In the present work, we evaluated the effect of pH on the migration of peptides and developed a discontinuous buffer system to select and simultaneously fractionate peptides with pI lower than 5.5. At lower pH, the dissociating functions of the acidic amino acids are partially titrated and both surface charge and electrophoretic mobility Colour Online: See the article online to view Fig. 1 in colour.
www.electrophoresis-journal.com
1324
Y. Ramos et al.
Electrophoresis 2011, 32, 1323–1326
of the peptides decrease. Under these conditions, peptides with pI higher than 5.5 (slightly acid, neutral and basic peptides) are positively charged and would migrate to the cathode. The system includes a cathode buffer containing 200 mM MOPS partially titrating to pH 5.5 with histidine. The stacking gel and sample solutions are buffered with histidine/HCl, pH 5.0, at concentrations 125 and 62.5 mM, respectively; the latter additionally contains 12.5% glycerol. The resolving gel and anode buffer are constituted by 200 mM histidine/HCl, pH 6.5. This discontinuous buffer system works similar to the Ornstein system. In this case, the trailing ions from MOPS enter the concentrating gel after chloride ions, which bring about the formation of a moving boundary and a concentration effect. Once MOPS trailing ions arrive at the separating gel, the change in pH causes an increase in its electrophoretic mobility, leaving most of the peptides out of the moving boundary. In these conditions, peptides with pI below 5.5 penetrate the gel, concentrate and then separate according to their charge-tomass ratio. Due to the lower pH of the buffer system, peptides become partially protonated and therefore less
A
B Protein extract
charged negatively. This effect provokes the slower electrophoretic mobility of these peptides into the gel. After the electrophoresis runs, the lanes of the nonstained gel are cut in several slices and peptides are recovered by passive diffusion using an appropriate extraction solution. Typically, for minigel format, the lanes are cut in 6–10 slices and peptides are extracted in 5% formic acid. Larger format gels have also been successfully used. Figure 1 compares the electrophoretic separation of peptides derived from a tryptic digest of streptokinase (47 kDa) at basic [18] versus acid pH. In this experiment, lanes were cut into eight slices; peptides from each slice were eluted independently and analyzed by ESI-MS. Signals detected in the four fastest migrating fractions (fractions 5–8, Fig. 1) in the Ornstein system [6] are resolved along the whole lane and may be detected in eight fractions in the acidic system. For instances, peptides of m/z 567.3, 654.3, 760.4, 888.4 and 1170.9, which were detected in fraction 8 with the basic system, become slower in the acid system and are now resolved in different fractions (m/z 654.3 in fractions 2 and 3, m/z 567.3 and 760.4 in fraction 5, 1170.9 in fractions 5 and 6, m/z 888.4 in fraction 7). The fastest tryptic
basic pH system
acid pH system
U
1 Trypsin digestion 2
SDS free PAGE (tris/glycine (basic pH) or histidine/MOPS (acid pH) system)
3 1 2 3 4 5 6 7 8
4
5
Peptide elution
6
7 nanoESI-MS/MS analysis
8
Figure 1. (A) Schematic representation of the experimental workflow for tryptic peptide fractionation by PAGE. (B) Mass spectra of tryptic peptides from streptokinase separated in a 15% T SDS-free PAGE at basic and acid pH. The lane was cut into eight slices. U: Unfractionated peptide mixture; 1 to 8: peptides obtained from slices 1 to 8, respectively.
& 2011 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.electrophoresis-journal.com
1325
Proteomics and 2-DE
Electrophoresis 2011, 32, 1323–1326
peptide in the new system is 259SGLNEEINNTDLISEK274 (m/z 888.4), which has the highest absolute value for the charge/mass ratio (2.20 kDa1 for pH 9.0 and 1.68 kDa1 for pH 6.5). In this case, peptide charge is the calculated valence according to Sillero and Ribeiro [19] equation for each pH. The pHs used for calculations are the experimental values as determined for the resolving gel in basic and acid systems respectively, once the electrophoresis has finished. As expected, several peptides detected in the four slowest fractions in the basic system are now positively charged and do not enter into the gel of the acid system. In model protein mixtures as a, b, and k-casein as well as egg white, which contain very acidic tryptic peptides including phosphopeptides, several signals were identified in the bands next to bromophenol blue front (Supporting Information I). In agreement with the results at basic pH [18], very acidic peptides and phosphopeptides were detected in the slice containing the fastest migrating species. Interestingly, using the new discontinuous buffer system, fewer nonphosphorylated peptides were detected in this fraction for both samples (caseins and egg white mixture) and the signalto-noise ratio in the spectrum was also improved. We were able to detect mono- to tetra-phosphorylated peptides in the fraction with the fastest migration. This effect was probably due to the slowest migration of the non-phosphorylated peptides resulting from partial neutralization of aspartic and glutamic acids, while highly acidic groups like phosphate will remain negatively charged. However, in a much complex sample, this fraction is dominated by very acidic non-phosphorylated peptides, which make it difficult to detect substoichiometric phosphorylated peptides (see below). On this basis, we propose the usefulness of this acid buffer system for the second dimension of DF-PAGE [18] as a novel strategy for proteomic studies. In silico analysis of six proteomes shows that considering only the tryptic peptides with pI below 5.5 and thus simplifying the peptide mixture from 21 down to an average of 9 peptides per protein, an average protein coverage of 95% may be obtained (Table 1). This is in contrast to the basic pH system that allows the selection of around 16 peptides per protein with pI below 7.3, representing a protein coverage of 99% (Supporting Information II).
A total protein extract (300 g) from a non-small-cell lung cancer cell line (H125) was fractionated using SDS-PAGE; the lane was cut into ten slices and in-gel digested with trypsin. The slice corresponding to the molecular size ranging between 21 and 45 kDa was applied to the second gel and the peptide mixture was fractionated using the histidine/MOPS PAGE system. The lane of the second dimension was cut into eight fractions (Fig. 2) and the two fastest fractions were analyzed by LC-MS/MS. The analysis of two peptide fractions allowed the assignment of 155 peptides corresponding to 106 proteins. All peptides have pI values lower than 5.5 and the most acidic fraction (gel slice 8, cut exactly with the dimensions of the adjacent bromophenol blue reference) contains peptides with an average pI of 3.6570.33 (3.8170.20 for the gel slice 7, Supporting Information III). The protein mass ranged between 20 and 45 kDa (87% of the identified proteins) as expected for the proteins migrating in the SDS-PAGE slice selected for the experiment (Supporting Information III). The protocol described here for SDS-free PAGE does not include any other solubilizing agent as urea or thiourea. However, 28 of 155 peptides with positive GRAVY indexes were detected in our experiments. This result shows that even hydrophobic peptides can be resolved by this technique. We also evaluated the theoretical distribution of GRAVY index for peptides with pI value below 5.5. Interestingly, acidic peptides from the in silico tryptic digestion of the human proteome tend to be slightly more hydrophilic than the whole tryptic peptides (Supporting Information II); similar results were obtained for Escherichia coli, Saccharomyces cerevisiae, Arabidopsis thaliana, Drosophila melanogaster and Mus musculus proteomes (data not shown). Nevertheless, systematic studies on the influence of caothropic agents and other components on peptide resolution in PAGE must be made. Similar to peptide fractionation according to pI value using such commercial devices as ‘‘off-gel electrophoresis’’ [14], ‘‘free flow electrophoresis’’ [15] or Rotofor [16], SDSfree PAGE fractionates peptides of a selected pI range but, in this case, the separation is according to the charge and peptide size. It can be integrated to the DF-PAGE strategy [18], allowing a double fractionation at protein and peptide
Table 1. In silico proteome coverage and peptide mixture simplification when using peptide fractionation by acid SDS-free PAGE Organism
Tryptic peptide per proteina)
Selected tryptic peptide per proteinb)
Simplification factor
% coverage
Escherichia coli Saccharomyces cerevisiae Arabidopsis thaliana Drosophila melanogaster Mus musculus Homo sapiens Average
13.8 21.0 19.2 25.5 23.9 24.3 21.3
5.7 8.9 8.0 10.4 9.7 9.8 8.8
2.4 2.4 2.4 2.5 2.5 2.5 2.4
93.5 92.5 97.3 97.1 97.4 95.6 95.6
a) Average of tryptic peptides per protein in the mass range 800–3500 Da. b) Average of tryptic peptides per protein in the mass range 800–3500 Da and pIo5.5. The pI value of tryptic peptides was calculated with the InSilicoSpectro pI function [20].
& 2011 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.electrophoresis-journal.com
1326
Y. Ramos et al.
Electrophoresis 2011, 32, 1323–1326
SDS-PAGE
1
2
3 …
LC-MS/MS
…10 slices
Slice 1
In gel proteolisis
Peptides pI ≤ 5.5
Slice 2
… … … … …
SDS-free PAGE at acid pH
1 2 3 4 5 6 7 8
Slice 8
… … … … …
MS/MS data analysis and Data Base Interrogation
Figure 2. Schematic representation of the strategy used for proteomic analysis (DF-PAGE). Proteins are separated according to their molecular mass in SDS-PAGE. The unstained gel is cut into ten slices, each slice is in-gel digested with trypsin and the peptide mixture is transferred to a second histidine/MOPS SDS-free gel. Peptides are separated according to their charge/mass ratio. This gel is cut into eight slices and peptides eluted from each slice are separated according to their hydrophobic properties in the LC-MS/MS analysis. The database interrogation is then performed using a composite data from the eight LC-MS/MS experiments obtained for each protein fraction.
level that uses only standard slab gel equipment. In this report, we are introducing the concept of peptide selection according to their pI value using an appropriate discontinuous buffer system in the second dimension. In conclusion, we were able to select and separate peptides with pI lower than 5.5 using a discontinuous buffer system for PAGE, which includes MOPS as trailing ion, Cl as leading ion and histidine as counterion. The procedure has been applied to proteomics studies by combining SDSPAGE of proteins, in-gel enzyme treatment, peptide fractionation by SDS-free PAGE and nano-LC-MS/MS analysis. In silico studies revealed that more than 95% of six proteomes can be analyzed by selecting peptides with pI lower than 5.5, which simplifies the complex peptide mixture 2.5 times. The authors have declared no conflict of interest.
References [1] Tiselius, A., Trans. Faraday Soc. 1937, 33, 524. [2] Kohn, J., Nature 1957, 180, 986. [3] Grabar, P., Williams, C. A., Biochim. Biophys. Acta 1953, 10, 193. [4] Smithies, O., Biochem. J. 1955, 61, 629. [5] Poulik, M. D., Nature 1957, 180, 1477. [6] Ornstein, L., Ann. NY Acad. Sci. 1964, 121, 321–349.
& 2011 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
[7] Davis, B. J., Ann. NY Acad. Sci. 1964, 121, 404. [8] Kohlrausch, F., Ann. Phys. Chem. 1897, 62, 209. [9] Jovin, T., Ann. NY Acad. Sci. 1973, 209, 477–496. [10] Schagger, H., von Jagow, G., Anal. Biochem. 1987, 166, 368–379. [11] Akins, R. E., Levin, P. M., Tuan, R. S., Anal. Biochem. 1992, 202, 172–178. [12] Tastet, C., Lescuyer, P., Diemer, H., Luche, S., van Dorsselaer, A., Rabilloud, T., Electrophoresis 2003, 24, 1787–1794. [13] Laemmli, U. K., Nature 1970, 227, 680–685. [14] Heller, M., Michel, P. E., Morier, P., Crettaz, D., Wenz, C., Tissot, J. D., Reymond, F., Rossier, J. S., Electrophoresis 2005, 26, 1174–1188. [15] Xie, H., Rhodus, N. L., Griffin, R. J., Carlis, J. V., Griffin, T., J. Mol. Cell. Proteomics 2005, 4, 1826–1830. [16] Xiao, Z., Conrads, T. P., Lucas, D. A., Janini, G. M., Schaefer, C. F., Buetow, K. H., Issaq, H. J., Veenstra, T. D., Electrophoresis 2004, 25, 128–133. [17] Zilberstein, G., Korol, L., Shlar, I., Righetti, P. G., Bukshpan, S., Electrophoresis 2008, 29, 1749–1752. [18] Ramos, Y., Gutie´rrez, E., Machado, Y., Sa´nchez, A., Castellanos-Serra, L., Gonzalez, L. J., Ferna´ndezde-Cossio, J., Pe´rez-Riverol, Y., Betancourt, L., Gil, J., Padro´n, G., Besada, V., J. Proteome Res. 2008, 7, 2427–2434. [19] Sillero, A., Ribeiro, J. M., Anal. Biochem. 1989, 179, 319. [20] Colinge, J., Masselot, A., Carbonell, P., Appel, R. D., J. Proteome Res. 2006, 5, 619–624.
www.electrophoresis-journal.com
Supplementary Information
tryptic digestion from egg white
I A
1p
isolated peptides
II
tryptic digestion from caseins mixture
I B
1p
II
isolated peptides
1p 2p 4p
1p 1p
4p
Supplementary information I: Peptide isolated in the fastest migrating fraction of the protein extract digestion. A: (I) spectra ESI-MS of the tryptic digestion of the protein extract from egg white and (II) peptides detected in the fastest migration fraction respectively. B: (I) spectra ESI-MS of the caseins mixture tryptic digestion and (II) peptides detected in the fastest migration fraction respectively. (p) indicate phosphorylated peptides with the specified number of phosphate groups.
A
B
Peptide mixture simplification
Proteome coverage
30
100 80
20
% coverage
Peptide/protein
25
15 10
60 40 20
5 0 2
4
6
8
10
12
0 2
4
pH
6
pH
8
10
12
Escherichia coli
Arabidopsis Thaliana
Mus musculus
Saccharomyces cerevisiae
Drosophila melanogaster
Homo sapiens
Supplementary information II: In silico analysis for six proteomes. (A) Average number of tryptic peptides negatively charged per protein at different pH. (B) Proteome coverage considering peptides negatively charged at different pH. Blue and red dotted lines indicate the theoretical values for pH 5.5 and pH 7.3 corresponding to acid and basic pH system for SDS-free PAGE respectively. (C) Theoretical distribution of GRAVY index for whole peptides (blue) and peptides with pI below 5.5 (red) from trypsin digestion of H. sapiens proteome. The pI value of tryptic peptides was calculated with the InSilicoSpectro pI function20.
Anal. Chem. 2010, 82, 8492–8501
Evaluation of Phenylthiocarbamoyl-Derivatized Peptides by Electrospray Ionization Mass Spectrometry: Selective Isolation and Analysis of Modified Multiply Charged Peptides for Liquid Chromatography-Tandem Mass Spectrometry Experiments Aniel Sanchez,† Yasset Perez-Riverol,‡ Luis Javier Gonza´lez,† Jesus Noda,† Lazaro Betancourt,† Yassel Ramos,† Jeovanis Gil,† Roberto Vera,‡ Gabriel Padro´n,† and Vladimir Besada*,† Proteomics Department and Bioinformatic Department, Physical-Chemistry Division, Biomedical Research, Center for Genetic Engineering and Biotechnology, P.O. Box 6162, Havana, Cuba Edman degradation in the gas phase has been observed by collision activated dissociation of N-terminal phenylthiocarbamoyl (PTC) protonated peptide to yield abundant complementary b1 and yn-1 ion pairs. Here, we demonstrated the relation between the observed losses of aniline and/or the entire PTC derivatizing group with the availability of mobile protons using electrospray ionization mass spectrometry. In order to select the peptides with more efficient fragmentation, while simplifying the mixture of peptides, we extend the phenylisotiocyanate (PITC) derivatization of amino groups to the selective isolation of multiply charged peptides (those having the number of arginines and histidines residues higher than one) using a procedure previously developed in our group. Thus, it was possible to identify in the filtered protein database the sequence of the isolated multiply charged peptides derived from a single protein and a complex mixture of proteins extracted from Escherichia coli using only the molecular mass and the N-terminal amino acid information. For this purpose, we developed a novel bioinformatic tool for automatic identification of peptides from liquid chromatography-tandem mass spectrometry (LC-MS/ MS) experiments, which potentially can be used in high-throughput proteomics. Proteomics based on multidimensional liquid chromatography and tandem mass spectrometry (MS/MS) to separate and fragment peptides have allowed the highest throughput for protein identification. This is in spite of the very low percentage of MS/ MS spectra from liquid chromatography-mass spectrometry * Corresponding author. Vladimir Besada Ph.D., Head of Proteomics Department, Center for Genetic Engineering and Biotechnology, P.O. Box 6162, Ave 31, e/158 y 190, Cubanaca´n, Playa, Ciudad de la Habana, Cuba. E-mail:
[email protected]. † Proteomics Department. ‡ Bioinformatic Department.
8492
Analytical Chemistry, Vol. 82, No. 20, October 15, 2010
(LC-MS) that can be correctly assigned.1 However, the measured peptide mass acts as a filter that directly reduces the number of potential false positive assignments.2,3 With good scoring, higher mass accuracy proportionately increases the certainty of identification, a concept that applies to intact peptide as well as their fragmentation products. The peptide molecular mass by itself, even with low ppm accuracy, is normally considered nonsufficient evidence for identification of the peptide,4 but their combination with partial sequencing can yield determinant information for identification of peptide and protein in the database. Gaskell et al.5 showed that the equivalent of a single Edman degradation stage can be realized for ions in the gas phase. The peptides are coupled in solution with phenylisotiocyanate (PITC) and ionized either in an electrospray ionization (ESI) or a matrixassisted laser desorption ionization (MALDI) ion source. After activation, the phenylthiocarbamoyl (PTC)-derivatized peptide dissociates specifically to yield the b1 fragment. In consequence, this opens the possibility to determine the peptide mass and its N-terminal residue in a single mass spectrum. Gaskell and co-workers used this reaction and, supported by bioinformatic tools, identified yeast proteins using gel electrophoresis and MALDI-MS.6 This procedure was also applied to an apomyoglobin tryptic digestion using a Fourier transform ion cyclotron resonance MS (ESI-FTICR).7 Some PTC-derivatizated peptides showed loss of aniline and PITC neutral group instead (1) Yen, C. Y.; Russell, S.; Mendoza, A. M.; Meyer-Arendt, K.; Sun, S.; Cios, K. J.; Ahn, N. G.; Resing, K. A. Anal. Chem. 2006, 78, 1071–1084. (2) Smith, R. D.; Anderson, G. A.; Lipton, M. S.; Pasa-Tolic, L.; Shen, Y.; Conrads, T. P.; Veenstra, T. D.; Udseth, H. R. Proteomics 2002, 2, 513– 523. (3) Fang, R.; Elias, D. A.; Monroe, M. E.; Shen, Y.; McIntosh, M.; Wang, P.; Goddard, C. D.; Callister, S. J.; Moore, R. J.; Gorby, Y. A.; Adkins, J. N.; Fredrickson, J. K.; Lipton, M. S.; Smith, R. D. Mol. Cell. Proteomics 2006, 5, 714–725. (4) Mann, M.; Kelleher, N. L. Proc. Natl. Acad. Sci. U.S.A. 2008, 105, 18132– 18138. (5) Summerfield, S. G.; Bolgar, M. S.; Gaskell, S. J. J. Mass Spectrom. 1997, 32, 225–231. (6) Brancia, F. L.; Butt, A.; Beynon, R. J.; Hubbard, S. J.; Gaskell, S. J.; Oliver, S. G. Electrophoresis 2001, 22, 552–559. 10.1021/ac1012738 © 2010 American Chemical Society Published on Web 09/20/2010
of a specific b1 fragment, and the fragmentations were not generalized neither completely explained as the authors pointed out in the conclusions of the manuscript.7 Finally, the results were attractive for identification of proteins in database only for low parts per million (ppm) accuracy, due fundamentally to the complexity of the proteomes. In both papers, the authors demonstrate the feasibility of the reaction and the potential application for proteome analysis. In addition, Wohlhueter and co-workers demonstrated that other isothiocyanate analogues bearing basic moieties can derivatize peptides and significantly improve the MS sensitivity of tagged analytes, while promoting Edman fragmentation.8 On the other hand, Yao and co-workers proposed this active chemical modification for improving the fragment ion detection in multiple reaction monitoring (MRM) studies.9 In this work, we studied the fragmentation pattern of PTC derivatized peptides using electrospray ionization mass spectrometry. We used a mixture of peptides with several charge states, observing a similar behavior for each charge state group explained by mobile proton theory. In order to increase the number of PTC-derivatized peptides with highly efficient fragmentation (considering the abundant complementary b1 and yn-1 pairs) while simplifying the mixture of peptides, we combined the PITC reaction with a selective isolation of multiply charged peptides as published previously10 (those which the sum of arginines and histidines residues are higher than one, RH peptides). Initially, the in silico analysis of PTC-derivatized RH peptides for several proteomes showed a considerable increase in the number of peptides that could be identified based on their mass and N-terminal residue information only (unique peptides). Finally, a single mixture of peptides produced by tryptic digestion of streptokinase and a complex mixture of peptides from Escherichia coli were analyzed, and protein identification was achieved using only the molecular mass, the N-terminal amino acid information, and a filtered database composed exclusively of RH peptides. MATERIALS AND METHODS The sequencing-grade trypsin was purchased from Promega (WI). Acetonitrile (ACN) and water were HPLC grade and were obtained from Caledon (Ontario, Canada). The peptides were synthesized by the Fmoc chemistry, and the recombinant streptokinase (rSK) were manufactured at the Center for Genetic Engineering and Biotechnology (Havana, Cuba). TFA, formic acid, and PITC were purchased from Pierce (IL). The bovine serum albumin (BSA) was obtained from Sigma (MO). E. coli strain W3110 cells were processed by sequential solubilization described by Molloy,11 and the fraction soluble in Tris was analyzed with the present procedure. (7) Van der Rest, G.; He, F.; Emmett, M. R.; Marshall, A. G.; Gaskell, S. J. J. Am. Soc. Mass Spectrom. 2001, 12, 288–295. (8) Wang, D.; Fang, S.; Wohlhueter, R. M. Anal. Chem. 2009, 81, 1893–900. (9) Diego, P. A.; Bajrami, B.; Jiang, H.; Shi, Y.; Gascon, J. A.; Yao, X. Anal. Chem. 2010, 82, 23–27. (10) Sanchez, A.; Gonzalez, L. J.; Betancourt, L.; Gil, J.; Besada, V.; Fernandezde-Cossio, J.; Rodriguez-Ulloa, A.; Marrero, K.; Alvarez, F.; Fando, R.; Padron, G. Proteomics 2006, 6, 4444–4455. (11) Molloy, M. P.; Herbert, B. R.; Walsh, B. J.; Tyler, M. I.; Traini, M.; Sanchez, J. C.; Hochstrasser, D. F.; Williams, K. L.; Gooley, A. A. Electrophoresis 1998, 19, 837–44.
Reduction and S-Alkylation. The proteins were dissolved separately in 50 μL of 200 mM HEPES buffer (pH 8.0) containing 2 M of guanidium hydrochloride and were reduced by adding DTT to a final concentration of 10 mM, flushed with nitrogen, and incubated 4 h at 37 °C. The free thiol groups were alkylated by adding acrylamide to a final concentration of 20 mM, and the reaction proceeded for an additional 60 min at room temperature. Tryptic Digestions. The proteins, dissolved in the reduction and S-alkylation buffer, were diluted with two volumes of water and digested with trypsin using an enzyme-substrate ratio of 1:100 at 37 °C during 10 h. PITC Derivatization. After trypsin digestion, the mixture of peptides was dried under vacuum centrifugation and then converted into a PTC derivative by dissolving the mixture in ethanol-water-triethylamine-phenyl isothiocyanate (75/10/10/5 by volume). The reaction proceeded for 20 min at 50 °C followed by vacuum centrifugation. The dried, derivatized product was first dissolved in heptane-ethyl acetate (90:10 v/v; 100 μL), and then an equal volume of water was added. This mixture was shaken vigorously and centrifuged. The upper phase was discarded, and the extraction of the aqueous phase was repeated twice before ESI MS analysis. Selection of Multiply Charged PTC-Peptides (RH Peptides) by Strong Cation Exchange Chromatography. The PTCderivatized peptides were desalted using ZipTipC18 (Millipore), and the multiply charged peptides (RH peptides) were selectively captured using a SCX minicolumn, NuTip (Glygen Corp). The NuTip was equilibrated with TFA (0.05%), and peptides were absorbed onto the NuTip and extensively washed with the same equilibration buffer. RH peptides were eluted with a solution containing 1 M NaCl and 20% ACN. The sample was desalted using ZipTipC18 (Millipore) previous to the analysis by nanoESIMS. MS Analysis. Mass spectrometric measurements were performed using a hybrid quadrupole orthogonal acceleration tandem mass spectrometer QTof-2 (Micromass, Manchester, U.K.). Capillary and cone voltages were 900 and 35 V, respectively, in the nanoESI experiment. The spectra were acquired in the m/z range from 400 to 2000 Th. Data acquisition and processing were performed using a Masslynx system (version 3.5) from Micromass (Manchester, U.K.). MS/MS Analysis. The solution of multiply charged PTCderivatized peptides from rSK was injected by infusion mode to the mass spectrometer QTof-2 (Micromass, Manchester, U.K.) using a metal-coated borosilicate capillary (Micromass, U.K.). For the analysis of E. coli proteins the LC-MS/MS were performed on an integrated nanoLC Agilent 1100 equipped with a microautosampler. The injected peptides from 40 μL were trapped and desalted on a PS-DVB monolithic trap column (5 mm × 200 μm i.d.) from Dionex (Sunnyvale, CA) during 20 min with 0.1% of formic acid delivered by an auxiliary pump at 20 μL/min. With the valve switched, the retained peptides were back-flushed and loaded onto the capillary PS-DVB monolithic column (50 mm × 100 μm i.d.) from Dionex (Sunnyvale, CA). The separation column was previously equilibrated in solution A (formic acid 0.2% in water), and the peptides were eluted with a linear gradient increasing the concentration of solution B (acetonitrile/water 80/ Analytical Chemistry, Vol. 82, No. 20, October 15, 2010
8493
20 v/v) at 0.75%/min. The eluates at a flow rate of 300 nL/min were delivery to the QTof-2 mass spectrometer. For both injection modes, the precursor ions were selected to be fragmented automatically once their intensity rose above a defined threshold (4 counts s-1), and each MS/MS step was completed after two scans of 2 s. The total acquisition time was 2 min. To acquire the MS/MS spectra, the first quadrupole was used to select the precursor ion within a window of 4 Th. A pressure of ∼3 × 10-2 Pa collision gas (argon) was used in the hexapole collision cell to yield the fragment ions. The collisions ramps used for PTC-derivatized peptides fragmentation are shown in the Supporting Information, Supplementary Material 2. Data acquisition and processing were performed using a Masslynx system (version 3.5) from Micromass (Manchester, U.K.). Protein identification was made using the Internet-available search engine MASCOT12 (http://www.matrixscience.com) or an in house program written in Java. The mgf files were obtained from the raw data using the Mascot distiller program.12 Computer in House Programs. AAmanager is a computer program coded in Java that was developed for console use to scan the Swiss-Prot sequence database and calculates (1) the number of proteins of a given organism that might be identified by isolating selective RH peptides with molecular masses comprised between 800 and 3500 Da, (2) the total number of tryptic peptides per protein (KR peptides/protein) in the analyzed proteome, and (3) the average number of RH peptides/protein that could be isolated selectively using the method developed in our group.10 N terminal software was coded in Java that allows the identification of peptide sequences in the database from the information included in the mgf files. The scoring method used for each sequence is based on the experimental finding that approximately 70-90% of the total intensity of fragment ions observed in the MS/MS spectra of PTC-peptides that corresponds to the b1 and its complementary yn-1 ions.9 Generally, the most intense signal in the low-mass region could be assigned to the b1 fragment. In consequence, with this report9 the score was calculated as follows In ) Ii /Imax score ) In /Oi where Ii is the intensity of the possible b1 fragment, In is the normalized intensity of the possible b1 fragment, Imax is the intensity of the most intense ion in the low mass region (193-322 Da), Oi is the intensity order (sort descending) of Ii among all possible b1 fragments. Peptide sequences with a score equal to 1 or equal to In were considered as confident identifications or probable identifications, respectively. Algorithm to Identify Unique Peptides. A decision tree algorithm was developed in Java to compute the identification of unique peptides based on the above-described theoretical properties. Each node of the tree represents a property of the peptide (Nterm, molecular mass). The algorithm constructs a tree representing the possible combinations of the properties to identify (12) Perkins, D. N.; Pappin, D. J.; Creasy, D. M.; Cottrell, J. S. Electrophoresis 1999, 20, 3551–3567.
8494
Analytical Chemistry, Vol. 82, No. 20, October 15, 2010
unique peptides in the sequence database. The root node of the tree corresponds to the molecular mass of the peptide because it is the most discriminating property to reduce the number of peptides to be analyzed by the remaining nodes of the decision tree. In each node of the tree, the algorithm takes a set of input peptides and calculates the absolute values for a given property and stores only those that are unique peptides. Then, it sends the child nodes the remaining peptides as input data for further analysis in order to identify other unique peptides after considering the next property. The identification function for the unique peptides is the following logical expression:
(Vn+1 Vn-1) > 4(error) A peptide sequence is unique if the property value (Vn) differs from its previous value Vn-1 in 2 units of property error and in 2 units of error for the next peptide property value Vn+1. The algorithm provides as a final result a set of unique peptides after combining the N-terminal amino acids and the molecular mass at several parts per million of mass accuracy. In order to know if the number of unique peptides increases by using the selective isolation methods, the algorithm was run with the whole tryptic peptide database and the individual subdatabases containing the tryptic peptides were selectively isolated (multiply charged peptides). RESULTS AND DISCUSSION Influence of the Charge-State and the Presence of Basic Amino Acids on the Fragmentation Pattern of PTC- Peptides. Previous studies showed that several PTC-peptides ions do not yield an abundant b1 fragment ion in the ESI-MS/MS, which seriously limits the information regarding the N-terminal amino acid because the loss of aniline and/or the entire PTC derivatizing group can compete with the Edman fragmentation pathway.7 Nowadays, no general trend (based on nature of the N-terminal amino-acid, charge-state of the peptide, or availability of mobile protons) of these losses have been published to explain this behavior.7 In this experiment, four synthetic peptides with sequences SSFSMLR, SSMSTLR, RSSYSTL, and QWISLGDR were derivatized with PITC and analyzed in an ESI-QTOF mass spectrometer for studying the influence of basic amino acids and the protonation extent of peptide ions in the gas phase on the fragmentation observed in MS/MS spectra, specifically the pairs b1 and yn-1 fragments and the loss of aniline and/or the entire PTC derivatizing group. The fragmentation patterns of these peptides were studied using two different charge states: the singly- and the doubly charged ions. For singly charged peptides, similar spectra were observed, with predominant signals of the b1 fragment and losses of aniline and PITC groups (see Figure 1). According to the theory of the mobile proton for this kind of peptide, where the number of charges is equal to the number of arginine residues in the peptide sequence, the proton is located on the guanidinium group (fixed proton).13 In consequence, the collision energy required to produce the b1 fragment ion from the singly charged precursor must be higher than the energy needed to fragment the corresponding multiply charged forms, thus the collision energy used was higher than 35 eV for all
Figure 1. ESI-MS/MS spectra of single charged PTC-derivatized synthetic peptides: (A) SSFSMLR, (B) RSSYSTL, (C) SSMSTLR, and (D) QWISLGDR. The inset in part D showed the expanded low-mass region where the b1 and y1′′ fragments are observed. All MS/MS spectra have a similar pattern, showing the loss of 93 and 135 Da beside the b1 fragment.
analyzed peptides. In these conditions, only the signals corresponding to the loss of aniline and PTC groups appear with similar intensities to the b1 fragment ion in the MS/MS spectra. This result suggests that the probability to obtain other fragment ions in addition to b1 as well as the losses of aniline and the PITC group increases while increasing the collision energy; therefore, a more complex MS/MS spectrum is obtained. However, an additional fragment was observed in the mass spectrum of peptide QWISLGDR, corresponding to the y1 fragment (m/z ) 174 Da, Figure 1D). It is well-known that the presence of aspartic acid residues in single charged peptides with a fixed proton (in arginine residues) provokes the C bias fragment promoted by the carboxylic proton.14 In this case, the aspartic acid is adjacent to the C-terminal arginine residue. For doubly charged peptide analysis, the mass spectrum patterns were similar (see Figure 2). Here, the number of charges is higher than the number of arginine residues in each peptide sequence, therefore one proton is mobile. The energy used was lower than 20 eV, and the most abundant fragment ions were the b1 and their complementary yn-1, showing that gas-phase Edman degradation is more efficient for multiple charged peptides ions, as previously reported.7 In this analysis, the peptide QWISLGDR was not observed as double charged ion in the experimental conditions used. Both results (for singly- and doubly charged peptides) demonstrate that it is possible to explain and predict the most intense signals in the mass spectrum for known peptide sequences, including the losses of aniline and/or the entire PTC derivatizing group according to the theory of the mobile proton. These findings are very useful to determine the PTC-peptides exhibiting more efficient fragmentation upon collision induced dissociation yielding intense b1 and yn-1 ions.
PTC-Derivatized Tryptic Digests of Two Model Proteins: Bovine Serum Albumin (BSA) and Recombinant Streptokinase (rSK). To increase the number of analyzed PTC-derivatized peptides and confirm the regularities observed above, two model proteins BSA and rSK were digested with trypsin and the resultant peptides modified with PITC. The reaction proceeded successfully for all the tryptic peptides of both proteins, and in some cases multiple PTC-derivatized peptides were observed due to the presence of lysine residues. Tryptic peptides (26) were subjected to MS/MS analysis under different collision energies, and their assignments are shown in Table 1. The minimum collision energy (MCE) was defined as the minimal energy necessary to obtain the b1 fragment. Signals of the PTC-derivatized peptides with one, two, or three positive charges were observed in the ESI MS spectrum. A more detailed analysis of the charge state of each peptide allows the classification of PTC-peptides into two main groups. The first one is composed by peptides with fixed protons (Table 1, peptides 1-9); in which the number of charges is equal to the number of arginines in their sequences. The peptides in the second group (Table 1, peptides 10-26) have more protons than arginines in each peptide sequence (mobile protons). The MS/MS spectra of peptides belonging to the first group (Table 1, peptides 1-9) showed some common characteristics, such as the intense signals due to the losses of aniline (- 93 Da) and the PITC group (- 135 Da) from the precursor ions that were obtained in all cases with an MCE greater than 30 eV. These results are in good agreement with those obtained for singly charged synthetic peptides derivatized with PITC described in the previous section. The peptides YLYEIAR (no. 3, Table 1) and NLDFR (no. 7, Table 1) showed y3 and y2 fragment ions, respectively, beside the b1 fragment. These fragments could be easily explained due to the presence Analytical Chemistry, Vol. 82, No. 20, October 15, 2010
8495
Figure 2. ESI-MS/MS spectra of doubly charged PTC-derivatized peptides: (A) SSFSMLR, (B) RSSYSTL, and (C) SSMSTLR. All spectra showed similar pattern with the b1 and yn-1 as the most intense backbone fragment ions.
Table 1. Summary of the PTC-Derivatized Tryptic Peptides of Two Model Proteins Studied by ESI-MS/MS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
sequence
za
(R + H)b
m/z
b1c
C*C*TESLVNR483 h VASLR81 137 YLYEIAR143 336 RHPEYAVSVLLR347 326 DLYDPR331 396 EVYSYLR402 321 NLDFR325 311 SEQLLTASER320 373 RPEGENASYHLAYDKDR389 1 DTHK4 291 SHLK294 373 RPEGENASYHLAYDKDR389 373 RPEGENASYHLAYDK387 243 EC*C*HGDLLEBADDR256 h 42 LVNELTEFAK51 459 LC*VLHEK461 h 286 SHC*IAEVEK294 h 52 TC*VADESHAGBEK64 h 413 KVPQVSTPTLVEVSR427 5 SEIAHR10 336 RHPEYAVSVLLR347 234 TILPMDQEFTYHVK247 123 DGSVTLPTQPVQEFLLSGHVR143 221 DSSIVTHDNDIFR233 211 THPGYTIYER220 355 VEDNHDDTNR364
1 1 1 2 1 1 1 1 2 1 1 3 2 2 2 2 2 2 2 2 3 2 2 2 2 2
1 1 1 3 1 1 1 1 3 1 1 3 2 1 0 1 1 1 1 2 3 1 2 2 2 2
1301.55 680.36 1062.50 787.90 913.37 1064.47 799.32 1268.57 1145.97 770.28 754.30 764.32 1010.43 963.89 717.33 591.77 678.80 881.35 955.51 424.21 525.63 996.42 1208.14 827.35 686.30 675.24
ndi X X X ndi X X ndi X ndi X X X X X X X X X X X X X X X X
475 77
y
n-1
ndi ndi ndi ndi ndi ndi ndi ndi ndi X X X X X X X X X X X X X X X X
d
other fragmentse (Da)
proteinf
MCEg (eV)
yn - 93, yn - 135 yn - 93, yn - 135 y1, y3, yn - 93, yn - 135 yn - 93, yn - 135, 273 y2, y1 y1, 273 y1, y2, yn - 93, yn - 135 y1 yn - 93, y - 135, 273 yn - 93, yn - 135, yn-1 - 93, yn-1 - 135 yn - 93, yn - 135, [HL] ) 251 yn - 93, yn - 135 yn - 93, yn - 135 ndi ndi ndi ndi ndi ndi ndi ndi ndi ndi ndi ndi ndi
BSA BSA BSA BSA rSK rSK rSK rSK rSK BSA rSK rSK rSK BSA BSA BSA BSA BSA BSA BSA BSA rSK rSK rSK rSK rSK
45 32 45 40 30 35 35 35 40 25 28 27 28 29 15 15 23 15 18 18 18 20 25 25 20 20
a Number of protons of the precursor selected for MS/MS analysis. b Corresponds to the number of positive charges the arginine and histidine residues bear in the R and ε-amino-blocked peptides dissolved at acidic pH. c X denotes the peptides giving the b1 fragment. d X denotes the peptides giving the yn-1 fragment. e Additional fragments ions observed in the MS/MS spectra of the PTC-derivatized peptides. f Protein corresponding to the peptide analyzed. g Minimal collision energy (MCE) required for observing the b1 fragment. h C* means propionamidated cystein residue. i nd means that the specified fragment ions were not detected in the MS/MS spectra using the minimal collision energy.
of glutamic acid or aspartic acid adjacent to the cleavage site that provokes the C bias fragment promoted for its carboxylic proton.13 The same behavior was observed for peptide SEQLLTASER (no. 8, Table 1), corresponding to the appearance of a y1 fragment; however, the fragment b1 was not observed, similar 8496
Analytical Chemistry, Vol. 82, No. 20, October 15, 2010
to the peptide DLYDPR (no. 5, Table 1), where fragment y2 was the most intense signal in its MS/MS spectrum. Here, the proline effect15 is added to the role of aspartic acid. Additionally, for peptide C*C*TESLVNR (*, propionamidated cystein residue), the b1 fragment was not observed; and for other peptides,
Figure 3. ESI-MS spectra of (A) PTC-peptides derived from the tryptic digestion of rSK. (B) Selective isolation of six multiply charged PTCderivatized peptides using SCX chromatography.10 The signals labeled with an asterisk represent the six multiply charged peptides (RH peptides).
the y1 fragment and a peak at 273 Da were also detected, which cannot be explained from this limited set of experimental results. For the second group, some peptides have an interesting characteristic (peptides 10, 11, 12, and 13 in Table 1), which is the presence of histidine and lysine in their sequences. Initially, the mobile proton should be localized in the histidine residue13,16 because of its highly basic properties in the gas phase, but upon collisionally induced dissociation (CID) this proton is delocalized along the peptide backbone inducing additional fragmentations. In spite of this, the b1 fragment is still favored and detected as important signal using lower collision energies than the one used in the first group. The losses of PITC and the aniline group of the amino group of lysine are also detected with the collision energy used (less than 25 eV). In a previous work, Gaskell reported that the PITC group in the ε-amino group of lysine is more labile than in the R-amino group of the peptide.7 Thus, the yn-1 fragment and the losses yn-1 - 93 and yn-1 - 135 were also observed, in addition to the b1 fragment. On the contrary, in the peptide DTHK (no. 10, Table 1) in spite of having a mobile proton at the histidine residue, the b1 fragment was not observed. The MS/MS spectra of the other peptides in the second group have a similar pattern among them with the b1 fragments and their complementary yn-1 fragments, with a MEC lesser than 25 eV. Selective Isolation of Multiply Charged Peptides Blocked with PITC by Using Strong Cation Exchange Chromatography. In our group, quantitative blocking of primary amino groups of tryptic peptides and strong cation exchange chromatography (SCX) have been used to isolate with high selectivity the multiply (13) Dongre´, A. R.; Jones, J. L.; Somogyi, A´.; Wysocki, V. H. J. Am. Soc. Mass Spectrom. 1996, 118, 8365–8374. (14) Tsaprailis, G.; Nair, H.; Somogyi, A´.; Wysocki, V. H.; Zhong, W.; Futrell, J. H.; Summerfield, S. G.; Gaskell, S. J. J. Am. Soc. Mass Spectrom. 1999, 121, 5142–54. (15) Breci, L. A.; Tabb, D. L.; Yates, J. R., III; Wysocki, V. H. Anal. Chem. 2003, 75, 1963–1971. (16) Huang, Y.; Triscari, J. M.; Tseng, G. C.; Pasa-Tolic, L.; Lipton, M. S.; Smith, R. D.; Wysocki, V. H. Anal. Chem. 2005, 77, 5800–13.
charged peptides (named as RH peptides).10 This procedure simplifies the complexity of peptides mixture considerably by isolating 3-5 RH peptides/protein. The RH peptides are wellrepresented among proteins of different proteomes and their analysis guaranteed high proteome coverage.10 In silico analysis of protein sequences of several proteomes showed that more than 90% of the RH peptides have at least one histidine residues and more than 80% do not contain lysine in their sequences (data not shown). In RH peptides, the sum of arginine and histidine residues in each sequence is greater than 1 (no. of R + no. of H > 1) and most of them produce multiply charged ions (z g 2) and contain mobile protons since they contain at least one histidine (see the column (R + H) in Table 1). Considering that (1) RH peptides are isolated as N-terminal blocked species, (2) they are a family of peptides that generally contain a mobile proton upon CID, and (3) once they are derivatized with PITC their MS/MS spectra show an abundant b1 ion, we decided to combine the PITC derivatization of tryptic peptides and separation by SCX to selectively isolate the RH peptides and evaluate whether the combined information of accurate molecular mass of peptides and the N-terminal amino acid extracted from the b1 ion would be sufficient to perform reliable identification of proteins in a sequence database. The ESI-MS spectrum of the tryptic peptides of rSK modified with PITC is shown in Figure 3A, and the signal assignment is summarized in Table 1. The six RH peptides of rSK present in this mixture (marked with asterisks in Figure 3A) were selectively retained into the SCX column, eluted, and analyzed successfully by ESI-MS (Figure 3B). After SCX chromatography, none of the non-RH peptides were observed in the mass spectrometric analysis of the retained fraction (see Figure 3B), indicating the high specificity of the proposed method for isolating only the RH peptides.10 Identification of rSK in a Protein Sequences Database Using the Information of Molecular Mass Accuracy and b1 Ion. Manual Identification. All the ESI-MS/MS spectra of the RH Analytical Chemistry, Vol. 82, No. 20, October 15, 2010
8497
Figure 4. ESI-MS/MS spectra of the six multiply charged PTC-derivatized peptides after automatic precursor selection: (A) VEDNHDDTNR, 2+; (B) THPGYTIYER, 2+; (C) RPEGENASYHLAYDKDR, 3+; (D) DSSIVTHDNDIFR, 2+; (E) RPEGENASYHLAYDK, 2+; and (F) DGSVTLPTQPVQEFLLSGHVR, 2+. The b1 fragment was not observed for the peptide shown in part F. The signals labeled with asterisks represent the precursor ions of selected PTC-derivatized RH peptides.
peptides, except one (see Figure 4F), showed the b1 fragment. Each spectrum was completed after two scans of 2 s each, during the automatic selection of the precursor ions. The mass values considering 30 ppm of mass accuracy and the N-terminal amino acids for all the five peptides were supplied through the sequence query option to the MASCOT program for protein database identification. Four out of five peptides were automatically identified and the protein correctly matched with the expected one. These four MS/MS spectra showed b1 and yn-1 fragment ions. The precursor ion m/z 1208.14 only showed the fragment b1 by manual selection and longer acquisition time (Table 1, peptide no. 23). Table 2 shows the results of the mass peptide matching against the firmicute database containing proteins derived from all gram positive bacteria, (53 028 sequences). It is important to notice that considering the characteristics of the selected peptides (RH peptides, where no. of R + no. of H > 1), it was possible to considerably reduce the number of peptides that matched with a given molecular mass and the N-terminal amino acid information considering one missed cleavage site for trypsin. As mentioned before, four out of five peptide masses were identified as unique peptides in the whole database and assigned to the rSK protein using a very modest mass accuracy (30 ppm), if we take into consideration the state-of-the-art accurate mass measurements in instruments like FTICR-MS and Orbitrap. Only the peptide of m/z ) 686.30 (THPGYTIYER) is not unique for 30 ppm accuracy matching with 2 and 3 peptides that 8498
Analytical Chemistry, Vol. 82, No. 20, October 15, 2010
Table 2. Number of SWISS-PROT (Firmicute) Database Matches for Candidates Peptides, Based on the Molecular Mass and the N-Terminal Information of the Streptokinase RH Peptides Modified with PITC N-term no. of no. of RH no. of no. of RH AAa peptidesb peptidesc peptide (1 MCS)d peptide (1 MCS)e 827.35 675.24 686.30 764.32 1010.43
D V T R R
4 1 5 0 1
1 1 2 0 1
9 2 8 1 1
1 1 3 1 1
a The N-terminal amino acid obtained in the analysis of the MS/ MS spectrum. b Number of candidate peptides obtained in the normal database after matching. c Number of candidate peptides obtained in the RH database after matching. d Number of candidate peptides obtained in the normal database after matching, considering 1 missed cleavage site (MCS). e Number of candidate peptides obtained in the RH peptides database after matching considering 1 missed cleavage site (MCS).
are also classified as RH peptides. This kind of peptide could be further filtered by improving the mass accuracy or considering additional characteristics of peptides such as their pI or retention time.17,18 A more detailed in silico analysis was made with the inclusion of other methods for selective isolation of peptides and other properties (manuscript submitted). Automatic Identification. Manual identification of peptides using the MASCOT software was effective but obviously a procedure developed for high-throughput proteomics could be as automatic as possible with almost no intervention of users. Therefore, we
developed a program that allowed the identification of peptides using the mgf file generated from the MS/MS spectra. Usually, during a standard proteomic experiment the peptides do not necessarily produce fragments at high yields due to multiple fragment pathways by CID activation. In this proposal, RH peptides mainly generate two main fragments (b1 and yn-1) with high yields in a sequence-independent manner.9 The mgf file with 10 queries was submitted to the Nterminal in house developed software, and the result obtained is presented in the Supporting Information, Supplementary Material 1. The result was similar to those obtained by manual identification where five tryptic peptides of rSK were successfully identified. In both cases, the list of precursor peptides and their fragment ions were matched with the peptides from a filtered database containing only the RH peptides. The procedure was as follows: (1) the mass accuracy was fixed at 30 ppm and the candidate peptides for each precursor submitted were grouped in an initial list, (2) the masses of the N-terminal amino acids derivatized with PITC (as b1 fragment) were calculated for the peptides generated in silico from the protein database. These mass values were matched with the peak masses submitted in the mgf files. Finally, (3) a list of candidates by each precursor ion was obtained, ordered by a simple score based on the intensity of the possible b1 signal (explained in the Materials and Methods). The efficiency of the assignments was around 50%; this means that a confident identification was possible (scores equal to 1 are considered as confident candidates) of the N-terminal amino acid for five peptides in the experiment carried out (Supporting Information, Supplementary Material 1); however, five out of six RH peptides were efficiently fragmented, which represent 83%. Obviously, other queries were processed, corresponding to lowintensity signals detected in the MS spectrum and some cases originated from the wrong selection of the precursor mass or its charge states during the automatic selection in the mass spectrometer. In these cases, none of them were assigned to peptides with confident scores in the database. Application to the Analysis of Protein Mixture. Although the use of PTC-derivatized peptides to identify the first amino acid have been reported previously,6 they have never been used in LC-MS/MS experiments for the analysis of real proteins samples. This is a challenge because it is necessary to combine the optimal conditions to achieve the fragmentation of peptides in a highthroughput experiment with some informatics tool that responds to the protein database identification. As a proof of concept, the procedure was applied to the analysis of cytosolic proteins from E. coli. Two LC-MS/MS experiments were accomplished for the analysis of PTC-derivatized peptides (1) without any selective isolation step of multiply charged peptides and (2) after the selective isolation of the multiply charged PTC-derivatized peptides. As previous MS/MS experiments performed in this work, the collision energies used were set according to the obtained MCE for peptides presented in Table 1 (collision energy ramps used are shown in the Supporting Information, Supplementary Material 2). A total of 116 unique peptides from 106 proteins at 20 ppm, which represents 39% of the total signals assigned to (17) Essader, A. S.; Cargile, B. J.; Bundy, J. L.; Stephenson, J. L., Jr. Proteomics 2005, 5, 24–34. (18) Krokhin, O. V.; Craig, R.; Spicer, V.; Ens, W.; Standing, K. G.; Beavis, R. C.; Wilkins, J. A. Mol. Cell. Proteomics 2004, 3, 908–919.
Table 3. Results Obtained after the Analysis with Three Different Experiments of a E. coli Protein Extract experiment nonderivatized peptides PTC-peptides RH-PTC peptides
unique % unique efficiency proteins peptides peptides (%) identified 116 151
39 63
24 44 37
69 107 136
peptide sequences with scores equal to 1 (see the Supporting Information, Sup. 3), were identified after the analysis of PTCderivatized peptides (see Table 3). As expected, in the other experiment, the number of multiply charged PTC-derivatized peptides identified as unique by mass and N-terminal amino acid increased. In total, 151 peptides from 136 proteins were correctly identified, based on scores equals to 1, which represented the 63% of total signals assigned to possible sequences (Supporting Information, Sup. 3). The number of identified proteins is relatively low (136 out of 4386 for the E. coli proteome), but this is twice the proteins found using nonderivitized tryptic peptides. This result was without proper fractionation at protein or peptide level. In the present work, the pool of RH peptides, with no additional fractionation, was analyzed in a single LC-MS/MS run. Obviously, an extensive fractionation, as described by other authors19 as well as the use of more sensitive mass spectrometers will improve the number of identified proteins.20 As we mentioned above, the efficiency or percentage of MS/ MS assigned confidently to peptide sequences is around 10-20% in standard applications. Using similar procedures (digestion and LC-MS/MS settings), we analyzed a nonderivatized tryptic digestion of E. coli in a single LC-MS/MS run to evaluate the efficiency of assignments with our analytical system. In this experiment were identified 180 peptides with an efficiency of 24% (755 queries) from 69 proteins, considering a FDR less that 2%. The fragmentation efficiency of PTC-derivatized peptides was greater than 35% (scores ) 1), considering the total queries in both experiments, and slightly superior for the total PTCderivatized peptides (Table 3). Although the collision ramps used were set in accordance to the fragmentation patterns of model peptides, it could be improved, as well as the number and duration of scans chosen in the LC-MS/MS runs. During LC-MS/MS experiments, the accuracy in the molecular mass determination could vary and some signals may be excluded from the analysis because of the fixed mass window set for the difference between theoretical and experimental values. The use of some internal standard or the lock-spray system21 could help to overcome this problem. On the other hand, the reduced m/z range (from m(PTC-Gly) to m(PTC-Trp); m/z 192-321) necessary to obtain the information of b1 ions is very narrow in comparison with the full MS/MS and it will be the same range for all peptides independent of their molecular mass. The size of multiple LC-MS/MS runs (19) Corbin, R. W.; Paliy, O.; Yang, F.; Shabanowitz, J.; Platt, M.; Lyons, C. E., Jr.; Root, K.; McAuliffe, J.; Jordan, M. I.; Kustu, S.; Soupene, E.; Hunt, D. F. Proc. Natl. Acad. Sci. U.S.A. 2003, 100, 9232–9237. (20) Domon, B.; Aebersold, R. Science 2006, 312, 212–217. (21) Satomi, Y.; Kudo, Y.; Sasaki, K.; Hase, T.; Takao, T. Rapid Commun. Mass Spectrom. 2005, 19, 540–546.
Analytical Chemistry, Vol. 82, No. 20, October 15, 2010
8499
Figure 5. In silico analysis of unique peptides using the combination of several mass accuracies and the N-terminal information of all tryptic peptides (KR peptides) and the selectively isolated PTC-derivatized RH peptides: (left) E. coli proteome and (right) H. sapiens proteome.
will be considerably reduced and therefore more conveniently stored. Since the scan range can be reduced just to determine the molecular mass of b1 ions, then using the same scan speed, an inherent improvement in sensitivity could be obtained. Although the usage of ion traps in proteome analysis have gained in popularity because of their robustness, high-scan speed, sensitivity, versatility, accurate gain control in hybrid instruments, etc., some ion traps still have the limitation of a 1/3 cutoff rule which in principle does not permit the detection of ions in the low-mass region where some b1 ions are detected. Fortunately, more recent advantages of ion trap technology avoid the loss of this valuable information such as the iTRAQ reporter ions (m/z 114-119 and 121-122), and in principle it might occur similarly for b1 ions.22,23 In Silico Analysis of Unique Peptides in E. coli and Homo sapiens Proteomes Based on the Selective Isolation of RH Peptides. The identification of rSK is based on the information provided by the MS/MS spectra of RH peptides that were selectively isolated. These peptides at the same time were unique peptides in the sequence databases composed only by this type of peptide taking into account only the combination of two properties: molecular mass and N-terminal amino acid. A previous in silico analysis revealed that selective isolation of RH peptides considerably simplifies the complex mixture of tryptic peptides by isolating just three RH peptides/protein, and at the same time they represent as average the 84% of the whole proteomes.10 These data suggest that a considerable part of the proteins in the sequence database can be identified based on their MS/MS spectra of RH peptides because they are well represented and distributed. The selective isolation of a particular type of peptides from the whole database might have two opposed effects. On one side, it might eliminate unique peptides present in the whole database that do not respond to the characteristics of the peptides selectively isolated (RH peptides), but on the other side, it might increase the number of unique peptides since this process could eliminate some peptides with properties very close or identical to a given RH peptide that could be selectively isolated. (22) Schwartz, J. C. High-Q pulsed fragmentation in ion traps. U.S. Patent 6,949,743, September 27, 2005. (23) Schwartz, J. C.; Syka, J. E. P.; Quarmby, S. T. The 53rd ASMS Conference on Mass Spectrometry and Allied Topics, San Antonio, TX, June 5-9, 2005.
8500
Analytical Chemistry, Vol. 82, No. 20, October 15, 2010
Considering that RH peptides are very efficient to yield the desired Edman cleavage in the MS/MS spectrum (b1 fragment ion) using very low-energy collisions and also taking into account that there are a wide variety of mass spectrometers available on the market with different performances, we calculate in silico the percentage of unique peptides in the whole database composed by all tryptic peptides of E. coli and H. sapiens and a subdatabase composed only by the RH peptides considering different mass accuracies and the information of the N-terminal amino acids. All these results were considering one missed cleavage of trypsin. A detailed analysis is shown in Figure 5, where the percentage of unique peptides for several mass accuracy levels is shown. For the E. coli proteome, around 30% of the tryptic peptides are unique for low parts per million accuracy values (1 ppm), while for 5 ppm accuracy, these percentages decrease considerably. Thus for 20, 30, and 50 ppm, the results are very poor. Considering also the N-terminal amino acid, additionally to the accurate molecular mass determination, the number of unique peptides substantially increases (Figure 5A). If RH peptides are selected, then it would be possible to obtain values close to 90% of unique peptides with 1 and 5 ppm of mass accuracy. In this case, even using very modest mass accuracies of 30 and 50 ppm, the results obtained become attractive for identification of proteins, unlike the analysis of general tryptic peptides analysis. This behavior is similar to the analysis of the human proteome (Figure 5B); however, the percentage of unique peptides for lowmass accuracies (20, 30, and 50 ppm) is very low. Therefore it is recommended to use mass spectrometers such as the FTICR and Orbitrap to achieve highly accurate mass determination of the precursor ions (1-5 ppm range). However, the methods for the selective isolation of peptides are not 100% effective, and a few percentage of unspecific peptides are detected. In a previous application of selective isolation of multiply charged peptides, we reported less than 5% of non-RH peptides in the analyzed fraction, specifically the contamination with peptides where the sum of arginine and histidine are equal to 1 (no. of R + no. of H ) 1).10 In the proposed procedure, the number of non-RH peptides analyzed by mass spectrometry in the fraction of interest could be reported as positive hits against the filtered RH database, in other words, false positive hits.
Table 4. In Silico Analysis of False Positive Hits Considering 5% of non-Rh Peptides in the Selective Isolation of Multiply Charged Peptides accuracy (ppm)
% false positive hits (R1, R2, R3)
% total false positive hits
average
CV (%)
1 20
(22, 21, 21) (32, 30, 31)
(1.08, 1.05, 1.07) (1.58, 1.49, 1.54)
1.06 1.54
1.2 3.3
In this way, we designed an in silico experiment to evaluate the possibility to obtain false positive hits with non-RH sequences, specifically those where no. of R + no. of H ) 1. We evaluated 2728 non-RH peptides that represent the 5% of the total number of RH peptides contained in the E. coli database. Thus, we simulated the maximum number of non-RH peptides for a real experiment. The sequences were chosen randomly three times (replicates, R1, R2, R3) in an E. coli peptide database composed of peptides where the sum of arginine and histidine are equal to 1 (no. of R + no. of H ) 1). These sequences were compared, based on its molecular mass and N-terminal amino acid information, with the filtered RH database at 1 and 20 ppm of mass accuracy. The positively matched were considered as potential false positives at the mass accuracy determined. The percentage obtained was around 20-30%, which represents percentages between 1 and 1.5 if we consider that the initial number of peptides represents 5% of the total peptides (Table 4). The values were similar among the replicates (R1, R2, and R3) with CV less than 5%. These results suggest that due to the presence of non-RH peptides, the number of false positive hits, during the identification in the filtered RH database, may be less than 2% using 1 and 20 ppm mass accuracy. CONCLUSIONS All these results allowed us to conclude that PTC-derivatized peptides with fixed protons yield fragments different from the expected b1 and yn-1 ions in the ESI-MS/MS spectra obtained
in an hybrid type QTOF mass spectrometer because higher collision energy is require to fragment these peptides. On the contrary, peptides with mobile protons produce almost exclusively the desired fragments (b1 and yn-1 ions) that provide information on the N-terminal amino acid. We also demonstrated that most of the multiply charged peptides derivatized with PITC efficiently produce the b1 and yn-1 fragments. Multiply charged PTC-derivatized peptides can also be selectively isolated from complex mixtures of tryptic peptides, combining the derivatization of all primary amino group and strong cation exchange chromatography. Accurate molecular mass measurement and the N-terminal amino acid of RH peptides is sufficient for a reliable protein identification in high-throughput proteomics, and it might have a positive impact to increase the number of protein identifications in filtered sequence databases containing only RH peptides. ACKNOWLEDGMENT A.S. and Y.P.-R. have contributed equally to this work. The authors would like to thank the INSPUR Company from China for its kind donation of the computer cluster TS10000 used for all calculations and the tools developed in this manuscript. SUPPORTING INFORMATION AVAILABLE Outputs of the automatic identification of peptides from rSK using the mgf files obtained during the selection of automatic precursors ions; collision energies ramps used for the fragmentation of PTC-derivatized peptides; and output files obtained from the analysis of PTC-derivatized peptides derived from E. coli proteins. This material is available free of charge via the Internet at http://pubs.acs.org.
Received for review May 14, 2010. Accepted September 3, 2010. AC1012738
Analytical Chemistry, Vol. 82, No. 20, October 15, 2010
8501
Technical Note pubs.acs.org/ac
HI-Bone: A Scoring System for Identifying PhenylisothiocyanateDerivatized Peptides Based on Precursor Mass and High Intensity Fragment Ions Yasset Perez-Riverol,†,‡,# Aniel Sánchez,†,⊥,# Jesus Noda,† Diogo Borges,∥ Paulo Costa Carvalho,§ Rui Wang,‡ Juan Antonio Vizcaíno,‡ Lázaro Betancourt,† Yassel Ramos,† Gabriel Duarte,⊥ Fabio C.S. Nogueira,⊥ Luis J. González,† Gabriel Padrón,† David L. Tabb,@ Henning Hermjakob,‡ Gilberto B. Domont,*,⊥ and Vladimir Besada*,† †
Department of Proteomics, Center for Genetic Engineering and Biotechnology, Ave 31 e/158 y 190, Cubanacán, Playa, Ciudad de la Habana, Cuba ‡ EMBL Outstation, European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, U.K. § Laboratory for Proteomics and Protein Engineering, Carlos Chagas Institute, Fiocruz-Paraná, Brazil ∥ Systems Engineering and Computer Science Program, COPPE, Federal University of Rio de Janeiro, Rio de Janeiro, Brazil ⊥ Proteomics Unit, Institute of Chemistry, Federal University of Rio de Janeiro, Rio de Janeiro, Brazil @ Department of Biomedical Informatics, Vanderbilt University, Nashville, Tennessee, United States S Supporting Information *
ABSTRACT: Peptide sequence matching algorithms used for peptide identification by tandem mass spectrometry (MS/MS) enumerate theoretical peptides from the database, predict their fragment ions, and match them to the experimental MS/MS spectra. Here, we present an approach for scoring MS/MS identifications based on the high mass accuracy matching of precursor ions, the identification of a high intensity b1 fragment ion, and partial sequence tags from phenylthiocarbamoyl-derivatized peptides. This derivatization process boosts the b1 fragment ion signal, which turns it into a powerful feature for peptide identification. We demonstrate the effectiveness of our scoring system by implementing it on a computational tool called “HI-bone” and by identifying mass spectra of an Escherichia coli sample acquired on an Orbitrap Velos instrument using Higher-energy C-trap dissociation. Following this strategy, we identified 1614 peptide spectrum matches with a peptide false discovery rate (FDR) below 1%. These results were significantly higher than those from Mascot and SEQUEST using a similar FDR.
P
advanced LC−MS systems. As a result, unfortunately only a relatively small proportion of the acquired MS/MS spectra yields positive identifications, due either to poor spectrum quality or to insufficiently optimized scoring methods. Taken together, such aspects might significantly limit the PSM working models. These limitations motivated us to rethink how the experimental design of traditional PSM approaches is accomplished. Here, we propose a methodology to ultimately provide increased sensitivity when analyzing phenylthiocarbamoylderivatized peptides (first step of the Edman degradation reaction). This derivatization process boosts the b1 fragment ion intensity and simplifies the number of fragments in the MS/ MS spectrum, turning it into a powerful feature that can be
rotein identification in large-scale shotgun proteomics experiments is usually accomplished by automatically comparing theoretical mass spectra from peptides generated from a protein sequence database to those experimentally obtained typically by liquid chromatography coupled online with tandem mass spectrometry (LC−MS/MS). Examples of software tools for automatically performing this peptide spectrum matching (PSM) task are search engines such as SEQUEST,1 Mascot,2 X!Tandem,3 and OMSSA.4 In general terms, the specificity of a PSM algorithm is inversely proportional to the peptide search space size. As such, these strategies are usually more efficient in experiments addressing model organisms that have a small and wellannotated protein sequence database derived from its genome (e.g., Escherichia coli). On the other hand, the current PSM algorithms can frequently use only a small number of all the generated high-quality MS/MS spectra in the experiment. The number of peptides generated after the proteolysis of complex samples still overwhelms the capacity of analysis of the most © 2013 American Chemical Society
Received: November 12, 2012 Accepted: February 28, 2013 Published: February 28, 2013 3515
dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−3520
Analytical Chemistry
Technical Note
Software Description. The software used in this study implementing the HI-bone algorithm is a standalone Java application that ports a Graphical User Interface (GUI) with three main windows (The source code of the HI-bone is provided upon mail request to the corresponding author.): (i) search engine configuration parameters; (ii) peptide identification and spectrum query results; and (iii) a mass spectrum visualization panel. The search engine configuration parameters panel allows the definition of post-translational modifications, enzymes, and the MS and MS/MS error tolerances. The library ms-core-api (http://code.google.com/p/pride-toolsuite/) was used to handle different spectrum file formats and the pridemod library (http://www.ebi.ac.uk/∼maven/m2repo_ snapshots/uk/ac/ebi/pride-mod/pride-mod/) was used for the handling of post-translational modifications. The spectrum visualization panel allows the manual inspection of the nonidentified and identified spectra. Using the pridemzgraph-browser library (http://code.google.com/p/pridetoolsuite/wiki/PRIDEmzGraphBrowser), the spectrum panel can represent the spectrum fragmentation and the intense b1 peak.
used to facilitate peptide identification. As shown by Gaskell et al.,5,6 the equivalent of a single Edman degradation stage can be performed for ions in the gas phase. The peptides are coupled in solution with phenylisotiocyanate (PITC) and ionized in either electrospray ionization (ESI) or matrix-assisted laser desorption ionization (MALDI) ion sources. After activation in the collision cell, the phenylthiocarbamoyl (PTC)-derivatized peptide dissociates specifically to yield an intense b1 fragment, consequently unlocking the possibility to determine the mass and the N-terminal residue of a given peptide in a single mass spectrum.7,8 Wohlhueter and colleagues demonstrated that other isothiocyanate analogues bearing basic moieties can derivatize peptides and significantly improve the MS sensitivity of tagged analytes while promoting Edman fragmentation.9 Another example of its usefulness was proposed by Yao and coworkers: they used this active chemical modification for improving the fragment ion detection in MRM (Multiple Reaction Monitoring) studies.10 Here, we describe a scoring system used by the tool denoted “HI-bone” and demonstrate its efficiency in an E. coli sample acquired on an Orbitrap Velos instrument using higher-energy C-trap dissociation (HCD). HI-bone generated scores are based on the intensity of the b1 fragment ion, and in the presence of four fragmentation patterns and partial sequence tags of the spectrum. We were able to converge to a list of 1614 PSMs and 526 proteins, using the proposed algorithm. This result is significantly better when compared to those obtained from Mascot (1185 PSMs) and SEQUEST (1099 PSMs), corresponding to 418 and 421 proteins, respectively. The HIbone tool also reports a set of complementary subscores that can be used in the future for PSM quality assignment.
■
■
RESULTS AND DISCUSSION Fragment Scoring Functions. We have developed a novel empirical scoring scheme based on the presence of high b1 ion intensities for PTC-derivatized peptides. Following the b1 fragmentation pattern of the modified peptides, the b1 score (b1Score) represents the rank (order) of the signal assignment to the b1 ion in a sorted list by signal intensity. Rather than work with intensity directly, the software evaluates peaks by their intensity ranks. It reflects Bern’s observation that the significance of fragment ions may be judged more accurately by their intensity ranks than by their relative intensities.12 Also, it shows the relation between the different possible b1 signals assigned by fragment masses in the low mass region (193−400 m/z units):
MATERIALS AND METHODS
Experimental Data and Database Search. Proteins from the E. coli strain W3110 cells were converted in a PTCderivatized peptide mixture and acquired on an Orbitrap Velos instrument using HCD (see the Supporting Information). With the use of the HI-bone algorithm, the spectra file was deconvoluted and deisotoped using the “MS-Deconv” application under default parameters.11 The HI-bone algorithm parameters used were 10 ppm tolerance at the precursor level and 5 ppm at the MS/MS level. For partial sequence tags generation, a minimum of 2 and maximum of 3 amino acids and a mass error of 0.04 m/z units was used. The resulting tryptic proteome was filtered with the number of arginine greater than 0 (R > 0), using the HI-bone sequence filter. The Mascot (version 2.3.02) and SEQUEST (version 1.3) search engines and the E. coli subset from UniProtKB/SwissProt (release 11/2011) were used to compare the HI-bone scoring system. Mascot and SEQUEST tolerance parameters were set to 10 ppm and 0.6 Da for precursor mass and product ion, respectively. Other parameters used were trypsin digestion with up to two missed cleavages, a fixed modification of 71.037 Da at cysteine residues, another fixed modification of 135.014 Da at the protein N-terminal end and lysine (PTC derivatized), and a maximum charge of +3. A shuffled decoy database was generated and joined to the target database for false discovery calculations. A non PTC-derivatized E. coli data set was analyzed using HI-bone with the same configuration using above, including the modified peptides. The PTC data set was analyzed to define the score threshold for performing confident peptide identifications.
b1Score =
1 Oi
(1)
where Oi is the rank of the b1 signal assigned in a list of low mass signals sorted by intensity in a nonincreasing order. The b1Score values are in the range of [0−1] and they represent the order, depending of its intensity, in which the b1 fragment was assigned to a given theoretical fragment. We observed that for PTC-derivatized peptides, based on peak presence, internal sequences starting by proline and glycine were more common than those containing other amino acids. In addition, for the cleavage at the C-terminal amino acid of an internal fragment, there was a significant preference for aspartic and glutamic acid. Similar results were generalized recently by Mann and coworkers for HCD fragmentation.13 Then, for each peak presence of proline, glycine, aspartic, and glutamic acid, we computed the corresponding intensity score: ScoreR =
1 Oi
(2)
where Oi is the rank of the signal assigned to the amino acid (proline, glycine, aspartic, and glutamic acid). Sequence Tags Scores. The last score is derived from inferring partial sequence tags directly from observed fragment ions. Sequence tagging comprises a middle path between database searches and de novo strategies. Our software derives 3516
dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−3520
Analytical Chemistry
Technical Note
Figure 1. Example of fragmentation pattern of PTC-derivatized peptides.
fidelity score, which is the sum of squared errors (SSE) of the first peak m/z estimates for each tag,15 the precursor delta mass, and the b1 fragment ion delta mass. These variables can be used in future developments to discriminate correct from incorrect PSMs. For example, the mass spectrum corresponding to the peptide QAQYNFVGASEQLESAHR (Figure 1) shows clearly that the b1 ion is the most intense fragment ion in the low mass region [(PITC-Q)exp = 264.0806 Da and experimental mass = 264.0803 Da]. In this case, the b1Score = 1, glycine Score = 0.33, glutamic acid Score = 0.14, and TagScore = 4.83, allowing the peptide identification with a global score of 17.67. The HI-bone algorithm starts by searching a peptide in the database within a given mass accuracy tolerance. The MS/MS signals are then sorted by intensity and the b1Score and the signal scores for glycine, proline, glutamic, and aspartic acid. For those peptides with a b1Score above confidence, the partial sequence tags are generated. Finally, the global score is computed for each PSM and all the scores are listed in the tab output (Figure 2). Evaluation of the Scoring Systems. Threshold Definition of the b1Score. A sample from E. coli containing only non-PTC-modified peptides was used as a negative control, to select a confident b1Score threshold. The LC−MS/MS run and the HI-bone identification workflow were performed using the same protocol previously used for the PTC-derivatized peptide analysis. Only 0.04% of the PSMs were identified with a b1Score ≥ 0.2. In other words, using this confident score threshold (b1Score is >0.2), we were able to avoid false positive assignments associated with non-PITC fragments ions. Sub-Scores Evaluation and Identification Results. Figure 3 shows a theoretical analysis of unique peptide and protein coverage, using only the precursor mass, the N-terminal residue, and different mass accuracies for Homo sapiens and E. coli. Similar to a previous study,8 the number of unique peptides
partial sequence tags from a tandem mass spectrum, which are then evaluated against a protein sequence database to interpret the remainder part of the spectrum.14−16 The HI-bone sequence tag algorithm seeks pairs of peaks that are separated by known amino acid masses. The spectrum can then be evaluated as a graph, with peaks represented by nodes and amino acid gaps between peaks represented by edges. When a set of peaks is joined by consecutive edges in this graph, the set constitutes a tag. For each sequence tag the algorithm computes the intensity score based on the rank order of the amino acid peaks: i=0
TagScore =
∑ A
1 Oi
(3)
where Oi is the rank of the amino acid peaks in the spectrum. This intensity score was also employed previously by Tabb and co-workers, together with a delta mass score.15 Global Score. We also define a global score made by the combination of the different scores (b1Score, residue ScoreR, and TagScore). We generate a polynomial function: i=0
GlobalScore = [(∑ ScoreR ) × R3] + TagScore R
(4)
where R is the number of amino acids found in the peptide sequence candidate and also found in the following set: {proline, glycine, aspartic, and glutamic acid}. The global score boosts the contribution of the analyzed residues in combination with the partial sequence tags intensity scores. Also, it normalizes the contribution of each residue compared with partial sequence tags. The HI-bone algorithm and Score Reporting. HI-bone stores the inferred PSM sequences into a tab-delimited file with all the previously described subscores. We also report the m/z 3517
dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−3520
Analytical Chemistry
Technical Note
Figure 2. HI-bone algorithm workflow.
for an E. coli proteome is 40% for low parts per million accuracy values (1 ppm). The results for 10, 20, and 50 ppm are very poor when the precursor mass is only considered. The number of unique peptides increases when the N- terminal residue is identified for both proteomes [(A) E. coli and (B) H. sapiens] and all mass accuracies. The human proteome coverage (Figure 3C) increases considerably when the precursor mass and Nterminal residue is employed in the poor accuracy region (10, 20, and 50 ppm). This theoretical analysis opens the possibility to a new methodology of peptide and protein identification, using the precursor mass and b1 fragment ion even for low mass accuracy instruments. The generated subscores (ScoreR, TagScore) and the GlobalScore were explored independently using the E. coli data set (Figure 4A). Receiver operating characteristic (ROC) curves can be used to determine the value of scoring functions.17 The vertical position of the point gives the number of true peptide spectrum matches passing the FDR threshold, while the horizontal position indicates the number of false peptide spectrum matches over the threshold. An ideal algorithm scores all true PSMs higher than all false ones. Therefore, a ROC plot for such an algorithm would be a right angle. Even when each subscore allows the identification of
peptides by itself, the combination in a GlobalScore guarantees a higher number of identifications at a low peptide FDR. Figure 4A shows a 1% FDR line that represents the sensitivity in PSM assignments among the various scoring functions. At 1% FDR and in consideration of the b1Score ≥ 0.2, the number of PSMs increase from 1485 (without b1Score threshold) to 1630 PSM. When the b1Score threshold is applied, the HI-bone score clearly outperforms the results of GlobalScore and the other subscores. GlobalScore shows the best results compared with TagScore (1372 PSMs) and ScoreR (1461 PSMs) independently. The use of partial sequence tags of 2 and 3 residues long worked best for increasing the TagScore sensitivity. Similar to previously obtained results,15 the use of an intensity rank subscore (TagScore) was enough to score partial sequence tags. Comparison with PSM Algorithms. Our results indicated that arginine-containing peptides were 99% of our confident PSMs. These findings are aligned with the fact that PITC derivatization increases arginine containing peptides, which works to our advantage by simplifying a complex peptide mixture by about 50%. Nevertheless, these arginine-containing peptides are still representative of the total protein content.18 The simplification of a peptide mixture allows the reduction of 3518
dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−3520
Analytical Chemistry
Technical Note
Figure 3. Theoretical identification of (A and B) unique peptide and (C and D) protein coverage, using only the precursor mass and the N-terminal residue for different mass accuracy. (A and B): Percentage of unique peptides H. sapiens and E. coli proteome, respectively. (C and D): Percentage of proteome coverage for H. sapiens and E. coli, respectively.
Figure 4. (A) ROC curve comparing the number of true positives to the number of false positives for various peptide false discovery rate cutoffs between 0 and 6%, for a particular scoring function (GlobalScore, TagScore, ScoreR, GlobalScore, without b1Score threshold). (B) Venn diagram showing the distribution of PSMs, using HI-bone, Mascot, and SEQUEST.
the “database space” for HI-bone searching and increases the probability of finding unique peptides. The number of PSMs (Figure 4B), and consequently proteins (Table 1), identified using HI-bone for PTCderivatized PSMs, were higher than those obtained with other conventional search engines. Figure 4B presents a Venn diagram of the PSM distribution obtained by Mascot, SEQUEST, and HI-bone. In particular, the number of PSMs identified by HI-bone was 1614 (and 526 proteins). Approximately, 22.65% (318 proteins) of the PSMs were identified exclusively with HI-bone, whereas 53% were
Table 1. Number of Proteins Identifications from PITC Peptides using HI-bone, Mascot, and SEQUEST, considering a Peptide FDR < 1% no. identified protein
Mascot
SEQUEST
HI-bone
418
421
526
shared between the three search engines. It is important to note that the HI-bone software was designed exclusively for the identification of phenylisothiocyanate-derivatized peptides based on the mass accuracy of the most common fragments 3519
dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−3520
Analytical Chemistry
Technical Note
occurring for these peptides, instead of Mascot and others that have very good results with nonmodified samples. Mass spectra of PTC-derivatized peptides shift intensity to the b1 fragment ion, and this may lead to disadvantages for Mascot and SEQUEST as they were tailored to consider different intensity distributions. The HI-bone application and scoring system are devoted to PTC-derivatized or other isothiociane-derivate peptides, where the b1 fragment ion is favored and appears as the most intense fragment in the low mass region of the spectrum.9,19 Also, the HI-bone algorithm could be applicable to the analysis of samples acquired in other mass spectrometers, such as QTOF and/or FT-ICR, ideally after internal mass calibration to increase the mass accuracy.
■
CONCLUSIONS
■
ASSOCIATED CONTENT
■
S Supporting Information *
Experimental Data Description. This material is available free of charge via the Internet at http://pubs.acs.org.
AUTHOR INFORMATION
Corresponding Author
*V. B.: e-mail,
[email protected]; G.B.D.: e-mail,
[email protected]; Tel, 53-7-2718008; Fax, 53-7-2736008. Author Contributions #
These authors have contributed equally to the work.
Notes
The authors declare no competing financial interest.
■
ACKNOWLEDGMENTS
■
ABBREVIATIONS
REFERENCES
(1) Eng, J.; McCormack, A.; Yates, J. J. Am. Soc. Mass Spectrom. 1994, 5 (11), 976−989. (2) Perkins, D. N.; Pappin, D. J.; Creasy, D. M.; Cottrell, J. S. Electrophoresis 1999, 20 (18), 3551−67. (3) Craig, R.; Beavis, R. C. Bioinformatics 2004, 20 (9), 1466−7. (4) Geer, L. Y.; Markey, S. P.; Kowalak, J. A.; Wagner, L.; Xu, M.; Maynard, D. M.; Yang, X.; Shi, W.; Bryant, S. H. J. Proteome Res. 2004, 3 (5), 958−64. (5) Summerfield, S. G.; Bolgar, M. S.; Gaskell, S. J. J. Mass Spectrom. 1997, 32 (2), 225−231. (6) van der Rest, G.; He, F.; Emmett, M. R.; Marshall, A. G.; Gaskell, S. J. J. Am. Soc. Mass Spectrom. 2001, 12 (3), 288−95. (7) Sanchez, A.; Perez-Riverol, Y.; González, L. J.; Noda, J.; Betancourt, L.; Ramos, Y.; Gil, J.; Vera, R.; Padron, G.; Besada, V. Anal. Chem. 2010, 82 (20), 8492−501. (8) Perez-Riverol, Y.; Sanchez, A.; Ramos, Y.; Schmidt, A.; Muller, M.; Betancourt, L.; Gonzalez, L. J.; Vera, R.; Padron, G.; Besada, V. J. Proteomics 2011, 74 (10), 2071−82. (9) Wang, D.; Fang, S.; Wohlhueter, R. M. Anal. Chem. 2009, 81 (5), 1893−1900. (10) Diego, P. A.; Bajrami, B.; Jiang, H.; Shi, Y.; Gascon, J. A.; Yao, X. Anal. Chem. 2010, 82 (1), 23−27. (11) Liu, X.; Inbar, Y.; Dorrestein, P. C.; Wynne, C.; Edwards, N.; Souda, P.; Whitelegge, J. P.; Bafna, V.; Pevzner, P. A. Mol. Cell. Proteomics 2010, 9 (12), 2772−82. (12) Bern, M.; Goldberg, D.; McDonald, W. H.; Yates, J. R., 3rd Bioinformatics 2004, 20 (Suppl 1), i49−i54. (13) Michalski, A.; Neuhauser, N.; Cox, J.; Mann, M. J. Proteome Res. 2012, 11 (11), 5479−91. (14) Sunyaev, S.; Liska, A. J.; Golod, A.; Shevchenko, A. Anal. Chem. 2003, 75 (6), 1307−15. (15) Tabb, D. L.; Ma, Z. Q.; Martin, D. B.; Ham, A. J.; Chambers, M. C. J. Proteome Res. 2008, 7 (9), 3838−46. (16) Tabb, D. L.; Saraf, A.; Yates, J. R., III Anal. Chem. 2003, 75 (23), 6415−21. (17) Baker, S. G. J. Natl. Cancer Inst. 2003, 95 (7), 511−5. (18) Foettinger, A.; Leitner, A.; Lindner, W. J. Mass Spectrom. 2006, 41 (5), 623−32. (19) Leng, J.; Wang, H.; Zhang, L.; Zhang, J.; Wang, H.; Cai, T.; Yao, J.; Guo, Y. J. Am. Soc. Mass Spectrom. 2011, 22 (7), 1204−1213.
The HI-bone software outperformed Mascot and Sequest in the analysis of PTC-derivatized peptides in an E. coli sample. The GlobalScore scoring system takes advantage of the presence of the most frequent fragments in the mass spectrum and partial sequence tags and discards false positives generated by random b1 fragments in peptides.
■
PITC: phenylisotiocyanate PTC: phenylthiocarbamoyl ROC: Receiver Operating Characteristic SSE: Sum of Squared Errors ST: Semi tryptic
The authors would like to thank the INSPUR Company from China for the kind donation of the computer cluster TS10000, used for all the calculations, and the tools developed in this manuscript. R.W. is supported by the BBSRC “PRIDE Converter” grant [reference BB/I024204/1]. J.A.V. is supported by the EU FP7 grants, LipidomicNet (Grant 202272), and ProteomeXchange (Grant 260558). G.B.D. thanks CNPq. P.C.C. thanks Fiocruz−PDTIS, CNPq universal, and CDTS for financial support. The authors want to thank Tao Xu and Professor John Yates from Scripts Laboratories for their kind support of GutenTag.
ESI: electrospray ionization FDR: False Discovery Rate GUI: Graphical User Interface HCD: Higher-energy C-trap dissociation HPLC: High Performance Liquid Chromatography JPL: Java Proteomic Library LC−MS/MS: Mass spectrometry/mass spectrometry, i.e. tandem mass spectrometry MALDI: matrix-assisted laser desorption MC: missed cleavages MGF: Mascot Generic File MRM: Multiple Reaction Monitoring 3520
dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−3520
Bioinformatics Advance Access published February 27, 2013
$SSOLFDWLRQ1RWH
(IIHFWLYHO\DGGUHVVLQJFRPSOH[SURWHRPLFVHDUFKVSDFHV ZLWKSHSWLGHVSHFWUXPPDWFKLQJ 'LRJR%RUJHV 1: Péptidos que contienen más de un residuo de Arginina o Histidina en su secuencia. pI > 5.5 : Péptidos cuyo valor de punto isoeléctrico es mayor que 5,5 unidades de pI.
La biblioteca además permite filtrar las bases de datos por taxonomía, eliminar péptidos redundantes, exportar a ficheros fasta y crear bases de datos señuelo (del inglés, decoy) para la validación de las identificaciones.
91
Discusión General
III.1.1 Optimización de método de aislamiento selectivo de péptidos y aplicación de bases de datos centradas en péptidos. Prueba de concepto en una línea celular humana de carcinoma de hígado
Los métodos de aislamiento selectivo RH0 y RH2 desarrollados con anterioridad por Betancourt y cols. (Betancourt et al., 2005) y Sánchez y cols. (Sanchez et al., 2006a) respectivamente, permiten seleccionar los péptidos según sus estados de carga en la mezcla compleja. Con el objetivo de determinar la eficiencia de los métodos de aislamiento selectivo existentes y la posible combinación de uno o varios de ellos en un mismo método analítico se realizó el estudio in silico de cuatro proteomas (E. coli, S. cerevisiae, M. Musculus, H. sapiens). La tabla 2 muestra el promedio de péptidos trípticos por proteína y el porcentaje de proteínas que cubren del proteoma cuando se emplean diferentes métodos de aislamiento selectivo (Tabla 2).
Tabla 2: Análisis in silico de 4 proteomas y estimación de la eficiencia de simplificación de la mezcla compleja de péptidos empleando diferentes métodos de aislamiento selectivo. a Proteínas totales en base de datos.
b
Porcentaje de péptidos trípticos promedio por Proteína. c Porcentaje de numero de proteínas
que se pueden identificar. Las columnas azules son los tres métodos de aislamiento selectivo de péptidos aplicados independientemente, mientras que la columna verde es el resultado de la aplicación de los tres métodos en un mismo experimento.
Organismo
Proteínas a
E. coli
4343
S. cerevisiae
6554
M. Musculus
16221
H. sapiens
19551
Promedio
-
Péptidos Trípticos Promedio. (Total) 14 (59207) 20 (129665) 24 391968 23 (450692) 20.25 (257883)
Péptidos Promedio. b (Cobertura del Proteomac)
RH0 4 (91,5) 9 (93,4) 8 (96,5) 8 (93,1) 7,25 (93,6)
RH1 7 (96,4) 8 (94,5) 11 (98,7) 10 (96,9) 9 (96,6)
RH2 3 (81,3) 3 (78,5) 5 (90,5) 5 (88,9) 4 (84,8)
COFRADIC 3,9 (90,6) 3,2 (82,8) 4,9 (86,3) 5,4 (87,5) 4,2 (87,9)
ICAT 2,1 (76,6) 3,6 (86,3) 4,9 (91,8) 5,3 (91,9) 3,2 (82,9)
RRnK 4,2 (85,1) 3,2 (82,8) 4,9 (86,3) 5,4 (87,5) 4,5 (84,8)
RH0-RH1-RH2 14 (99,5) 20 (99,6) 24 (99,8) 23 (99,7) 20,25 (99,7)
La combinación de los métodos RH0, RH2 y el grupo de péptidos que no están incluidos en estas dos fracciones (RH1), permite cubrir más del 99% del proteoma para todos los organismos analizados. Además, esta combinación de métodos permite la reducción de la complejidad de la mezcla compleja, pues cada fracción contiene solo 7,25, 9 y 4 péptidos trípticos por proteínas, respectivamente. Los resultados del análisis in silico muestran la posibilidad de establecer una técnica analítica que combine los métodos de aislamiento selectivo RH0 y RH2 y el análisis del 92
Discusión General
grupo de péptidos resultantes RH1, y de esta forma no desechar ninguna fracción de péptidos durante el análisis. Los resultados obtenidos en el artículo (I) permitieron proponer por primera vez la combinación de los métodos de aislamiento selectivo: RH0 (Betancourt et al., 2005), RH1 y RH2 (Sanchez et al., 2006a) para separar una mezcla compleja de péptidos en un solo método analítico. En este método se separan en un mismo flujo de trabajo tres grupos de péptidos según sus estados de carga: 1) RH0 (R+H=0): Péptidos neutros. No contienen Arginina o Histidina en sus secuencias. 2) RH1 (R+H=1): Péptidos monocargados. Contienen solo un residuo de Arginina o Histidina en su secuencia. 3) RH2 (R+H>1): Péptidos multicargados. Contienen más de un residuo de Arginina o Histidina en su secuencia. Como resultado de la combinación del método RH0 y RH2 se aísla un nuevo grupo de péptidos nombrado RH1 (R+H=1) complementario a las dos metodologías anteriores RH0 y RH2 como se demostró en el análisis in silico (Tabla 2). La aplicación del método analítico (RH0-RH1-RH2) en un extracto soluble de proteínas de una línea celular humana de carcinoma de hígado (Huh7) permitió la identificación en bases de datos de proteínas de 680 péptidos con un 1% de falsos positivos correspondientes a 415 proteínas. Aproximadamente un 22% (92) de las proteínas fueron identificadas exclusivamente en el grupo RH0, 20% (83) en RH1, 29% (121) en RH2, y el resto de las proteínas 29% (119) en al menos dos de las tres fracciones (artículo I). La selectividad del método analítico cuando se emplearon bases de datos de proteínas en la búsqueda fue de un 98% en todas las fracciones analizadas. Por esta razón, se diseñaron tres bases de datos centradas en péptidos para ser utilizadas por el programa de identificación Mascot (Perkins et al., 1999) similar a los estudios previos de aislamiento selectivo (Martens et al., 2005b, Gevaert et al., 2003, Van Damme et al., 2009a). Cada péptido en las bases de datos cumple las siguientes restricciones: entre 800 y 3500 Da de valor de masa y máximo 1 corte incompleto. Además la suma de la cantidad de residuos de Arginina (R) e Histidina (H) cumplen la regla: para el método RH0 (R+H=0), para RH1 (R+H=1) y para RH2 (R+H>1). La figura 9 (figura 2 B del artículo I) muestra el incremento en la cantidad de péptidos asignados cuando se emplean bases de datos centradas en péptidos con respecto a la estrategia tradicional de bases de datos de proteínas. Con el empleo de bases de datos centradas en péptidos la cantidad de péptidos identificados aumentó un 32% con respecto a la búsqueda en bases de datos de proteínas, incrementando un 24% el número de proteínas identificadas. El diseño bioinformático de bases de datos para cada una de las fracciones (RH0, RH1, RH2) restringe al programa de 93
Discusión General
búsqueda al explorar solo las secuencias probables en la muestra biológica, lo que reduce la introducción de falsos positivos en la identificación (problema de distracción) (Yen et al., 2006) y aumenta la calidad de las identificaciones (Martens et al., 2005b, Gevaert et al., 2003). En contraste con otros métodos de aislamiento selectivo (COFRADIC – Metionina, ICAT o COFRADIC-Cisteína) donde las selectividad del método analítico es menor que 90%, el método RH0-RH1-RH2 posibilita el empleo de bases de datos centradas en péptidos para incrementar la cantidad de proteínas identificadas en la muestra biológica.
Figura 9: Péptidos y Proteínas identificadas en una línea celular Huh7 de carcinoma de hígado. Cantidad de proteínas identificadas cuando se emplean bases de datos de proteínas (círculos pequeños) o centradas en péptidos (círculos grandes), respectivamente. Cantidad de péptidos identificados cuando se emplean bases de datos de proteínas (círculos pequeños) o centradas en péptidos (círculos grandes), respectivamente (Figura 2 B del artículo I).
III.1.2 Optimización del método de electroforesis en geles de poliacrilamida en ausencia de dodecil sulfato de sodio y aplicación de bases de datos centradas en péptidos. Prueba de concepto en una línea celular humana de cáncer de pulmón SDS-Free PAGE (Ramos et al., 2008) es un método electroforético recientemente propuesto por Ramos y colaboradores que permite separar los péptidos por su relación carga/masa es la electroforesis en geles de poliacrilamida en ausencia de dodecil sulfato de sodio. La metodología incluye un doble fraccionamiento peor electroforesis de proteínas y péptidos. Posterior a la separación de proteínas por SDS-PAGE y digestión enzimática en gel, los péptidos resultantes se transfieren y separan en un gel de poliacrilamida en ausencia de dodecil sulfato de sodio y se fraccionan en función de su relación carga/masa que poseen al pH de la solución tampón de separación. Seguidamente los péptidos se separan e identifican por LC-MS/MS. Este método combina tres principios ortogonales de separación, lo que permite un notable incremento en el número de proteínas identificadas en cada banda del gel (Ramos et al., 2008). 94
Discusión General
En al menos dos escenarios sería útil disponer de un sistema discontinuo de soluciones tampón para SDS-Free PAGE que permita la selección y separación de péptidos en un intervalo de pH ácido: 1) cuando se desee una mayor simplificación de la mezcla de péptidos sin afectar la cobertura total del proteoma al aislar una zona en particular de péptidos con una determinada carga/masa. 2) cuando se desea aumentar la capacidad resolutiva en la zona de mayor migración para identificar péptidos con modificaciones naturales (fosforilación, sulfatación) o con modificaciones introducidas por el analista (acetilación de grupos aminos primarios) que desplazan la distribución de pI de los péptidos hacia valores más ácidos.
Mediante el análisis in silico de varios proteomas (E. coli, S.
cerevisiae, A. thaliana, D.
melanogaster, M. musculus y H. sapiens), en el artículo II se estudió la distribución de péptidos por proteínas para diferentes valores de punto isoeléctrico. El punto isoeléctrico se calculó con la función obtenida por Bjellqvist y colaboradores (Bjellqvist et al., 1993) y la libraría de programas en Perl (AAManager) basada en InSilicoSpectro (Colinge et al., 2006). Paralelamente se calculó el número de proteínas que tienen al menos un péptido para cada valor de punto isoeléctrico y el porcentaje de este número respecto al proteoma total (cobertura del proteoma). (A)
(B)
Arabidopsis thaliana
Drosophila melanogaster
Escherichia coli
Homo sapiens
Mus musculus
Saccharomyces serevisiae
Figura 10: (A) Distribución de cantidad de péptidos por Proteína y (B) Cobertura del Proteoma para diferentes valores de punto isoeléctrico en el rango de 2-12 unidades de pH. Estudio sobre seis proteomas anotados en la base de datos UNIPROT versión 4.3 (Información suplementaria II del artículo II).
95
Discusión General
La Figura 10 (información suplementaria II del artículo II) muestra los resultados para los 6 proteomas en el intervalo de pI 2-12. El estudio in silico demostró que cuando se selecciona como valor de pI 5,5 se produce una simplificación de la complejidad de la muestra de péptidos, de 21 péptidos por proteínas (todo el intervalo de pI, de 2 a 12) a 9 (promedio para los 6 proteomas). La selección de este grupo de péptidos permite la identificación de más del 90% de las proteínas que componen los 6 proteomas. Esta cobertura de proteoma se mantiene hasta valores de pI superiores a 4,5 (información suplementaria II del artículo II). En las gráficas se señalan con líneas discontinuas azules y rojas la línea de corte para pI 5,5 y 6,8 (valor de corte experimental obtenido para el sistema discontinuo de soluciones tampón Tris/glicina) respectivamente.
Figura 11: Péptidos y Proteínas identificadas en una línea celular H125 de cáncer de pulmón. (A) y (B) cantidad de proteínas identificadas cuando se emplean bases de datos de proteínas o centradas en péptidos, respectivamente. (C) y (D) cantidad de péptidos identificados cuando se emplean bases de datos de proteínas o centradas en péptidos, respectivamente.
Como prueba de concepto un extracto de proteínas de una línea celular humana de cáncer de pulmón (H125) fue analizada empleando el método analítico PAGE en ausencia de SDS, seleccionando pH 5,5 para sistema discontinuo de soluciones tampón. La cantidad de péptidos y proteínas identificadas en bases de datos de proteínas fue de 155 y 106, respectivamente. El análisis de los péptidos identificados empleando la herramienta PRIDE Inspector demostró que el 95% de los péptidos tienen punto isoeléctrico menor que 5,5. El diseño de una base de datos centrada en péptidos con puntos isoeléctricos menores o iguales que 5,5 y 1 corte incompleto se utilizó para realizar la identificación de los espectros de la línea celular H125. La Figura 11 muestra la cantidad de proteínas (A y B) y péptidos (C y D) identificados cuando se emplearon bases de datos de proteínas (A y C) y bases de datos centradas en péptidos (B y D). Cuando se 96
Discusión General
emplearon bases de datos centradas en péptidos la cantidad de proteínas identificadas se incrementó en un 13%, mientras que la cantidad de péptidos incremento en un 23%. Este aumento de la cantidad de proteínas y péptidos identificados esta en correlación con la selectividad del método electroforético y la cantidad de proteínas analizadas. III.2 Identificación de proteínas con el empleo del ion fragmento b1 de los péptidos multicargados aislados selectivamente y modificados con isotiocianato de fenilo. Prueba de concepto en mezcla compleja de proteínas de Escherichia coli La modificación química de péptidos con PITC ha sido utilizada con éxito en la identificación de proteínas modelos (Brancia et al., 2001). Esta estrategia se basa en la asignación del primer residuo de la secuencia (N- terminal) del péptido a partir del ión fragmento b1 del espectro MS/MS. La fragmentación de péptidos modificados con PITC ha sido descrita en condiciones de baja energía (~10-20 eV) (Summerfield et al., 1997). Esta energía es suficiente para provocar la ruptura del primer enlace amida y de esta manera obtener el ión fragmento b1. No obstante, con esta energía es poco probable que se observen otros fragmentos que correspondan a rupturas del esqueleto carbonado. En el artículo III se estudiaron mediante ESI-MS/MS las digestiones trípticas de las proteínas BSA y estreptoquinasa recombinante (rSK) con el objetivo de validar el patrón de fragmentación que produce la modificación química con PITC descrito por Gaskell y colaboradores (Diego et al., 2010). La tabla 1 del artículo III muestra la presencia del ion fragmento b1 y yn-1 en todos los espectros MS/MS de los péptidos trípticos ambas de proteínas. Aun cuando se puedan identificar péptidos y proteínas empleando la información del extremo Nterminal, el desarrollo de un método de identificación en experimentos de proteómica de alto flujo presenta dos retos fundamentales (Wang et al., 2009). Primero, el empleo de un método de identificación que utilice la modificación química isotiocianato de fenilo (PITC) necesitaba el desarrollo de una función de puntuación y algoritmo computacional para identificar los péptidos modificados. La mayoría de los algoritmos de identificación en bases de datos se basan en la asignación de los iones fragmentos del espectro de masas (Colinge et al., 2003, Craig and Beavis, 2004, Eng et al., 1994, Perkins et al., 1999). Segundo, la complejidad de la mezcla de péptidos en experimentos de proteómica disminuye la posibilidad de identificar secuencias empleando solamente el residuo N- terminal y la masa de los péptidos.
97
Discusión General
Figura 12: Cantidad de péptidos únicos para los proteomas trípticos de E. coli (Izquierda) y H. Sapiens (Derecha) para diferentes valores de exactitud de los espectrómetros de masas (50-1 ppm) (Figura 5 del artículo III:).
El análisis in silico de la Figura 11 (figura 5 del artículo III) muestra la cantidad de péptidos únicos cuando se combinan la masa del precursor (péptido), el residuo N- terminal y el método de aislamiento selectivo RH2, para el proteoma de E. coli y H. sapiens. Para el proteoma de E. coli alrededor del 20% de los péptidos trípticos RH2 son únicos para un valor de exactitud en masa de 20 ppm. Cuando adicionalmente se considera el residuo N- terminal de cada péptido la cantidad de péptidos únicos aumenta hasta 45%. Cuando se emplean espectrómetros de mejor exactitud (5 ppm – Orbitraps) se pueden obtener un 80% de péptidos únicos en la base de datos. Esta demostración teórica abrió la posibilidad de identificar péptidos en mezclas complejas empleando solamente péptidos RH2, la masa molecular y el residuo N- terminal en experimentos de proteómica de alto flujo. 𝐼
𝐼𝑛 = 𝐼 𝑖
𝑚
Ecuación 3 𝐼
Score = 𝑂𝑛 Ecuación 4 𝑖
Basándonos en el patrón de fragmentación de los péptidos modificados con PITC se propuso una función de puntuación empleando las ecuaciones 3 y 4 (ecuaciones 2 y 3 del artículo III) que utilizan la intensidad del fragmento b1 y la masa de los péptidos como criterio de identificación en bases de datos centradas en péptidos. El programa computacional nombrado NTerminal fue implementado en Java y emplea bases de datos de secuencias y ficheros de espectros de masas para realizar la identificación de los péptidos presentes en la muestra. Con el objetivo de validar el método de identificación propuesto se analizó una mezcla compleja de proteínas citosólicas de E. coli empleando un espectrómetro QTOF 2. El programa bioinformático NTerminal identificó 151 péptidos correspondiente a 136 proteínas (tabla 3, artículo III). El mismo procedimiento 98
Discusión General
experimental se realizó sin separar la muestra compleja con el método RH2 y se identificaron 116 péptidos y 107 proteínas. Mientras, que la cantidad de péptidos identificados cuando no se modifican los péptidos con PITC, ni se aplica el aislamiento selectivo (RH2) es de 69. III.3 Identificación de proteínas empleando el aminoácido N- terminal e iones fragmentos en el espectro de masas de los péptidos modificados con isotiocianato de fenilo. Prueba de concepto en mezcla compleja de proteínas de Escherichia coli Los resultados del artículo III demostraron la posibilidad de identificar péptidos modificados con isotiocianato de fenilo en una mezcla compleja. El sistema de puntuación para la identificación fue validado con una muestra de péptidos no modificados (control negativo) y un estudio in silico (artículo III, tabla 4). Sin embargo, en la figura 13 se puede observar que existe información en el espectro de masas (iones fragmentos), además del ion fragmento b1, que pueden ser empleados por los algoritmos de identificación, (artículo IV, figura 1) y (artículo V, figura 1 suplementaria).
Figura 13: Representación del espectro de masas del péptido QAQYNFVGASEQLESAHR modificado con isotiocianato de fenilo, (artículo IV, figura 1) y (artículo V, figura 1 suplementaria).
Dos estrategias de identificación fueron implementadas para emplear todos los iones fragmentos del espectro de masas además del ion b1. La primera estrategia y herramienta bioinformática se basa en algoritmos de etiquetas de secuencia (del inglés, sequence tag) (Mortz et al., 1996, Frank
99
Discusión General
et al., 2005) y patrones de fragmentación (artículo IV). La segunda estrategia y herramienta bioinformática se basa en la identificación de los iones fragmentos del espectro de masas empleando los iones fragmentos teóricos de los péptidos en bases de datos (artículo V). III.3.1 Identificación empleando patrones de fragmentación y etiquetas de secuencia. Herramienta Bioinformática: HI-bone En el artículo IV se desarrolló un método de identificación híbrida basado en algoritmos de búsqueda en bases de datos, secuenciación de novo y patrones de fragmentación. La plataforma bioinformática demostró la posibilidad de identificar péptidos y proteínas empleando el fragmento b1, patrones de iones fragmentos que son altamente probables en los péptidos modificados con isotiocianato de fenilo, etiquetas de secuencia y búsqueda en bases de datos. Las ecuaciones 5, 6, 7, 8 (ecuaciones 1, 2, 3 y 4 del artículo IV) permitieron definir la función de puntuación final para la identificación de péptidos en mezclas complejas. 1
𝑏1𝑆𝑐𝑜𝑟𝑒 = 𝑂
𝑆𝑐𝑜𝑟𝑒𝑅 =
1
𝑂𝑖
Ecuación 5
𝑖
𝑇𝑎𝑔𝑆𝑐𝑜𝑟𝑒 = ∑𝐴𝑖=0
Ecuación 6 1
Ecuación 7
𝑂𝑖
𝐺𝑙𝑜𝑏𝑎𝑙𝑆𝑐𝑜𝑟𝑒 = �(∑𝑅𝑖=0 𝑆𝑐𝑜𝑟𝑒𝑅 ) × 𝑅3 � + 𝑇𝑎𝑔𝑆𝑐𝑜𝑟𝑒
Ecuación 8
La ecuación 5 permite la identificación del aminoácido N-terminal empleando el ion fragmento b1 que siempre aparece en los péptidos modificados con isotiocianato de fenilo. Todas las ecuaciones de puntuación empleadas en el algoritmo se basan en el orden de la intensidad de los iones fragmentos empleados (Bern et al., 2004) en contraste con otros algoritmos que utilizan la intensidad de cada ion (Elias et al., 2004, Gibbons et al., 2004). El empleo de patrones de fragmentación se basa en el estudio bioinformático de los iones fragmentos que aparecen en los péptidos modificados con isotiocianato de fenilo. Las series yn” son más probables cuando el residuo N-terminal es el aminoácido Prolina o Glicina. De igual forma se produce la ruptura del enlace amida adyacente a los aminoácidos Aspártico y Glutámico. Similares resultados han sido observados por Mann y colaboradores (Michalski et al., 2012). La ecuación 6 define la contribución de los patrones de fragmentación presente en el espectro de masas.
100
Discusión General
El algoritmo de identificación de etiquetas de secuencia analiza todas las señales del espectro de masas y encuentra una serie de secuencias de dos o tres aminoácidos que expliquen la diferencia en masas entre dos señales del espectro de masas asignables a cualquiera de los 20 aminoácidos existentes. En el algoritmo bioinformático el espectro de masas es representado como un grafo donde cada nodo es una señal del espectro de masas y los vértices son los aminoácidos que explican la diferencia en masas entre dos nodos. A diferencia de los algoritmos actuales (Tabb et al., 2003, Sunyaev et al., 2003, Frank and Pevzner, 2005), la función de puntuación de cada etiqueta de secuencia depende del orden de las intensidades de las señales.
Figura 14: (A) Las curvas ROC comparan el número de identificaciones positivas y el número de identificaciones falsas positivas para diferentes valores de FDR. en un rango de 0-6%, para las funciones de puntuación del programa HI-bone (ScoreR, TagScore, GlobalScore). (B) Diagrama de Venn de la distribución de espectros identificados empleando los programas HI-bone, Mascot, y SEQUEST (Figura 4 artículo IV).
La figura 14-A (figura 4 A del artículo IV) representa la contribución de cada función de puntuación del algoritmo bioinformático en la asignación de los péptidos modificados con isotiocianato de fenilo. El GlobalScore de los péptidos asignados permite la identificación de 1614 espectros de una muestra compleja de proteínas de E. coli. La evaluación independiente de cada función de puntuación similar a los estudios realizados por Tabb y colaboradores con las funciones de puntuación del programa de identificación DirecTag (Tabb et al., 2008) abren la
101
Discusión General
posibilidad de combinación de estas funciones a péptidos modificados con isotiocianato de fenilo. El diagrama de Venn de la figura 14-B muestra la comparación entre los programas Mascot, SEQUEST y HI-bone en la identificación de péptidos modificados con isotiocianato de fenilo. De los 1614 espectros asignados por el programa bioinformático HI-bone, 393 son identificados únicamente por este método. Mientras que los programas Mascot y SEQUEST identifican respectivamente el 2% y 3% de las asignaciones. El solapamiento entre las identificaciones de los programas Mascot y SEQUEST coinciden con resultados previos obtenidos por Balgley y colaboradores (Balgley et al., 2007). Los péptidos identificados por el programa HI-bone resultaron en 100 proteínas más comparadas con los programas SEQUEST y Mascot. Para realizar el análisis de la calidad de los experimentos de proteómica se desarrolló y empleó una plataforma bioinformática llamada PRIDE Inspector (artículo VI). El propósito fundamental de esta herramienta es el análisis y validación de los experimentos de proteómica almacenados en el repositorio de proteómica PRIDE (Vizcaino et al., 2012) pero puede ser empleada en el análisis de los resultados de proteómica. La figura 2 del artículo VI muestra los diferentes gráficos y vistas de la información del experimento. La vista de proteínas “Proteins” muestra todas las proteínas identificadas, así como sus características (secuencia, valor de la función de puntuación, punto isoeléctrico, cantidad de péptidos por proteínas).
La vista de péptidos
“Peptides” y espectros de masas “Spectrums & Cromatograms” muestran las propiedades de los péptidos identificados y de los espectros de masas obtenidos durante el experimento LC-MS/MS. La vista de gráficos “Summary Charts” muestra diferentes gráficos de evaluación de la calidad del experimento de proteómica. La plataforma bioinformática PRIDE Inspector permitió analizar diferentes formatos de ficheros de espectros de masas y resultados de identificación con el empleo de la libraría jmzReader (Griss et al., 2012) y jmzidml (Reisinger et al., 2012), respectivamente. La estimación de punto isoeléctrico de las proteínas y péptidos identificados en PRIDE Inspector permitió evaluar y analizar la calidad de las asignaciones (Heller et al., 2005, Horth et al., 2006). La visualización y análisis de los espectros de masas y de los patrones de fragmentación del artículo VI fueron realizados con la plataforma PRIDE Inspector. III.3.2 Identificación empleando iones fragmentos teóricos. Herramienta Bioinformática: SIM En el artículo V se implementó un método de búsqueda en bases de datos para complementar el espacio de soluciones (péptidos identificados) que no cubre el programa bioinformático HI-bone 102
Discusión General
(artículo IV). El algoritmo bioinformático propuesto se basa en la identificación del residuo Nterminal y el acoplamiento entre el espectro teórico del péptido en la base de datos y el espectro experimental bajo estudio. Una vez obtenida la lista de péptidos candidatos en la base de datos, se predicen los espectros teóricos a partir de secuencias contenidas en un banco de datos. Con el objetivo de determinar los iones fragmentos del espectro teórico se predicen los picos isotópicos teniendo en cuenta las perdidas neutras. Finalmente la función de puntuación está determinada por el producto de todos los iones fragmentos similares del espectro teórico y el experimental. La herramienta bioinformática SIM (del inglés, Spectrum Identification Machine) fue desarrollada y estudiada para la identificación de péptidos modificados con isotiocianato de fenilo y sin modificar. La figura 1 del artículo V demuestra que cuando se emplea la combinación de la función de puntuación e identificación del N- terminal (With PITC logic) en combinación con la función de búsqueda en bases de datos se identifican 326 espectros más que cuando se emplea solamente la función de búsqueda en bases de datos para péptidos modificados con isotiocianato de fenilo. La diferencia es aún mayor cuando se incrementa el espacio de búsqueda a péptidos semi-trípticos (381) y no-trípticos (1600). La sensibilidad de las herramientas de búsqueda en bases de datos disminuye con el tamaño de las bases de datos (Yen et al., 2006). SIM permite una mejor sensibilidad (mayor cantidad de péptidos y proteínas identificadas) con la misma especificidad (1% FDR) cuando se explora el espacio de búsqueda semi-tríptico y no-tríptico lo que permitirá un mejor análisis en experimentos de proteómica como los estudios de venenos de serpientes (Tashima et al., 2012), o estudios de meta-proteómica (Muth et al., 2013). La comparación de los resultados de la herramienta bioinformática SIM con los programas de búsqueda en bases de datos Mascot y SEQUEST empleando los datos experimentales de los artículos V y VI muestran la superioridad en sensibilidad de este método (Figura 15). La cantidad de espectros identificados con el programa Mascot y SEQUEST fue de 1185 y 1099, respectivamente (Figura 14-B), mientras que el programa SIM permitió asignar a secuencia más de 1246 espectros de masas. El número de espectros identificados es mayor cuando se emplea el programa HI-bone comparado con los programas de búsqueda en bases de datos (SIM, SEQUEST, Mascot). De igual forma, las identificaciones realizadas únicamente por el programa HI-bone son seis veces mayores que los identificados con las otras aplicaciones bioinformáticas. El empleo de tres estrategias de identificación: etiquetas de secuencia (Tabb et al., 2003, Sunyaev et al., 2003, Frank and Pevzner, 2005, Tabb et al., 2008), patrones de fragmentación, identificación en bases de datos empleando el residuo N- terminal propuesto en el artículo III, convierten a HI-bone en 103
Discusión General
el algoritmo más eficiente para el análisis de los péptidos modificados con isotiocianato de fenilo. La combinación de los resultados de HI-bone y SIM con lógica de PITC permite identificar 1754 espectros de masas, mientras que la cantidad de identificaciones compartidas entre HI-bone y SIM fue de 1106.
Figura 15: Diagrama de Venn de los espectros identificados de una mezcla compleja de péptidos modificados con isotiocianato de fenilo, empleando cuatro diferentes programas de identificación: HIbone (1614 identificaciones), SEQUEST (1099 identificaciones), Mascot (1185 identificaciones) y SIM con la lógica de PITC (1246 identificaciones).
El número de proteínas identificadas por el programa SIM fue 434, lo que representa un aumento de más de 10 proteínas comparados con los programas SEQUEST (421) y Mascot (418) (tabla 1 artículo IV). Cuando se combinaron las proteínas identificadas por los dos programas bioinformáticos desarrollados en este trabajo (SIM y HI-bone) la cantidad de proteínas identificadas se incrementó hasta 551, más de un 30% de las proteínas identificadas con los programas SEQUEST y Mascot. La combinación de varias estrategias de identificación y programas bioinformáticos permiten no solo incrementar el número de proteínas identificadas sino que también la validación de las identificaciones puesto que por cada proteína se incrementa además el número de espectros y péptidos identificados (Searle et al., 2008, Kwon et al., 2011). Un mayor número de proteínas identificadas y de péptidos por proteínas implica la obtención de mejores resultados en la cuantificación y caracterización de la muestra biológica bajo estudio.
104
Discusión General
III.4 Identificación de proteínas empleando métodos de aislamiento selectivo de péptidos en combinación con propiedades químico-físicas de los péptidos. Prueba de concepto en experimento de proteómica sobre mezcla compleja de proteínas de Drosophila melanogaster Los artículos I y II demostraron la posibilidad de emplear bases de datos de péptidos para reducir la complejidad de la muestra de péptidos durante la etapa de identificación de proteínas. Adicionalmente, los resultados de los artículos III, IV, V demostraron la posibilidad de identificar péptidos y proteínas empleando el residuo N- terminal, la masa molecular de los péptidos, así como bases de datos de péptidos en experimentos de proteómica. Pero en la actualidad en un experimento de proteómica además del espectro MS/MS y de la masa de los péptidos, se obtienen el punto isoeléctrico, el tiempo de retención y otras propiedades químico físicas que no han sido de manera integrada empleadas por ningún método de identificación, ni programa computacional. Empleando este conocimiento se realizó un estudio in silico y experimento de proteómica para evaluar la posibilidad de desarrollar un nuevo método para identificar péptidos y proteínas empleando el residuo N- terminal, la masa, el punto isoeléctrico, el tiempo de retención en combinación con los métodos de aislamiento selectivo. La masa de los péptidos es el primer criterio que emplean los programas de búsqueda para la identificación de péptidos en bases de datos. La figura 1 del artículo VII muestra la cantidad de péptidos únicos (A) y cobertura del proteoma (B) teniendo únicamente como criterio de identificación la masa de los péptidos; para un rango de exactitud en masa (diferentes espectrómetros de masas) de 0,5 – 10 ppm. Para un proteoma relativamente simple como E. coli (4300 proteínas) el número de péptidos únicos aumenta nueve veces al incrementar la exactitud de 10 ppm a 1 ppm. Empleando 5 ppm de exactitud (Orbitrap) para los proteomas menos complejos (E. coli, C. elegans, S. cerevisiae) se puede obtener una cobertura de más del 40%, mientras que para proteomas más complejos como H. sapiens la cobertura del proteoma es menor de 20%. Es por ello que los programas de búsqueda necesitan la información contenida en el espectro MS/MS.
105
Discusión General
Figura 16: Efecto de la combinación de diferentes propiedades químico-físicas en combinación con los métodos de aislamiento selectivo de péptidos en el porciento de péptidos únicos y cobertura del proteoma para valor de exactitud de masa 10 ppm y error de punto isoeléctrico 0.2. (A) y (B): Porciento de péptidos únicos y cobertura del proteoma de E. coli. (C) y (D): Porciento de péptidos únicos y cobertura del proteoma de H. sapiens (Figura 3 del artículo VI).
La figura 16 (figura 3 del artículo VII) muestra la cantidad de péptidos únicos cuando se emplean diferentes propiedades químico-físicas de los péptidos en la mezcla compleja (masa, punto isoeléctrico, N- terminal, tiempo de retención y los métodos de aislamiento selectivo) a valores de exactitud de 10 ppm para la masa, 0.2 unidades de pI y 2 minutos de Rt. Cuando se emplea la masa de los péptidos, el residuo N- terminal (nTerm), el método de aislamiento selectivo RH2 se obtiene para E. coli (figura 16-A) más del 40% de péptidos únicos y un 90% de cobertura del proteoma. Adicionando el tiempo punto isoeléctrico y el tiempo de retención a la combinación 106
Discusión General
anterior se puede obtener un 80% de péptidos únicos y casi el 100% de cobertura del proteoma de E. coli. Mientras que esta misma combinación mass-pI-nTerm-Rt y el método de aislamiento selectivo RH1 en el proteoma de H. sapiens se obtuvo un 60% de péptidos únicos y una cobertura de proteoma de 95%. Cargile y colaboradores (Cargile et al., 2004, Cargile and Stephenson, 2004) estudiaron con anterioridad la posibilidad teórica de identificar péptidos y proteínas empleando solamente la masa, el tiempo de retención y el punto isoeléctrico. Los resultados demostraban que era posible la identificación de péptidos y proteínas para proteomas simples como E. coli, pero cuando la complejidad de la muestra de péptidos crecía, el método era poco eficiente. La figura 3 del artículo VII demostró que empleando métodos de aislamiento selectivo para reducir la complejidad de la muestra de péptidos y el empleo del residuo N- terminal permitiría identificar casi el 90% del proteoma para H. sapiens. Teóricamente, el método analítico que más proteínas y péptidos permite identificar es aquel que combina la modificación química de la mezcla de péptidos con PITC, la separación de la mezcla de péptidos en diferentes fracciones empleando una técnica electroforética y finalmente la separación de estas fracciones en los tres grupos de cargas empleando el método de aislamiento selectivo RH0-RH1-RH2 (Figura 16). El estudio de una mezcla compleja de péptidos trípticos de D. melanogaster fraccionada mediante OGE y analizada en un espectrómetro de masas FT-LTQ permitió demostrar experimentalmente la posibilidad de identificar péptidos y proteínas empleando el punto isoeléctrico, la masa y el tiempo de retención. Los resultados mostrados en la figura 5 del artículo VII demuestran que empleando solamente la información de la masa, el punto isoeléctrico y el tiempo de retención de cada péptido se logran identificar los 25% de los péptidos analizados en el espectrómetro de masas correspondiente con un 50% de las proteínas identificables. Cuando se incluye la información del residuo N- terminal se pueden identificar el 80% de los péptidos secuenciados en el espectrómetro de masas correspondiente con el 95% de las proteínas identificables. Un componente fundamental en el método de identificación propuesta en el artículo VII basada en empleo del N- terminal, el punto isoeléctrico, la masa, el tiempo de retención y la utilización de métodos de aislamiento selectivo de péptidos es la selección de las funciones de puntuación de estas propiedades químico-físicas. El punto isoeléctrico es la propiedad después del residuo N- terminal que más incrementa el número de péptidos identificados en la muestra biológica (figura 5 artículo VII). Con el objetivo de disminuir el error de 0,5 en la estimación del punto isoeléctrico empleando la función desarrollada por Bjellqvist y colaboradores se desarrolló una
107
Discusión General
nueva función de cálculo de punto isoeléctrico que permitirá estimar de forma más precisa esta propiedad químico-física. III.5 Estimación de punto isoeléctrico de péptidos empleando máquinas de soporte vectorial y propiedades experimentales de aminoácidos La información del punto isoeléctrico experimental y el valor teórico del péptido identificado ha sido empleado recientemente como método de validación de los resultados de espectrometría de masas (Reiter et al., 2009, Heller et al., 2005). Igualmente, la utilización del punto isoeléctrico como propiedad químico-física en el método de identificación exige el desarrollo de algoritmos de estimación que correlacionen con mejor precisión el valor experimental y teórico de esta propiedad. En el artículo VIII se desarrolló una nueva función de estimación de punto isoeléctrico basada en la función propuesta por Bjellqvist y colaboradores (Bjellqvist et al., 1993); máquinas de soporte vectorial y propiedades experimentales de aminoácidos almacenados en la base de datos AAIndex (Kawashima et al., 2008). Los métodos de optimización basados en máquinas de soporte vectorial permitieron explorar un total de 555 variables entre las propiedades de AAindex y diferentes descriptores moleculares como la polaridad, refractividad y la superficie molecular. Un total de 7391 péptidos identificados de una mezcla compleja de péptidos de D. melanogaster fraccionada con OGE y analizada en un espectrómetro de masas FT-LTQ se emplearon para la optimización de la función de estimación. En una primera etapa del algoritmo, se eliminaron las variables que están altamente correlacionadas (figura 1 artículo VIII) para reducir la complejidad computacional y la cantidad de variables a explorar. La función de estimación final se basa en el algoritmo propuesto por Bjellqvist y colaboradores, así como el descriptor experimental propuesto por Zimmerman (Kawashima et al., 2008). La función de cálculo obtenida predice el punto isoeléctrico teórico con una correlación de 0,98 con el valor experimental. La figura 17 (figura 2 del artículo VIII) muestra la comparación entre el modelo matemático desarrollado con las funciones de cálculo de Bjellqvist (Bjellqvist et al., 1993) y Cargile (Cargile et al., 2008). La función de estimación predice el punto isoeléctrico con una correlación de 0,98, mientras que las funciones de Bjellqvist y Cargile lo hacen con valores de 0,96 y 0,91, respectivamente. Mientras que la desviación estándar promedio para todo el intervalo de pH fue de 0,3 comparada con 0,5 para los otros dos métodos de cálculo. Los resultados obtenidos son considerablemente mejores en las fracciones básicas donde la desviación estándar promedio fue de 0,2 comparada con 0,52 y 0,4 para los métodos de Bjellqvist y Cargile, respectivamente. Para 108
Discusión General
demostrar la independencia entre el modelo matemático propuesto y los datos analizados en el experimento de D. melanogaster y la consistencia del modelo matemático para diferentes condiciones experimentales; los datos generados por Heller y colaboradores (Heller et al., 2005) fueron analizados. La correlación del modelo propuesto fue de 0,94, mientras que para las funciones de Bjellqvist y Cargile fueron
de
0,91
y
0,85,
respectivamente. La función de cálculo basada en máquinas
de
soporte
vectorial
y
descriptores químico-físicos se empleó para
determinar
asignaciones
la
cantidad
falso-positivos
de e
incrementar la confiabilidad de las identificaciones
reportadas
en
el
experimento de D. melanogaster. Los resultados de la tabla 2 del artículo VII posibilitaron identificar 716 péptidos fuera del rango de punto isoeléctrico para
la
fracción
donde
fueron
identificados. Para el caso de los péptidos identificados con una mejor función de puntuación la función de Figura 17: Relación de punto isoeléctrico experimental y el valor teórico estimado con las funciones de Maquinas de Soporte Vectorial (A), de Cargile (B) y de Bjellqvist (C) (figura 2 del artículo VIII).
cálculo de pI solo determino un 2,7% de péptidos fuera del rango de pI, mientras que para las identificaciones con
menor
valor
de
función
de
puntuación la estimación se determinó un 20% de péptidos fuera del rango de pI. Por lo tanto el método de algoritmo bioinformático para el cálculo del punto isoeléctrico obtenido en el artículo 109
Discusión General
VIII puede emplearse como método ortogonal de eliminación de falsos positivos en los experimentos de focalización isoeléctrica como ha sido sugerido en estudios anteriores (Cargile et al., 2004, Krijgsveld et al., 2006, Horth et al., 2006, Heller et al., 2005).
110
Conclusiones
IV. Conclusiones 1. La herramienta bioinformática AAManager permite el estudio y la creación de bases de datos centradas en péptidos.
2. La herramienta bioinformática PRIDE Inspector soporta todos los formatos estándares de proteómica y visualiza los espectros de masas, las propiedades químico-físicas y el análisis estadístico de los resultados.
3. La identificación de proteínas se incrementa cuando se emplean bases de datos centradas en péptidos en comparación con las bases de datos de proteínas en experimentos de aislamiento selectivo basados en estado de carga (RH0-RH1-RH2) y el método de fraccionamiento SDSFree PAGE en fracción ácida.
4. La masa molecular, el aminoácido N- terminal en combinación con bases de datos centradas en péptidos permite la identificación de péptidos multicargados (RH2) modificados con isotiocianato de fenilo en experimentos de proteómica de alto flujo.
5. El número de péptidos identificados con las herramientas HI-bone y SIM es superior a los obtenidos con los programas Mascot, SEQUEST en el análisis de péptidos modificados con isotiocianato de fenilo.
6. El análisis in silico de seis proteomas en combinación permitió identificar las bases teóricas para un nuevo método de identificación basada en la asignación del aminoácido N- terminal, el punto isoeléctrico, el tiempo de retención y el empleo de bases de datos centradas en péptidos.
7. La estimación del punto isoeléctrico de péptidos basada en máquinas de soporte vectorial y descriptores moleculares correlaciona en un 0.98 el valor teórico y experimental de punto isoeléctrico. La correlación obtenida es superior a los métodos algoritmos establecidos en la actualidad.
111
Recomendaciones
V. Recomendaciones 1. Desarrollar un componente para exportar los resultados de los programas HI-bone y SIM en un formato que pueda ser utilizado en experimentos de proteómica cuantitativa. 2. Aplicar la estrategia integrada de proteómica cuantitativa.
112
Referencias Bibliográficas
VI. Referencias Bibliográficas AEBERSOLD, R. 2011. Editorial: from data to results. Mol Cell Proteomics, 10, E111 014787. AEBERSOLD, R. & MANN, M. 2003. Mass spectrometry-based proteomics. Nature, 422, 198207. ALLMER, J. 2011. Algorithms for the de novo sequencing of peptides from tandem mass spectra. Expert Rev Proteomics, 8, 645-57. ANGEL, T. E., ARYAL, U. K., HENGEL, S. M., BAKER, E. S., KELLY, R. T., ROBINSON, E. W. & SMITH, R. D. 2012. Mass spectrometry-based proteomics: existing capabilities and future directions. Chem Soc Rev, 41, 3912-28. APWEILER, R., BAIROCH, A. & WU, C. H. 2004. Protein sequence databases. Curr Opin Chem Biol, 8, 76-80. BALGLEY, B. M., LAUDEMAN, T., YANG, L., SONG, T. & LEE, C. S. 2007. Comparative evaluation of tandem MS search algorithms using a target-decoy search strategy. Mol Cell Proteomics, 6, 1599-608. BERN, M., GOLDBERG, D., MCDONALD, W. H. & YATES, J. R., 3RD 2004. Automatic quality assessment of peptide tandem mass spectra. Bioinformatics, 20 Suppl 1, i49-54. BETANCOURT, L., GIL, J., BESADA, V., GONZALEZ, L. J., FERNANDEZ-DE-COSSIO, J., GARCIA, L., PAJON, R., SANCHEZ, A., ALVAREZ, F. & PADRON, G. 2005. SCAPE: a new tool for the Selective CApture of PEptides in protein identification. J Proteome Res, 4, 491-6. BJELLQVIST, B., HUGHES, G. J., PASQUALI, C., PAQUET, N., RAVIER, F., SANCHEZ, J. C., FRUTIGER, S. & HOCHSTRASSER, D. 1993. The focusing positions of polypeptides in immobilized pH gradients can be predicted from their amino acid sequences. Electrophoresis, 14, 1023-31. BRANCIA, F. L., BUTT, A., BEYNON, R. J., HUBBARD, S. J., GASKELL, S. J. & OLIVER, S. G. 2001. A combination of chemical derivatisation and improved bioinformatic tools optimises protein identification for proteomics. Electrophoresis, 22, 552-9. BROWNE, C. A., BENNETT, H. P. & SOLOMON, S. 1982. The isolation of peptides by highperformance liquid chromatography using predicted elution positions. Anal Biochem, 124, 201-8. CAGNEY, G., AMIRI, S., PREMAWARADENA, T., LINDO, M. & EMILI, A. 2003. In silico proteome analysis to facilitate proteomics experiments using mass spectrometry. Proteome Sci, 1, 5. CARGILE, B. J., BUNDY, J. L., FREEMAN, T. W. & STEPHENSON, J. L., JR. 2004. Gel based isoelectric focusing of peptides and the utility of isoelectric point in protein identification. J Proteome Res, 3, 112-9. CARGILE, B. J., SEVINSKY, J. R., ESSADER, A. S., EU, J. P. & STEPHENSON, J. L., JR. 2008. Calculation of the isoelectric point of tryptic peptides in the pH 3.5-4.5 range based on adjacent amino acid effects. Electrophoresis, 29, 2768-78. CARGILE, B. J. & STEPHENSON, J. L., JR. 2004. An alternative to tandem mass spectrometry: isoelectric point and accurate mass for the identification of peptides. Anal Chem, 76, 267-75. CASTELLANOS-SERRA, L. & PAZ-LAGO, D. 2002. Inhibition of unwanted proteolysis during sample preparation: evaluation of its efficiency in challenge experiments. Electrophoresis, 23, 1745-53. CHELIUS, D. & SHALER, T. A. 2003. Capture of peptides with N-terminal serine and threonine: a sequence-specific chemical method for Peptide mixture simplification. Bioconjug Chem, 14, 205-11.
113
Referencias Bibliográficas
CHERNUSHEVICH, I. V., LOBODA, A. V. & THOMSON, B. A. 2001. An introduction to quadrupole-time-of-flight mass spectrometry. J Mass Spectrom, 36, 849-65. COLINGE, J. & BENNETT, K. L. 2007. Introduction to computational proteomics. PLoS Comput Biol, 3, e114. COLINGE, J., MASSELOT, A., CARBONELL, P. & APPEL, R. D. 2006. InSilicoSpectro: an open-source proteomics library. J Proteome Res, 5, 619-24. COLINGE, J., MASSELOT, A., GIRON, M., DESSINGY, T. & MAGNIN, J. 2003. OLAV: towards high-throughput tandem mass spectrometry data identification. Proteomics, 3, 1454-63. COOKS, R. G., BUSCH, K. L. & GLISH, G. L. 1983. Mass spectrometry: analytical capabilities and potentials. Science, 222, 273-91. COTE, R. G., JONES, P., APWEILER, R. & HERMJAKOB, H. 2006. The Ontology Lookup Service, a lightweight cross-platform tool for controlled vocabulary queries. BMC Bioinformatics, 7, 97. CRAIG, R. & BEAVIS, R. C. 2004. TANDEM: matching proteins with tandem mass spectra. Bioinformatics, 20, 1466-7. CRAIG, R., CORTENS, J. C., FENYO, D. & BEAVIS, R. C. 2006. Using annotated peptide mass spectrum libraries for protein identification. J Proteome Res, 5, 1843-9. DANCIK, V., ADDONA, T. A., CLAUSER, K. R., VATH, J. E. & PEVZNER, P. A. 1999. De novo peptide sequencing via tandem mass spectrometry. J Comput Biol, 6, 327-42. DE HOFFMANN, E. 2007. Mass spectrometry: Principles and applications, Masson. DEUTSCH, E. W., LAM, H. & AEBERSOLD, R. 2008. Data analysis and bioinformatics tools for tandem mass spectrometry in proteomics. Physiol Genomics, 33, 18-25. DEUTSCH, E. W., MENDOZA, L., SHTEYNBERG, D., FARRAH, T., LAM, H., TASMAN, N., SUN, Z., NILSSON, E., PRATT, B., PRAZEN, B., ENG, J. K., MARTIN, D. B., NESVIZHSKII, A. I. & AEBERSOLD, R. 2010. A guided tour of the Trans-Proteomic Pipeline. Proteomics, 10, 1150-9. DIEGO, P. A., BAJRAMI, B., JIANG, H., SHI, Y., GASCON, J. A. & YAO, X. 2010. Sitepreferential dissociation of peptides with active chemical modification for improving fragment ion detection. Anal Chem, 82, 23-7. DOMON, B. & AEBERSOLD, R. 2006. Mass spectrometry and protein analysis. Science, 312, 212-7. EDWARDS, N. J. 2011. Protein identification from tandem mass spectra by database searching. Methods Mol Biol, 694, 119-38. EIDHAMMER, I., FLIKKA, K., MARTENS, L. & MIKALSEN, S. O. 2008. Computational Methods for Mass Spectrometry Proteomics, John Wiley & Sons. EKMAN, R., SILBERRING, J., WESTMAN-BRINKMALM, A. M., KRAJ, A., DESIDERIO, D. M. & NIBBERING, N. M. 2008. Mass Spectrometry: Instrumentation, Interpretation, and Applications, Wiley. ELIAS, J. E., GIBBONS, F. D., KING, O. D., ROTH, F. P. & GYGI, S. P. 2004. Intensity-based protein identification by machine learning from a library of tandem mass spectra. Nat Biotechnol, 22, 214-9. ELIAS, J. E., HAAS, W., FAHERTY, B. K. & GYGI, S. P. 2005. Comparative evaluation of mass spectrometry platforms used in large-scale proteomics investigations. Nat Methods, 2, 667-75. ENG, J. K., MCCORMACK, A. L. & YATES III, J. R. 1994. An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database. Journal of the American Society for Mass Spectrometry, 5, 976-989. FENN, J. B., MANN, M., MENG, C. K., WONG, S. F. & WHITEHOUSE, C. M. 1989. Electrospray ionization for mass spectrometry of large biomolecules. Science, 246, 64-71.
114
Referencias Bibliográficas
FOETTINGER, A., LEITNER, A. & LINDNER, W. 2005. Solid-phase capture and release of arginine peptides by selective tagging and boronate affinity chromatography. J Chromatogr A, 1079, 187-96. FRANK, A. & PEVZNER, P. 2005. PepNovo: de novo peptide sequencing via probabilistic network modeling. Anal Chem, 77, 964-73. FRANK, A., TANNER, S., BAFNA, V. & PEVZNER, P. 2005. Peptide sequence tags for fast database search in mass-spectrometry. J Proteome Res, 4, 1287-95. FREWEN, B. E., MERRIHEW, G. E., WU, C. C., NOBLE, W. S. & MACCOSS, M. J. 2006. Analysis of peptide MS/MS spectra from large-scale proteomics experiments using spectrum libraries. Anal Chem, 78, 5678-84. GAUCI, S., VAN BREUKELEN, B., LEMEER, S. M., KRIJGSVELD, J. & HECK, A. J. 2008. A versatile peptide pI calculator for phosphorylated and N-terminal acetylated peptides experimentally tested using peptide isoelectric focusing. Proteomics, 8, 4898-906. GEER, L. Y., MARKEY, S. P., KOWALAK, J. A., WAGNER, L., XU, M., MAYNARD, D. M., YANG, X., SHI, W. & BRYANT, S. H. 2004. Open mass spectrometry search algorithm. J Proteome Res, 3, 958-64. GEVAERT, K., GOETHALS, M., MARTENS, L., VAN DAMME, J., STAES, A., THOMAS, G. R. & VANDEKERCKHOVE, J. 2003. Exploring proteomes and analyzing protein processing by mass spectrometric identification of sorted N-terminal peptides. Nat Biotechnol, 21, 566-9. GEVAERT, K., VAN DAMME, J., GOETHALS, M., THOMAS, G. R., HOORELBEKE, B., DEMOL, H., MARTENS, L., PUYPE, M., STAES, A. & VANDEKERCKHOVE, J. 2002. Chromatographic isolation of methionine-containing peptides for gel-free proteome analysis: identification of more than 800 Escherichia coli proteins. Mol Cell Proteomics, 1, 896-903. GIBBONS, F. D., ELIAS, J. E., GYGI, S. P. & ROTH, F. P. 2004. SILVER helps assign peptides to tandem mass spectra using intensity-based scoring. J Am Soc Mass Spectrom, 15, 910-2. GRISS, J., REISINGER, F., HERMJAKOB, H. & VIZCAINO, J. A. 2012. jmzReader: A Java parser library to process and visualize multiple text and XML-based mass spectrometry data formats. Proteomics, 12, 795-8. GUIOCHON, G. 2006. The limits of the separation power of unidimensional column liquid chromatography. J Chromatogr A, 1126, 6-49. GUO, D., MANT, C. T., TANEJA, A. K., PARKER, J. M. R. & RODGES, R. S. 1986. Prediction of peptide retention times in reversed-phase high-performance liquid chromatography I. Determination of retention coefficients of amino acid residues of model synthetic peptides. Journal of Chromatography A, 359, 499-518. GYGI, S. P., RIST, B., GERBER, S. A., TURECEK, F., GELB, M. H. & AEBERSOLD, R. 1999. Quantitative analysis of complex protein mixtures using isotope-coded affinity tags. Nat Biotechnol, 17, 994-9. HAYES, R. N. & GROSS, M. L. 1990. Collision-induced dissociation. Methods Enzymol, 193, 237-63. HAYNES, P. A., GYGI, S. P., FIGEYS, D. & AEBERSOLD, R. 1998. Proteome analysis: biological assay or data archive? Electrophoresis, 19, 1862-71. HELLER, M., MICHEL, P. E., MORIER, P., CRETTAZ, D., WENZ, C., TISSOT, J. D., REYMOND, F. & ROSSIER, J. S. 2005. Two-stage Off-Gel isoelectric focusing: protein followed by peptide fractionation and application to proteome analysis of human plasma. Electrophoresis, 26, 1174-88.
115
Referencias Bibliográficas
HORTH, P., MILLER, C. A., PRECKEL, T. & WENZ, C. 2006. Efficient fractionation and improved protein identification by peptide OFFGEL electrophoresis. Mol Cell Proteomics, 5, 1968-74. HU, Q., NOLL, R. J., LI, H., MAKAROV, A., HARDMAN, M. & GRAHAM COOKS, R. 2005. The Orbitrap: a new mass spectrometer. J Mass Spectrom, 40, 430-43. JONES, A. R., EISENACHER, M., MAYER, G., KOHLBACHER, O., SIEPEN, J., HUBBARD, S. J., SELLEY, J. N., SEARLE, B. C., SHOFSTAHL, J., SEYMOUR, S. L., JULIAN, R., BINZ, P. A., DEUTSCH, E. W., HERMJAKOB, H., REISINGER, F., GRISS, J., VIZCAINO, J. A., CHAMBERS, M., PIZARRO, A. & CREASY, D. 2012. The mzIdentML data standard for mass spectrometry-based proteomics results. Mol Cell Proteomics, 11, M111 014381. KAPP, E. A., SCHUTZ, F., CONNOLLY, L. M., CHAKEL, J. A., MEZA, J. E., MILLER, C. A., FENYO, D., ENG, J. K., ADKINS, J. N., OMENN, G. S. & SIMPSON, R. J. 2005. An evaluation, comparison, and accurate benchmarking of several publicly available MS/MS search algorithms: sensitivity and specificity analysis. Proteomics, 5, 3475-90. KARAS, M. & HILLENKAMP, F. 1988. Laser desorption ionization of proteins with molecular masses exceeding 10,000 daltons. Anal Chem, 60, 2299-301. KAWASHIMA, S., POKAROWSKI, P., POKAROWSKA, M., KOLINSKI, A., KATAYAMA, T. & KANEHISA, M. 2008. AAindex: amino acid index database, progress report 2008. Nucleic Acids Res, 36, D202-5. KELLER, A., NESVIZHSKII, A. I., KOLKER, E. & AEBERSOLD, R. 2002. Empirical statistical model to estimate the accuracy of peptide identifications made by MS/MS and database search. Anal Chem, 74, 5383-92. KERSEY, P. J., DUARTE, J., WILLIAMS, A., KARAVIDOPOULOU, Y., BIRNEY, E. & APWEILER, R. 2004. The International Protein Index: an integrated database for proteomics experiments. Proteomics, 4, 1985-8. KIRAGA, J., MACKIEWICZ, P., MACKIEWICZ, D., KOWALCZUK, M., BIECEK, P., POLAK, N., SMOLARCZYK, K., DUDEK, M. R. & CEBRAT, S. 2007. The relationships between the isoelectric point and: length of proteins, taxonomy and ecology of organisms. BMC Genomics, 8, 163. KLOSE, J. 1975. Protein mapping by combined isoelectric focusing and electrophoresis of mouse tissues. A novel approach to testing for induced point mutations in mammals. Humangenetik, 26, 231-43. KRIJGSVELD, J., GAUCI, S., DORMEYER, W. & HECK, A. J. 2006. In-gel isoelectric focusing of peptides as a tool for improved protein identification. J Proteome Res, 5, 1721-30. KROKHIN, O. V. 2006. Sequence-specific retention calculator. Algorithm for peptide retention prediction in ion-pair RP-HPLC: application to 300- and 100-A pore size C18 sorbents. Anal Chem, 78, 7785-95. KWON, T., CHOI, H., VOGEL, C., NESVIZHSKII, A. I. & MARCOTTE, E. M. 2011. MSblender: A probabilistic approach for integrating peptide identifications from multiple database search engines. J Proteome Res, 10, 2949-58. LAEMMLI, U. K. 1970. Cleavage of structural proteins during the assembly of the head of bacteriophage T4. Nature, 227, 680-5. LAM, H. & AEBERSOLD, R. 2011. Building and searching tandem mass (MS/MS) spectral libraries for peptide identification in proteomics. Methods, 54, 424-31. LAM, H., DEUTSCH, E. W., EDDES, J. S., ENG, J. K., KING, N., STEIN, S. E. & AEBERSOLD, R. 2007. Development and validation of a spectral library searching method for peptide identification from MS/MS. Proteomics, 7, 655-67.
116
Referencias Bibliográficas
LAM, H., DEUTSCH, E. W., EDDES, J. S., ENG, J. K., STEIN, S. E. & AEBERSOLD, R. 2008. Building consensus spectral libraries for peptide identification in proteomics. Nat Methods, 5, 873-5. LEINONEN, R., DIEZ, F. G., BINNS, D., FLEISCHMANN, W., LOPEZ, R. & APWEILER, R. 2004. UniProt archive. Bioinformatics, 20, 3236-7. LI, Y., CHI, H., WANG, L. H., WANG, H. P., FU, Y., YUAN, Z. F., LI, S. J., LIU, Y. S., SUN, R. X., ZENG, R. & HE, S. M. 2010. Speeding up tandem mass spectrometry based database searching by peptide and spectrum indexing. Rapid Commun Mass Spectrom, 24, 807-14. LINK, A. J., ENG, J., SCHIELTZ, D. M., CARMACK, E., MIZE, G. J., MORRIS, D. R., GARVIK, B. M. & YATES, J. R., 3RD 1999. Direct analysis of protein complexes using mass spectrometry. Nat Biotechnol, 17, 676-82. MA, B. & JOHNSON, R. 2012. De novo sequencing and homology searching. Mol Cell Proteomics, 11, O111 014902. MA, B., ZHANG, K., HENDRIE, C., LIANG, C., LI, M., DOHERTY-KIRBY, A. & LAJOIE, G. 2003. PEAKS: powerful software for peptide de novo sequencing by tandem mass spectrometry. Rapid Commun Mass Spectrom, 17, 2337-42. MAGRANE, M. & CONSORTIUM, U. 2011. UniProt Knowledgebase: a hub of integrated protein data. Database (Oxford), 2011, bar009. MANN, M. & KELLEHER, N. L. 2008. Precision proteomics: the case for high resolution and high mass accuracy. Proc Natl Acad Sci U S A, 105, 18132-8. MANT, C. T., BURKE, T. W. L., BLACK, J. A. & HODGES, R. S. 1988. Effect of peptide chain length on peptide retention behaviour in reversed-phase chromatogrphy. Journal of Chromatography A, 458, 193-205. MARCH, R. E. 1997. An Introduction to Quadrupole Ion Trap Mass Spectrometry. Journal of Mass Spectrometry, 32, 351-369. MARSHALL, A. G., HENDRICKSON, C. L. & JACKSON, G. S. 1998. Fourier transform ion cyclotron resonance mass spectrometry: a primer. Mass Spectrom Rev, 17, 1-35. MARTENS, L. 2011. Bioinformatics challenges in mass spectrometry-driven proteomics. Methods Mol Biol, 753, 359-71. MARTENS, L., CHAMBERS, M., STURM, M., KESSNER, D., LEVANDER, F., SHOFSTAHL, J., TANG, W. H., ROMPP, A., NEUMANN, S., PIZARRO, A. D., MONTECCHI-PALAZZI, L., TASMAN, N., COLEMAN, M., REISINGER, F., SOUDA, P., HERMJAKOB, H., BINZ, P. A. & DEUTSCH, E. W. 2011. mzML--a community standard for mass spectrometry data. Mol Cell Proteomics, 10, R110 000133. MARTENS, L., NESVIZHSKII, A. I., HERMJAKOB, H., ADAMSKI, M., OMENN, G. S., VANDEKERCKHOVE, J. & GEVAERT, K. 2005a. Do we want our data raw? Including binary mass spectrometry data in public proteomics data repositories. Proteomics, 5, 3501-5. MARTENS, L., VAN DAMME, P., VAN DAMME, J., STAES, A., TIMMERMAN, E., GHESQUIERE, B., THOMAS, G. R., VANDEKERCKHOVE, J. & GEVAERT, K. 2005b. The human platelet proteome mapped by peptide-centric proteomics: a functional protein profile. Proteomics, 5, 3193-204. MARTENS, L., VANDEKERCKHOVE, J. & GEVAERT, K. 2005c. DBToolkit: processing protein databases for peptide-centric proteomics. Bioinformatics, 21, 3584-5. MEEK, J. L. 1980. Prediction of peptide retention times in high-pressure liquid chromatography on the basis of amino acid composition. Proc Natl Acad Sci U S A, 77, 1632-6. MIAO, Q., ZHANG, C. C. & KAST, J. 2012. Chemical proteomics and its impact on the drug discovery process. Expert Rev Proteomics, 9, 281-91.
117
Referencias Bibliográficas
MICHALSKI, A., COX, J. & MANN, M. 2011. More than 100,000 detectable peptide species elute in single shotgun proteomics runs but the majority is inaccessible to data-dependent LC-MS/MS. J Proteome Res, 10, 1785-93. MICHALSKI, A., NEUHAUSER, N., COX, J. & MANN, M. 2012. A systematic investigation into the nature of tryptic HCD spectra. J Proteome Res, 11, 5479-91. MORTZ, E., O'CONNOR, P. B., ROEPSTORFF, P., KELLEHER, N. L., WOOD, T. D., MCLAFFERTY, F. W. & MANN, M. 1996. Sequence tag identification of intact proteins by matching tanden mass spectral data against sequence data bases. Proc Natl Acad Sci U S A, 93, 8264-7. MUTH, T., BENNDORF, D., REICHL, U., RAPP, E. & MARTENS, L. 2013. Searching for a needle in a stack of needles: challenges in metaproteomics data analysis. Mol Biosyst, 9, 578-85. NAGARAJ, N., WISNIEWSKI, J. R., GEIGER, T., COX, J., KIRCHER, M., KELSO, J., PAABO, S. & MANN, M. 2011. Deep proteome and transcriptome mapping of a human cancer cell line. Mol Syst Biol, 7, 548. NELSON, D. L. & COX, M. M. 2004. Lehninger Principles of Biochemistry, W. H. Freeman. NESVIZHSKII, A. I. 2007. Protein identification by tandem mass spectrometry and sequence database searching. Methods Mol Biol, 367, 87-119. NESVIZHSKII, A. I. 2010. A survey of computational methods and error rate estimation procedures for peptide and protein identification in shotgun proteomics. J Proteomics, 73, 2092-123. NILSSON, T., MANN, M., AEBERSOLD, R., YATES, J. R., 3RD, BAIROCH, A. & BERGERON, J. J. 2010. Mass spectrometry in high-throughput proteomics: ready for the big time. Nat Methods, 7, 681-5. O'FARRELL, P. H. 1975. High resolution two-dimensional electrophoresis of proteins. J Biol Chem, 250, 4007-21. ORNSTEIN, L. 1964. Disc Electrophoresis. I. Background and Theory. Ann N Y Acad Sci, 121, 321-49. PATRICKIOS, C. S. & YAMASAKI, E. N. 1995. Polypeptide amino acid composition and isoelectric point. II. Comparison between experiment and theory. Anal Biochem, 231, 8291. PEDRIOLI, P. G., ENG, J. K., HUBLEY, R., VOGELZANG, M., DEUTSCH, E. W., RAUGHT, B., PRATT, B., NILSSON, E., ANGELETTI, R. H., APWEILER, R., CHEUNG, K., COSTELLO, C. E., HERMJAKOB, H., HUANG, S., JULIAN, R. K., KAPP, E., MCCOMB, M. E., OLIVER, S. G., OMENN, G., PATON, N. W., SIMPSON, R., SMITH, R., TAYLOR, C. F., ZHU, W. & AEBERSOLD, R. 2004. A common open representation of mass spectrometry data and its application to proteomics research. Nat Biotechnol, 22, 1459-66. PERKINS, D. N., PAPPIN, D. J., CREASY, D. M. & COTTRELL, J. S. 1999. Probability-based protein identification by searching sequence databases using mass spectrometry data. Electrophoresis, 20, 3551-67. PETRITIS, K., KANGAS, L. J., FERGUSON, P. L., ANDERSON, G. A., PASA-TOLIC, L., LIPTON, M. S., AUBERRY, K. J., STRITTMATTER, E. F., SHEN, Y., ZHAO, R. & SMITH, R. D. 2003. Use of artificial neural networks for the accurate prediction of peptide liquid chromatography elution times in proteome analyses. Anal Chem, 75, 103948. PURCELL, A. W., AGUILAR, M. I. & HEARN, M. T. 1993. High-performance liquid chromatography of amino acids, peptides, and proteins. 123. Dynamics of peptides in reversed-phase high-performance liquid chromatography. Anal Chem, 65, 3038-47.
118
Referencias Bibliográficas
RAMOS, Y., GUTIERREZ, E., MACHADO, Y., SANCHEZ, A., CASTELLANOS-SERRA, L., GONZALEZ, L. J., FERNANDEZ-DE-COSSIO, J., PEREZ-RIVEROL, Y., BETANCOURT, L., GIL, J., PADRON, G. & BESADA, V. 2008. Proteomics based on peptide fractionation by SDS-free PAGE. J Proteome Res, 7, 2427-34. REISINGER, F., KRISHNA, R., GHALI, F., RIOS, D., HERMJAKOB, H., VIZCAINO, J. A. & JONES, A. R. 2012. jmzIdentML API: A Java interface to the mzIdentML standard for peptide and protein identification data. Proteomics, 12, 790-4. REISINGER, F. & MARTENS, L. 2009. Database on Demand - an online tool for the custom generation of FASTA-formatted sequence databases. Proteomics, 9, 4421-4. REITER, L., CLAASSEN, M., SCHRIMPF, S. P., JOVANOVIC, M., SCHMIDT, A., BUHMANN, J. M., HENGARTNER, M. O. & AEBERSOLD, R. 2009. Protein identification false discovery rates for very large proteomics data sets generated by tandem mass spectrometry. Mol Cell Proteomics, 8, 2405-17. RIBEIRO, J. M. & SILLERO, A. 1990. An algorithm for the computer calculation of the coefficients of a polynomial that allows determination of isoelectric points of proteins and other macromolecules. Comput Biol Med, 20, 235-42. RIGHETTI, P. G. 2004. Determination of the isoelectric point of proteins by capillary isoelectric focusing. J Chromatogr A, 1037, 491-9. ROEPSTORFF, P. & FOHLMAN, J. 1984. Proposal for a common nomenclature for sequence ions in mass spectra of peptides. Biomed Mass Spectrom, 11, 601. ROS, A., FAUPEL, M., MEES, H., OOSTRUM, J., FERRIGNO, R., REYMOND, F., MICHEL, P., ROSSIER, J. S. & GIRAULT, H. H. 2002. Protein purification by Off-Gel electrophoresis. Proteomics, 2, 151-6. SANCHEZ, A., GONZALEZ, L. J., BETANCOURT, L., GIL, J., BESADA, V., FERNANDEZDE-COSSIO, J., RODRIGUEZ-ULLOA, A., MARRERO, K., ALVAREZ, F., FANDO, R. & PADRON, G. 2006a. Selective isolation of multiple positively charged peptides for 2-DE-free quantitative proteomics. Proteomics, 6, 4444-55. SANCHEZ, A., GONZALEZ, L. J., RAMOS, Y., BETANCOURT, L., GIL, J., BESADA, V., FERNANDEZ-DE-COSSIO, J., ALVAREZ, F. & PADRON, G. 2006b. Selective isolation of lysine-free tryptic peptides delimited by arginine residues: A new tool for proteome analysis. J Proteome Res, 5, 1204-13. SANTONI, V., MOLLOY, M. & RABILLOUD, T. 2000. Membrane proteins and proteomics: un amour impossible? Electrophoresis, 21, 1054-70. SASAGAWA, T., OKUYAMA, T. & TELLER, D. C. 1982. Prediction of peptide retention times in reversed-phases high-performance liquid chromatography during linear gradient elution. Journal of Chromatography A, 240, 329-340. SCHIRLE, M., BANTSCHEFF, M. & KUSTER, B. 2012. Mass spectrometry-based proteomics in preclinical drug discovery. Chem Biol, 19, 72-84. SEARLE, B. C., TURNER, M. & NESVIZHSKII, A. I. 2008. Improving sensitivity by probabilistically combining results from multiple MS/MS search methodologies. J Proteome Res, 7, 245-53. SEREDA, T. J., MANT, C. T. & HODGES, R. S. 1995. Selectivity due to conformational differences between helical and non-helical peptides in reversed-phase chromatography. J Chromatogr A, 695, 205-21. SHIMURA, K., ZHI, W., MATSUMOTO, H. & KASAI, K. 2000. Accuracy in the determination of isoelectric points of some proteins and a peptide by capillary isoelectric focusing: utility of synthetic peptides as isoelectric point markers. Anal Chem, 72, 474757. SILLERO, A. & RIBEIRO, J. M. 1989. Isoelectric points of proteins: theoretical determination. Anal Biochem, 179, 319-25.
119
Referencias Bibliográficas
SIMPSON, R. J., CONNOLLY, L. M., EDDES, J. S., PEREIRA, J. J., MORITZ, R. L. & REID, G. E. 2000. Proteomic analysis of the human colon carcinoma cell line (LIM 1215): development of a membrane protein database. Electrophoresis, 21, 1707-32. STAJICH, J. E., BLOCK, D., BOULEZ, K., BRENNER, S. E., CHERVITZ, S. A., DAGDIGIAN, C., FUELLEN, G., GILBERT, J. G., KORF, I., LAPP, H., LEHVASLAIHO, H., MATSALLA, C., MUNGALL, C. J., OSBORNE, B. I., POCOCK, M. R., SCHATTNER, P., SENGER, M., STEIN, L. D., STUPKA, E., WILKINSON, M. D. & BIRNEY, E. 2002. The Bioperl toolkit: Perl modules for the life sciences. Genome Res, 12, 1611-8. SUMMERFIELD, S. G., BOLGAR, M. S. & GASKELL, S. J. 1997. Promotion and Stabilization of b1 ions in Peptide Phenythiocarbamoyl Derivatives: Analogies with Condensed-phase Chemistry. Journal of Mass Spectrometry, 32, 225-231. SUNYAEV, S., LISKA, A. J., GOLOD, A. & SHEVCHENKO, A. 2003. MultiTag: multiple error-tolerant sequence tag search for the sequence-similarity identification of proteins by mass spectrometry. Anal Chem, 75, 1307-15. SUZEK, B. E., HUANG, H., MCGARVEY, P., MAZUMDER, R. & WU, C. H. 2007. UniRef: comprehensive and non-redundant UniProt reference clusters. Bioinformatics, 23, 12828. TABB, D. L., MA, Z. Q., MARTIN, D. B., HAM, A. J. & CHAMBERS, M. C. 2008. DirecTag: accurate sequence tags from peptide MS/MS through statistical scoring. J Proteome Res, 7, 3838-46. TABB, D. L., SARAF, A. & YATES, J. R., 3RD 2003. GutenTag: high-throughput sequence tagging via an empirically derived fragmentation model. Anal Chem, 75, 6415-21. TANNER, S., SHU, H., FRANK, A., WANG, L. C., ZANDI, E., MUMBY, M., PEVZNER, P. A. & BAFNA, V. 2005. InsPecT: identification of posttranslationally modified peptides from tandem mass spectra. Anal Chem, 77, 4626-39. TASHIMA, A. K., ZELANIS, A., KITANO, E. S., IANZER, D., MELO, R. L., RIOLI, V., SANT'ANNA, S. S., SCHENBERG, A. C., CAMARGO, A. C. & SERRANO, S. M. 2012. Peptidomics of three Bothrops snake venoms: insights into the molecular diversification of proteomes and peptidomes. Mol Cell Proteomics, 11, 1245-62. VAN DAMME, P., MAURER-STROH, S., PLASMAN, K., VAN DURME, J., COLAERT, N., TIMMERMAN, E., DE BOCK, P. J., GOETHALS, M., ROUSSEAU, F., SCHYMKOWITZ, J., VANDEKERCKHOVE, J. & GEVAERT, K. 2009a. Analysis of protein processing by N-terminal proteomics reveals novel species-specific substrate determinants of granzyme B orthologs. Mol Cell Proteomics, 8, 258-72. VAN DAMME, P., VAN DAMME, J., DEMOL, H., STAES, A., VANDEKERCKHOVE, J. & GEVAERT, K. 2009b. A review of COFRADIC techniques targeting protein N-terminal acetylation. BMC Proc, 3 Suppl 6, S6. VESTAL, M. L. & CAMPBELL, J. M. 2005. Tandem time-of-flight mass spectrometry. Methods Enzymol, 402, 79-108. VIZCAINO, J. A., COTE, R. G., CSORDAS, A., DIANES, J. A., FABREGAT, A., FOSTER, J. M., GRISS, J., ALPI, E., BIRIM, M., CONTELL, J., O'KELLY, G., SCHOENEGGER, A., OVELLEIRO, D., PEREZ-RIVEROL, Y., REISINGER, F., RIOS, D., WANG, R. & HERMJAKOB, H. 2012. The Proteomics Identifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Res. WANG, D., FANG, S. & WOHLHUETER, R. M. 2009. N-terminal derivatization of peptides with isothiocyanate analogues promoting Edman-type cleavage and enhancing sensitivity in electrospray ionization tandem mass spectrometry analysis. Anal Chem, 81, 1893-900.
120
Referencias Bibliográficas
WASHBURN, M. P., WOLTERS, D. & YATES, J. R., 3RD 2001. Large-scale analysis of the yeast proteome by multidimensional protein identification technology. Nat Biotechnol, 19, 242-7. WILKINS, M. R., GASTEIGER, E., BAIROCH, A., SANCHEZ, J. C., WILLIAMS, K. L., APPEL, R. D. & HOCHSTRASSER, D. F. 1999. Protein identification and analysis tools in the ExPASy server. Methods Mol Biol, 112, 531-52. WILKINS, M. R., PASQUALI, C., APPEL, R. D., OU, K., GOLAZ, O., SANCHEZ, J. C., YAN, J. X., GOOLEY, A. A., HUGHES, G., HUMPHERY-SMITH, I., WILLIAMS, K. L. & HOCHSTRASSER, D. F. 1996. From proteins to proteomes: large scale protein identification by two-dimensional electrophoresis and amino acid analysis. Biotechnology (N Y), 14, 61-5. WITZE, E. S., OLD, W. M., RESING, K. A. & AHN, N. G. 2007. Mapping protein posttranslational modifications with mass spectrometry. Nat Methods, 4, 798-806. WOLTERS, D. A., WASHBURN, M. P. & YATES, J. R., 3RD 2001. An automated multidimensional protein identification technology for shotgun proteomics. Anal Chem, 73, 5683-90. WU, C. C. & MACCOSS, M. J. 2002. Shotgun proteomics: tools for the analysis of complex biological systems. Curr Opin Mol Ther, 4, 242-50. WYSOCKI, V. H., RESING, K. A., ZHANG, Q. & CHENG, G. 2005. Mass spectrometry of peptides and proteins. Methods, 35, 211-22. YATES, J. R., 3RD, MORGAN, S. F., GATLIN, C. L., GRIFFIN, P. R. & ENG, J. K. 1998. Method to compare collision-induced dissociation spectra of peptides: potential for library searching and subtractive analysis. Anal Chem, 70, 3557-65. YATES, J. R., RUSE, C. I. & NAKORCHEVSKY, A. 2009. Proteomics by mass spectrometry: approaches, advances, and applications. Annu Rev Biomed Eng, 11, 49-79. YEN, C. Y., RUSSELL, S., MENDOZA, A. M., MEYER-ARENDT, K., SUN, S., CIOS, K. J., AHN, N. G. & RESING, K. A. 2006. Improving sensitivity in shotgun proteomics using a peptide-centric database with reduced complexity: protease cleavage and SCX elution rules from data mining of MS/MS spectra. Anal Chem, 78, 1071-84. ZUBAREV, R. & MANN, M. 2007. On the proper use of mass accuracy in proteomics. Mol Cell Proteomics, 6, 377-81.
121
Bibliografía del Autor
VII. Bibliografía del Autor VII.1 Publicaciones del autor relacionadas con el tema de tesis − Lázaro H. Betancourt, Aniel Sánchez, Yasset Pérez, Jorge Fernandez de Cossio, Jeovanis Gil, Patricia Toledo, Seiji Iguchi, Saburo Aimoto, Luis J. González, Gabriel Padrón, Toshifumi Takao, Vladimir Besada. Charge state-selective separation of peptides by reversible modification of amino groups and strong cation-exchange chromatography: Evaluation in proteomic studies using peptidecentric database searches. Journal of Proteomics. 2011;74: 2210–2213. − Yassel Ramos, Yairet Garcia, Yasset Perez-Riverol, Alejandro Leyva, Gabriel Padron, Aniel Sanchez, Lila Castellanos-Serra, Luis J. Gonzalez, Vladimir Besada. Peptide fractionation by acid pH SDS-free electrophoresis. Electrophoresis. 2011; 32: 1323–1326. − Yasset Perez-Riverol, Aniel Sanchez, Luis Javier Gonzalez, Jesus Noda, Lazaro Betancourt, Yassel Ramos, Jeovanis Gil, Roberto Vera, Gabriel Padron and Vladimir Besada. Evaluation of Phenylthiocarbamoyl-Derivatized Peptides by Electrospray Ionization Mass Spectrometry: Selective Isolation and Analysis of Modified Multiply Charged Peptides for Liquid Chromatography-Tandem Mass Spectrometry Experiments. Analytical Chemistry. 2010; 82: 8492–8501. − Yasset Perez-Riverol, Aniel Sánchez, Jesus Noda, Diogo Borges, Paulo Costa Carvalho, Rui Wang, Juan Antonio Vizcaíno, Lázaro Betancourt, Yassel Ramos, Gabriel Duarte, Fabio C.S. Nogueira, Luis J. González, Gabriel Padrón,
David L. Tabb, Henning Hermjakob, Gilberto B. Domont,
Vladimir Besada. HI-bone: A scoring system for identifying phenylisothiocyanate-derivatized peptides based on precursor mass and High Intensity fragment ions. Anal. Chem., 2013, 85 (7), pp 3515–3520 − Yasset Perez-Riverol, Diogo Borges, Fabio C S Nogueira, Gilberto B Domont, Jesus Noda, Felipe Leprevost, Lazaro H. Betancourt, Felipe M G França, Luis Javier Gonzalez, Valmir C Barbosa, Vladimir Besada, Aniel Sánchez & Paulo C Carvalho. Effectively addressing complex proteomic search spaces. Bioinformatics. Accepted. 2013 − Rui Wang, Antonio Fabregat, Daniel Ríos, David Ovelleiro, Joseph M Foster, Richard G Côté, Johannes Griss, Attila Csordas, Yasset Perez-Riverol, Florian Reisinger, Henning Hermjakob, Lennart Martens, Juan Antonio Vizcaíno. PRIDE Inspector: a tool to visualize and validate MS proteomics data. Nature Biotechnology. 2012; 30:135-7. 122
Bibliografía del Autor
− Yasset Perez-Riverol, Aniel Sánchez, Yassel Ramos, Alex Schmidt , Markus Müller, Lázaro Betancourt, Luis J. González , Roberto Vera , Gabriel Padron , Vladimir Besada. In silico analysis of accurate proteomics, complemented by selective isolation of peptides. Journal of Proteomics. 2011;74:2071-82. − Yasset Perez-Riverol, Enrique Audain, Aleli Millan, Yassel Ramos, Aniel Sanchez, Juan Antonio Vizcaíno, Rui Wang, Markus Müller, Yoan J Machado, Lazaro H Betancourt, Luis J González, Gabriel Padrón, Vladimir Besada. Isoelectric point optimization using peptide descriptors and support vector machines. Journal of Proteomics. 2012; 75:2269-74.
VII.2 Presentaciones en eventos científicos relacionadas con el tema de tesis − Proteomics Based on Peptide Fractionation by SDS-Free PAGE. 8th Siena Meeting, From Genome to Proteome: Integration and Proteome Completion, Siena, Italy, Septiembre 2008. − Peptide fractionation by SDS-free PAGE for proteomic studies. 7th HUPO World Congress: the human disease glycomics/proteomics initiative (HGPI), Amsterdan, Holanda, August 2008. − In silico analysis of accurate proteomics, complemented by selective isolation of peptides. Statistics Initiative, Special One-Day Meeting, Cambridge, UK, September 2011. − The PRoteomics IDEntifications (PRIDE) database facilitates the storing, sharing and reuse of MS proteomics data. 60th ASMS Conference on Mass Spectrometry and Allied Topics. Vancouver, Canada, May 2012. − Selective Isolation of peptides by reversible chemical modification and ion exchange chromatography. Congreso Biotecnología Habana 2012, CIGB, La Habana, Cuba, Noviembre 2012. − Isoelectric point optimization using peptide descriptors and support vector machines. Congreso Biotecnología Habana 2012, CIGB, La Habana, Cuba, Noviembre 2012. − What’s going on at EBI’s MS proteomics PRIDE database. Congreso Biotecnología Habana 2012, CIGB, La Habana, Cuba, Noviembre 2012.
123
Bibliografía del Autor
VIII.3 Otras publicaciones del autor − SCX charge state selective separation of tryptic peptides combined with 2D-RP-HPLC allows for detailed proteome mapping. Betancourt LH, De Bock PJ, Staes A, Timmerman E, Perez-Riverol Y, Sanchez A, Besada V, Gonzalez LJ, Vandekerckhove J, Gevaert K. Journal of Proteomics. 2013 Jul 11;91C:164-171. doi: 10.1016/j.jprot.2013.06.033. − JBioWH: an open-source Java framework for bioinformatics data integration. Vera R, Perez-Riverol Y, Perez S, Ligeti B, Kertész-Farkas A, Pongor S. Database (Oxford). 2013 Jul 11;2013:bat051. doi: 10.1093/database/bat051. Print 2013. − Pinpointing differentially expressed domains in complex protein mixtures with the cloud service of PatternLab for Proteomics. F.V. Leprevost, D.B. Lima,J. Crestani, Y. Perez-Riverol, N. Zanchin, V.C. Barbosa, P.C. Carvalho. Journal of Proteomics. 2013 Aug 26;89:179-82. doi: 10.1016/j.jprot.2013.06.013. − Yasset Perez-Riverol, Rui Wang, Henning Hermjakob, Markus Müller, Vladimir Besada, Juan Antonio Vizcaíno. Open source libraries and frameworks for mass spectrometry based proteomics: A developer's perspective. Biochim Biophys Acta. 2013 Mar 1. 2013.02.032. − Yasset Perez-Riverol, Henning Hermjakob, Oliver Kohlbacher, Lennart Martens, David Creasy, Jürgen Cox, Felipe Leprevost, Baozhen Paul Shan, Violeta I. Pérez-Nueno, Michal Blazejczyk, Marco Punta, Klemens Vierlinger, Pedro A. Valiente, Kalet Leon, Glay Chinea, Osmany Guirola, Ricardo Bringas, Gleysin Cabrera, Gerardo Guillen, Gabriel Padron, Luis Javier Gonzalez, Vladimir Besada. Computational proteomics pitfalls and challenges: HavanaBioinfo 2012 Workshop report. Journal of Proteomics. 2013 Jan 29. − Juan Antonio Vizcaíno, Richard G. Côté, Attila Csordas, José A. Dianes, Antonio Fabregat, Joseph M. Foster, Johannes Griss, Emanuele Alpi, Melih Birim, Javier Contell, Gavin O’Kelly, Andreas Schoenegger, David Ovelleiro, Yasset Pérez-Riverol, Florian Reisinger, Daniel Ríos, Rui Wang and Henning Hermjakob. The Proteomics Identifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Res. 2013 Jan;41(Database issue). − Yasset Perez-Riverol, Roberto Vera, Yuliet Mazola and Alexis Musacchio. A parallel systematicMonte Carlo algorithm for exploring conformational space. Curr Top Med Chem. 2012; 12(16):1790-6. 124
Bibliografía del Autor
− Richard G. Côté, Johannes Griss, José A. Dianes, Rui Wang, James C. Wright, Henk W.P. van den Toorn, Bas van Breukelen, Albert J. R. Heck, Niels Hulstaert, Lennart Martens, Florian Reisinger, Attila Csordas, David Ovelleiro, Yasset Perez-Riverol, Harald Barsnes, Henning Hermjakob and Juan Antonio Vizcaíno. The PRoteomics IDEntification (PRIDE) Converter 2 Framework: An Improved Suite of Tools to Facilitate Data Submission to the PRIDE Database and the ProteomeXchange Consortium. Mol Cell Proteomics. 2012 Dec;11(12):1682-9. − Aniel Sanchez, Wei Sun, Jie Ma, Lazaro Betancourt, Yasset Perez-Riverol, Jorge Fernandez deCossio, Gabriel Padron, Ying Jiang, Fuchu He, Luis Javier Gonzalez and Vladimir Besada. Selective isolation of multiply charged peptides: a confident strategy to protein identification using a LTQ mass spectrometer. Eur J Mass Spectrom. 2012;18(6):505–508. − Yordanka Masforrol, Jeovanis Gil, Luis Javier González, Yasset Pérez-Riverol, Jorge Fernández-deCossío, Aniel Sánchez, Lázaro Hiram Betancourt, Hilda Elisa Garay, Ania Cabrales, Fernando Albericio, Hongqian Yang, Roman A. Zubarev, Vladimir Besada, and Osvaldo Reyes Acosta. Introducing an Asp-Pro linker in the synthesis of random one-bead-one-compound hexapeptide libraries compatible with ESI-MS analysis. ACS Comb Sci. 2012 Mar 12;14(3):145-9. − Aniel Sanchez, Wei Sun, Lan Wang, Jie Ma, Lazaro Betancourt, Jeovanis Gil, Yasset PerezRiverol, Jorge Fernandez de-Cossio, Gabriel Padron, Ying Jiang, Fuchu He, Luis Javier Gonzalez and Vladimir Besada. Selective isolation-detection of two different positively charged peptides groups by strong cation exchange chromatography and matrix-assisted laser desorption/ionization mass spectrometry: application to proteomics studies. Eur J Mass Spectrom. 2010;16(6):693-702. − Yassel Ramos, Elain Gutierrez, Yoan Machado, Aniel Sánchez, Lila Castellanos-Serra, Luis J. González, Jorge Fernández-de-Cossio, Yasset Pérez-Riverol, Lázaro Betancourt, Jeovanis Gil, Gabriel Padrón and Vladimir Besada. Proteomics based on peptide fractionation by SDS-free PAGE. J Proteome Res. 2008 Jun;7(6):2427-34.
125