sasava

Mikrobielle Metaproteomik: von der Probenverarbeitung über die Datenerfassung bis zur Datenanalyse

Wu Enhui, Qiao Liang*

Fakultät für Chemie, Fudan-Universität, Shanghai 200433, China

 

 

 

Mikroorganismen stehen in engem Zusammenhang mit menschlichen Krankheiten und der Gesundheit. Das Verständnis der Zusammensetzung mikrobieller Gemeinschaften und ihrer Funktionen ist ein wichtiges Thema, das dringend untersucht werden muss. In den letzten Jahren hat sich die Metaproteomik zu einem wichtigen technischen Mittel zur Untersuchung der Zusammensetzung und Funktion von Mikroorganismen entwickelt. Aufgrund der Komplexität und der hohen Heterogenität mikrobieller Gemeinschaftsproben sind die Probenverarbeitung, die Massenspektrometrie-Datenerfassung und die Datenanalyse jedoch zu den drei größten Herausforderungen geworden, mit denen die Metaproteomik derzeit konfrontiert ist. Bei der Metaproteomik-Analyse ist es oft notwendig, die Vorbehandlung verschiedener Probentypen zu optimieren und unterschiedliche mikrobielle Trennungs-, Anreicherungs-, Extraktions- und Lyseschemata anzuwenden. Ähnlich wie beim Proteom einer einzelnen Spezies umfassen die Massenspektrometrie-Datenerfassungsmodi in der Metaproteomik den datenabhängigen Erfassungsmodus (DDA) und den datenunabhängigen Erfassungsmodus (DIA). Der DIA-Datenerfassungsmodus kann die Peptidinformationen der Probe vollständig erfassen und verfügt über ein großes Entwicklungspotenzial. Aufgrund der Komplexität von Metaproteomproben ist die Analyse der DIA-Daten jedoch zu einem großen Problem geworden, das die umfassende Abdeckung der Metaproteomik behindert. Im Hinblick auf die Datenanalyse ist der wichtigste Schritt der Aufbau einer Proteinsequenzdatenbank. Größe und Vollständigkeit der Datenbank haben nicht nur großen Einfluss auf die Anzahl der Identifizierungen, sondern wirken sich auch auf die Analyse auf Arten- und Funktionsebene aus. Der Goldstandard für den Aufbau einer Metaproteomdatenbank ist derzeit eine Proteinsequenzdatenbank auf Basis des Metagenoms. Gleichzeitig hat sich auch gezeigt, dass die auf iterativer Suche basierende Filtermethode für öffentliche Datenbanken einen hohen praktischen Wert hat. Aus der Perspektive spezifischer Datenanalysestrategien haben peptidzentrierte DIA-Datenanalysemethoden einen absoluten Mainstream eingenommen. Mit der Entwicklung von Deep Learning und künstlicher Intelligenz werden die Genauigkeit, Abdeckung und Analysegeschwindigkeit der makroproteomischen Datenanalyse erheblich verbessert. Im Hinblick auf die nachgelagerte bioinformatische Analyse wurde in den letzten Jahren eine Reihe von Annotationstools entwickelt, mit denen Artenannotationen auf Proteinebene, Peptidebene und Genebene durchgeführt werden können, um die Zusammensetzung mikrobieller Gemeinschaften zu ermitteln. Im Vergleich zu anderen Omics-Methoden ist die funktionelle Analyse mikrobieller Gemeinschaften ein einzigartiges Merkmal der Makroproteomik. Die Makroproteomik ist zu einem wichtigen Bestandteil der Multi-Omics-Analyse mikrobieller Gemeinschaften geworden und verfügt hinsichtlich der Abdeckungstiefe, der Nachweisempfindlichkeit und der Vollständigkeit der Datenanalyse noch über großes Entwicklungspotenzial.

 

01Probenvorbehandlung

Gegenwärtig wird die Metaproteomics-Technologie in großem Umfang in der Erforschung des menschlichen Mikrobioms, des Bodens, der Nahrung, des Ozeans, des aktiven Schlamms und in anderen Bereichen eingesetzt. Im Vergleich zur Proteomanalyse einer einzelnen Spezies ist die Probenvorbehandlung des Metaproteoms komplexer Proben mit größeren Herausforderungen verbunden. Die mikrobielle Zusammensetzung in tatsächlichen Proben ist komplex, der dynamische Bereich der Häufigkeit ist groß, die Zellwandstruktur verschiedener Arten von Mikroorganismen ist sehr unterschiedlich und die Proben enthalten oft eine große Menge an Wirtsproteinen und anderen Verunreinigungen. Daher ist es bei der Analyse des Metaproteoms oft notwendig, verschiedene Arten von Proben zu optimieren und unterschiedliche mikrobielle Trennungs-, Anreicherungs-, Extraktions- und Lyseschemata anzuwenden.

Die Extraktion mikrobieller Metaproteome aus verschiedenen Proben weist gewisse Gemeinsamkeiten sowie einige Unterschiede auf, derzeit fehlt jedoch ein einheitlicher Vorverarbeitungsprozess für verschiedene Arten von Metaproteomproben.

 

02Massenspektrometrie-Datenerfassung

Bei der Shotgun-Proteomanalyse wird das Peptidgemisch nach der Vorbehandlung zunächst in der Chromatographiesäule aufgetrennt und gelangt dann nach der Ionisierung zur Datenerfassung in das Massenspektrometer. Ähnlich wie bei der Proteomanalyse einzelner Spezies umfassen die Massenspektrometrie-Datenerfassungsmodi bei der Makroproteomanalyse den DDA-Modus und den DIA-Modus.

 

Durch die kontinuierliche Iteration und Aktualisierung von Massenspektrometrieinstrumenten werden Massenspektrometrieinstrumente mit höherer Empfindlichkeit und Auflösung auf Metaproteome angewendet, und auch die Abdeckungstiefe der Metaproteomanalyse wird kontinuierlich verbessert. Eine Reihe hochauflösender Massenspektrometrieinstrumente unter der Leitung von Orbitrap werden seit langem in großem Umfang im Metaproteom eingesetzt.

 

Tabelle 1 des Originaltextes zeigt einige repräsentative Studien zur Metaproteomik von 2011 bis heute in Bezug auf Probentyp, Analysestrategie, Massenspektrometrieinstrument, Erfassungsmethode, Analysesoftware und Anzahl der Identifizierungen.

 

03Massenspektrometrie-Datenanalyse

3.1 DDA-Datenanalysestrategie

3.1.1 Datenbanksuche

3.1.2de novoSequenzierungsstrategie

3.2 DIA-Datenanalysestrategie

 

04Artenklassifikation und funktionale Annotation

Die Zusammensetzung mikrobieller Gemeinschaften auf verschiedenen taxonomischen Ebenen ist eines der zentralen Forschungsgebiete der Mikrobiomforschung. In den letzten Jahren wurde eine Reihe von Annotationstools entwickelt, um Arten auf Protein-, Peptid- und Genebene zu annotieren und so die Zusammensetzung mikrobieller Gemeinschaften zu ermitteln.

 

Der Kern der funktionellen Annotation besteht darin, die Zielproteinsequenz mit der Datenbank der funktionellen Proteinsequenzen zu vergleichen. Mithilfe von Genfunktionsdatenbanken wie GO, COG, KEGG, eggNOG usw. können verschiedene funktionelle Annotationsanalysen an durch Makroproteome identifizierten Proteinen durchgeführt werden. Zu den Anmerkungstools gehören Blast2GO, DAVID, KOBAS usw.

 

05Zusammenfassung und Ausblick

Mikroorganismen spielen eine wichtige Rolle für die Gesundheit und Krankheit des Menschen. In den letzten Jahren hat sich die Metaproteomik zu einem wichtigen technischen Mittel zur Untersuchung der Funktion mikrobieller Gemeinschaften entwickelt. Der analytische Prozess der Metaproteomik ähnelt dem der Einzelspezies-Proteomik, aufgrund der Komplexität des Forschungsobjekts der Metaproteomik müssen jedoch in jedem Analyseschritt, von der Probenvorbehandlung über die Datenerfassung bis hin zur Datenanalyse, spezifische Forschungsstrategien übernommen werden. Dank der Verbesserung der Vorbehandlungsmethoden, der kontinuierlichen Innovation der Massenspektrometrietechnologie und der rasanten Entwicklung der Bioinformatik hat die Metaproteomik derzeit große Fortschritte in der Identifizierungstiefe und im Anwendungsbereich gemacht.

 

Bei der Vorbehandlung von Makroproteomproben muss zunächst die Art der Probe berücksichtigt werden. Die Trennung von Mikroorganismen von Zellen und Proteinen in der Umgebung ist eine der größten Herausforderungen für Makroproteome, und das Gleichgewicht zwischen Trenneffizienz und mikrobiellem Verlust ist ein dringend zu lösendes Problem. Zweitens muss die Proteinextraktion von Mikroorganismen die Unterschiede berücksichtigen, die durch die strukturelle Heterogenität verschiedener Bakterien verursacht werden. Auch Makroproteomproben im Spurenbereich erfordern spezielle Vorbehandlungsmethoden.

 

Was Massenspektrometrieinstrumente betrifft, haben die gängigen Massenspektrometrieinstrumente einen Übergang von Massenspektrometern auf Basis von Orbitrap-Massenanalysatoren wie LTQ-Orbitrap und Q Exactive zu Massenspektrometern auf Basis von Ionenmobilitäts-gekoppelten Flugzeit-Massenanalysatoren wie timsTOF Pro durchlaufen . Die Instrumente der timsTOF-Serie mit Informationen zur Ionenmobilitätsdimension zeichnen sich durch eine hohe Nachweisgenauigkeit, eine niedrige Nachweisgrenze und eine gute Wiederholbarkeit aus. Sie haben sich nach und nach zu wichtigen Instrumenten in einer Vielzahl von Forschungsbereichen entwickelt, die eine massenspektrometrische Detektion erfordern, wie zum Beispiel das Proteom, Metaproteom und Metabolom einer einzelnen Art. Es ist erwähnenswert, dass der dynamische Bereich von Massenspektrometriegeräten lange Zeit die Proteinabdeckungstiefe der Metaproteomforschung begrenzt hat. Zukünftig können Massenspektrometriegeräte mit einem größeren Dynamikbereich die Empfindlichkeit und Genauigkeit der Proteinidentifizierung in Metaproteomen verbessern.

 

Obwohl der DIA-Datenerfassungsmodus für die Massenspektrometrie-Datenerfassung im Proteom einer einzelnen Spezies weit verbreitet ist, verwenden die meisten aktuellen Makroproteomanalysen immer noch den DDA-Datenerfassungsmodus. Mit dem DIA-Datenerfassungsmodus können die Fragmentioneninformationen der Probe vollständig erfasst werden. Im Vergleich zum DDA-Datenerfassungsmodus besteht das Potenzial, die Peptidinformationen der Makroproteomprobe vollständig zu erfassen. Aufgrund der hohen Komplexität der DIA-Daten stößt die Analyse der DIA-Makroproteomdaten jedoch immer noch auf große Schwierigkeiten. Die Entwicklung von künstlicher Intelligenz und Deep Learning soll die Genauigkeit und Vollständigkeit der DIA-Datenanalyse verbessern.

 

Einer der Schlüsselschritte bei der Datenanalyse der Metaproteomik ist der Aufbau einer Proteinsequenzdatenbank. Für beliebte Forschungsbereiche wie die Darmflora können Darmmikrobendatenbanken wie IGC und HMP verwendet werden, und es wurden gute Identifizierungsergebnisse erzielt. Für die meisten anderen Metaproteomik-Analysen besteht die effektivste Datenbankkonstruktionsstrategie immer noch darin, eine probenspezifische Proteinsequenzdatenbank auf der Grundlage metagenomischer Sequenzierungsdaten einzurichten. Für mikrobielle Gemeinschaftsproben mit hoher Komplexität und großem Dynamikbereich ist es notwendig, die Sequenzierungstiefe zu erhöhen, um die Identifizierung von Arten mit geringer Häufigkeit zu verbessern und dadurch die Abdeckung der Proteinsequenzdatenbank zu verbessern. Wenn Sequenzierungsdaten fehlen, kann eine iterative Suchmethode zur Optimierung der öffentlichen Datenbank verwendet werden. Die iterative Suche kann sich jedoch auf die FDR-Qualitätskontrolle auswirken, sodass die Suchergebnisse sorgfältig überprüft werden müssen. Darüber hinaus lohnt es sich immer noch, die Anwendbarkeit traditioneller FDR-Qualitätskontrollmodelle in der Metaproteomikanalyse zu untersuchen. In Bezug auf die Suchstrategie kann die Hybrid-Spektralbibliotheksstrategie die Abdeckungstiefe der DIA-Metaproteomik verbessern. In den letzten Jahren hat die auf Deep Learning basierende vorhergesagte Spektralbibliothek eine überlegene Leistung in der DIA-Proteomik gezeigt. Allerdings enthalten Metaproteom-Datenbanken oft Millionen von Proteineinträgen, was zu einer großen Menge vorhergesagter Spektralbibliotheken führt, viele Rechenressourcen verbraucht und zu einem großen Suchraum führt. Darüber hinaus variiert die Ähnlichkeit zwischen Proteinsequenzen in Metaproteomen stark, was es schwierig macht, die Genauigkeit des Spektralbibliothek-Vorhersagemodells sicherzustellen, sodass vorhergesagte Spektralbibliotheken in der Metaproteomik nicht weit verbreitet sind. Darüber hinaus müssen neue Proteininferenz- und Klassifizierungsannotationsstrategien entwickelt werden, die auf die Metaproteomanalyse von Proteinen mit hoher Sequenzähnlichkeit angewendet werden können.

 

Zusammenfassend lässt sich sagen, dass die Metaproteomik-Technologie als aufstrebende Mikrobiom-Forschungstechnologie bedeutende Forschungsergebnisse erzielt hat und darüber hinaus ein enormes Entwicklungspotenzial aufweist.


Zeitpunkt der Veröffentlichung: 30. August 2024