|
Thursday, 29. December 2005 |
SIMAP ist eine Datenbank, in der die Ähnlichkeiten aller derzeit bekannten Proteinsequenzen untereinander gespeichert sind. Man kann sich das als Matrix vorstellen, die quadratisch ist bei einer Kantenlänge von ca. 4 Mio. Proteinsequenzen die wir momentan speichern. Der Inhalt der Matrix ist symmetrisch, das heisst wenn Protein 1 dem Protein 2 ähnlich ist, dann ist es umgekehrt genauso.
SIMAP ist weltweit das einzige derartige Projekt, bei dem wirklich alle Proteine einbezogen werden. Das "Konkorrenzprojekt" clustr am Euro Bioinformatics Institute beschränkt sich derzeit auf ca. 1/5 unserer Datenmenge.
Wem nutzt SIMAP?
Proteinähnlichkeiten geben Hinweise auf die Verwandschaftsverhältnisse zwischen Proteinen. Verwandte Proteine haben oft gleiche oder ähnliche Eigenschaften und Funktionen im Organismus, da sie sich im Lauf der Evolution nur langsam verändern. Da man derzeit viel mehr Proteinsequenzen kennt als man eingehend in Labors untersuchen kann, werden die experimentellen Erkenntnisse über ein Protein auch auf dessen Verwandte übertragen. Ein gutes Beispiel dafür ist die intensive Untersuchung von Mausgenen und -proteinen, deren Ergebnisse oft auch für den Menschen gültig sind.
Darüber hinaus gibt es noch viele weitere Methoden in der Bioinformatik, die auf Proteinähnlichkeiten basieren. Unsere Proteinähnlichkeitsdatenbank stellt all diesen Methoden die vorberechneten Ähnlichkeiten aller bekannten Proteine zur Verfügung. Dadurch eröffnen sich neuartige Möglichkeiten, denn bislang würden die Ähnlichkeiten immer und immer wieder neu berechnet. SIMAP wird regelmässig aktualisiert und muss nur neu hinzukommende Sequenzen in die Matrix integrieren (sogenannte inkrementelle Updates). SIMAP ist für Forschung und Lehre vollständig kostenlos verfügbar.
BoincSIMAP:
Da der Berechnungsaufwand für eine solche Matrix quadratisch mit der Grösse der Matrix steigt, sind unsere internen Ressourcen (gridengine-cluster unter Linux) schon lange nicht mehr ausreichend.
Daher haben wir einen boinc-client implementiert, der auf den Quellen von FASTA aufbaut, eines heuristischen Programms zur Sequenzähnlichkeitssuche. Diesen client gibts nun seit ca. einem Jahr, aber wir haben bislang nur Tests mit ihm gefahren. Anfang gab es verschiedene Probleme, die mit dem Boinc-Team um David Anderson behoben werden mussten. Momentan stellen wir den Client nochmal etwas um, da sich die Berechnungsprozedur etwas verändert hat.
Der boincsimap-Client ist ein "Minimal"-Client ohne Screensaver-Grafik etc., da wir erstmal Wert auf die Funktionalität gelegt haben.
Ist SIMAP@home öffentlich?
Ja, es wird öffentlich werden. Auch wenn anfangs nur ein interner Einsatz (Clients auf den PC-Pools der TU München und Fachhochschule Weihenstephan) geplant war, wollen wir gern mit allen Interessierten zusammenarbeiten. Wir werden das Projekt vorauss. im September/Oktober öffentlich machen, dann wird es auch auf boinc.berkeley.edu bekanntgegeben. Eine Publikation über das Projekt ist auch schon fertig und momentan under review. Bis dahin werden wir die SIMAP@home-Webseite entsprechend gestalten, Dokumentationen und Informationen bereitstellen etc.
Wer betreibt SIMAP?
SIMAP ist ein Gemeinschaftsprojekt des GSF-Forschungszentrums für Gesundheit und Umwelt in Neuherberg bei München und der Technischen Universität München, Wissenschaftszentrum Weihenstephan.
Ansprechpartner ist Thomas Rattei vom Lehrstuhl für Genomorientierte Bioinformatik.
Originaltext von Thomas Rattei, Technische Universität München
Die offizielle Homepage von SIMAP: http://boinc.bio.wzw.tum.de/boincsimap/
|