欧州の研究機関、数百万人の研究者に向けてこれまでになくスピーディにデータを公開

20%

Faster preparation of dataset

75%

Database storage savings

European Bioinformatics Institute(EMBL-EBI/欧州バイオインフォマティクス研究所)は、ライフサイエンス分野のデータセットの保管、分析、配布を行うグローバルリーダーです。科学者が人類に役立つ発見ができるように、複雑な情報を扱う支援をしています。毎年200万人を超える研究者が、自由に閲覧可能なEMBL-EBIのライフサイエンスデータにアクセスしています。EMBL-EBIは、加盟国21か国と準加盟国2か国の出資によって設立された、英国に拠点を置く非営利の政府間研究組織です。

EMBL-EBIは、50ペタバイトを優に超えるデータを管理しており、そのデータ量は毎年2倍に増えています。この自由に閲覧可能なライフサイエンスデータに対して、医学、農業、環境科学の研究者が1か月に1,200万件を超えるリクエストを出しています。このデータの管理は米国および日本の協力者と共同で行われています。

EMBL-EBIでは、ゲノム配列データが使用可能なストレージの大部分を占めています。また、支援テクノロジーの価格が下がり続けているため、この科学領域に対する要望が急速に高まっています。EMBL-EBIの研究者は、ゲノム配列や他のデータタイプに関する情報を定期的に追加しており、データベースの効率性と拡張性を向上する革新的な方法を見つける必要があります。

課題

世界規模の研究活動には、参照用ゲノムデータの収集、編纂、公開が不可欠で、特に個別化医療の領域では、医療革新の主要な推進力となります。しかし、データはサイズが大きく、複雑であるため、内外問わず、移動がますます困難になっています。

EMBL-EBIでは、データ公開の準備に最大3か月かけていました。その大半の時間は、チーム間でのデータベースコピーの引き渡しと、その過程での異なる分子や相互作用に関する情報の追加に費やされていました。月間1,200万件というリクエストもまた、ヒンクストンの開発分析データセンターからロンドンの公共サービスデータセンターにデータセットを繰り返しコピーして移動するという時間のかかる作業が必要でした。

所在地未公開の第3のデータセンターは、ディザスターリカバリ用に使用されており、3か所すべてのデータセンターのデータベースとファイルが定期的にレプリケートされています。個々のデータセットは、7ペタバイトほどのサイズがあり、そのメタデータはOracle、MySQL、PostgreSQL、NoSQLのデータベースにわたる500個のリポジトリに保管する必要があります。

EMBL-EBIは、複数のデータベースソースにわたって配置されている非常に大規模なデータを処理し、複数の場所にフルコピーを提供できるプラットフォームを必要としていました。ゲノム配列データの構築とテストには、大規模なデータが必要で、データのサブセット化は必須でした。EMBL-EBIは分散型インフラストラクチャを抱えていたので、データベースの公開とレプリケーションは不可欠でした。

ソリューション

EMBL-EBIは、Delphixをベースにデータベースの見える化を目指すデータアジリティプロジェクトを始動しました。データベースを見える化できれば、作業チームは以前よりもすばやく頻繁に研究データを準備して公開することができます。EMBL-EBIはDelphixの導入を無事に終え、現在はテストおよび開発業務をサポートする、50を超える仮想データベース環境をホストしています。また、本番稼働を続けながら、一般的な内部使用を目的とした本番環境データベースの読み取り専用の追加コピーも提供しています。

成果

現在、開発者とエンジニアは、一時的なデータ環境を必要なときに数分で自ら取得できるようになりました。

Tまた、過去のデータを取得する際には、アーカイブにアクセスする必要もなく、あらゆる時点のデータにさかのぼることができます。

EMBL-EMIはDelphixによって次のことが実現できると予測しています。

  • データ準備期間を20%短縮する

  • 探索的研究、ベンチマーキング、または開発の活動を増やす

  • 開発、編纂、またはDBAのスタッフを追加せずに生産性を向上する

  • データベースストレージの総設置面積を70%削減する

  • データ公開の頻度を高める

Delphixは今後の計画に、データインフラストラクチャの統合強化、データセンター間のレプリケーション、バックアップおよびリカバリの機能強化などを盛り込んでいます。

PDFのダウンロードはこちら