
テープとDNAで、爆発的に増えるデジタルデータに対応する
カテゴリー: 新技術・規格 | 公開日: 2022/8/22
研究、産業、個人はますます多くのデジタルデータを蓄積しています。そのため、ハードディスクなどのレコーダーはすぐにオーバーフローしてしまうほどです。DNAを利用した最新技術を待ちながら、その不足分を補うために、磁気カセットという古のモノが常に進化を続けているのです。
Instagramの写真、ドライブに保存された動画、電子メール...一人ひとりが蓄積するデジタルデータは相当な量に上り、4K動画やNetflixのストリーミングなど、私たちが自由に使える新しい技術によって常に増加しています。これらすべてはハードディスクではなく、時には数百キロメートルも離れた「クラウド」に保存されているのです。しかし、このデータは非常に身近なものではありますが、ビッグデータの最大の貢献者ではありません。
研究の方がよっぽど貢献度が高い。ジュネーブ近郊にある欧州原子核研究機構(CERN)は、その創設以来、100ペタバイト(Po)以上の画像、生データ、情報を蓄積し、後世の研究者のために保存しています。100PBは、個人向けに販売されている1テラバイト(TB)のハードディスク約102,400台分に相当します...。
M87*ブラックホールの初画像には、膨大な量のデータが必要でした。イベントホライゾンテレスコープ(EHT)/米国科学財団/ハンドウ
M87*ブラックホールの初画像には、膨大な量のデータが必要でした。イベントホライゾンテレスコープ(EHT)/米国科学財団/ハンドウ
最初のブラックホールの写真には、ほぼ5PB(1TBのハードディスク5,000台分)が必要でした。ビッグデータの貢献者は、TwitterやEDF、あるいは何らかの形でデジタル化された企業などの業界である。
2021年10月5日、ユタ州イーグルマウンテンに建設されたFacebookのデータセンター。ゲッティ イメージズ via AFP - GEORGE FREY
2021年10月5日、ユタ州イーグルマウンテンに建設されたFacebookのデータセンター。ゲッティ イメージズ via AFP - GEORGE FREY
しかし、この70年間、研究者たちはフロッピーディスクからハードディスクに移行し、ストレージシステムの小型化、大容量化を続けてきた。しかし、2020年に発表されたワーキンググループの報告書は、その結論において、半導体のムーアの法則が電子・磁気記憶装置にも適用されることを想起させるものであった。"小型化 "と "最適化 "は無限にできるわけではありません。数十年にわたり、2年ごとに生産能力を倍増させ、価格を半減させてきたが、この最適化のスピードが落ちてきているのだ。物理的な限界に達しつつあり、まだ期待できる最適化は比較的少ない」とFrançois Képèsは言う。
IBMの科学者マーク・ランツ氏が手に持っているのは、数百TBのテープである。写真提供:IBMリサーチ
IBMの科学者マーク・ランツ氏が手に持っているのは、数百TBのテープである。写真提供:IBMリサーチ
しかし、磁気カセットは1台のプレーヤーで何本ものカセットを読み取ることができるのに対し、ハードディスクは1台ごとに読み取りシステムがあるため、電子的な負荷が少ないという利点がある。また、カセットはハードディスクと違って何十年も使えるし、エネルギー効率も良い。
しかし、カセットはいくら高性能とはいえ、物理的なスペースを取りすぎるし、これからの大容量データのサイズには対応できない。だから、ギアを上げる必要があるんです。そして、これこそがFrançois Képèsのワーキンググループが目指したものである。「ガラスや水晶への彫刻、DNAなどの高分子への保存など、論理的に検討しました。時間的に余裕があり、十分な改善要素を持つ技術としては、高分子への保存しかないと思われました」と研究者は総括する。
DNAの塩基配列は4種類のモノマーで構成されています。A, C, T, G. Getty Images - alanphillips
DNAの塩基配列は4種類のモノマーで構成されています。A, C, T, G. Getty Images - alanphillips
まず、デジタルファイルをエンコードするために、どのモノマー配列をアライメントするのかを決定する必要があります。ここで、Aを0 0、Cを0 1、Gを1 1、Tを1 0と想像してみる。完全にダミーの例で考えてみましょう。01 11という符号化された写真を保存したい場合、コンピュータは01 11をCGに「翻訳」しなければならないことになる。これがエンコードで、ファイルはエンコードされています。そこで、DNAにCGを「化学的に」書き込んで、必要なときに取り出せるように保存しておく必要があります。
それを読み取ると、ソフトウェアが文字の並びをバイナリコードに変換し、画面上の写真を再構成してくれる。要約すると、エンコード、ライティング、ストレージ、リーディング、デコーディングの5つのステージがあります。
しかし、なぜ私たちの情報をDNAに保存するのでしょうか?符号化できる情報量(情報密度)、エネルギー効率、耐久性に優れているからです。データセンターとは異なり、DNAは冷却する必要がない。フランスのイマジーン社が開発したカプセル化技術により、室温で最長5万2000年まで保存することができる。
https://youtu.be/7omyj9zjmnk?t=42
1つのカプセルに最大0.8gのDNA、または1.4エクサバイトのデータを格納することができます。1エクサバイトとは、1TBのハードディスク100万台分に相当し、0.8gのDNAは、150トンのハードディスクに匹敵する情報量を持つことになります。2025年に175ゼタバイトのビッグデータを保存するためには、わずか175キロのDNAが必要になります。アメリカのDARPAは、DNAによってデータのエネルギー消費を1000分の1にすることができると考えている。

物理的限界
2010年から2020年にかけて、巨大データに含まれる情報量は、2ゼタバイト(200万PB)から60ゼタバイトへと30倍以上に増加した。そして、そのペースは加速しています。2025年には、人類は175ゼタバイトのデータを生成すると予測されています。 2018年から2021年にかけて、デジタルデータストレージに関する予見ワーキンググループを担当した細胞生物学者のフランソワ・ケペスは、「2018年には、地球の陸地の100万分の1がデータセンターに占拠された」と説明する。この指数関数的なペースでいくと、2060年には世界中の国土がデータセンターで覆われることになります。
バックアップソリューションであるカセット
電子記憶装置が限界を迎えつつある中、カセットは記録を更新し続けている。そう、昔のビデオカメラやカセットプレーヤーに入れていた、巻き戻しを間違えるとテープがあちこちに飛び出してしまうカセットのことです。しかし、現在の開発済みテープは、昨日までのものとは全く違う。富士フイルムとIBMの最新記録は580TBで、これは1990年代のオーディオカセット7600万本分(60MB/カセット)に相当する。こちらは2017年に330TBを記録した時の映像です。 https://youtu.be/Wm1JiI6CppU 髪の毛の20分の1の薄さで、1キロメートル以上の長さのテープが、手のひらに収まるカセットは、あと数年で、その姿を現す。IBMのテープ研究者であるマーク・ランツ氏は、「これは、少なくとも今後10年間は、基本的に2年ごとにカートリッジ容量を2倍にするという過去のレートで、テープ技術の拡張を続けられる可能性を如実に示している」と述べている。 次の10年...そしてその先?この時間軸を強調することで、マーク・ランツもストレージに携わる多くのエンジニアと同様に、電子ストレージや磁気ストレージの限界を十分認識していることがわかる。どちらもエネルギーやスペースの面で莫大な資源を消費する。
DNAを待ち望む
DNA?慌てないでください。生き物の中に情報を保存したり、誰かの中に直接手を加えたりすることは問題ないのです。たしかに、これまで細菌や芽胞でできるのではないかと想像されてきましたが、もはやこれはメインのアプローチではありません。 DNAは、生物の生殖や発達のための指令が書かれた大きな分子の鎖である。ここで気になるのは、「インストラクション」という言葉だ。DNAは、A、C、G、Tの4つのモノマー(2つのらせんをつなぐ "棒")からなる鎖である。このモノマーの配列(例えばAAGTTCCGAT)が情報を与える。ちょうど、すべてのコンピュータシステムの原点である1と0を基本とした二進法のようなものだ。