
膨大なビッグデータを前にした調査報道の戦略
カテゴリー: 新技術・規格 | 公開日: 2021/11/18
多くの戦略データがウェブ上に公開され、その膨大さに溺れています。パンドラ文書のような数百万のファイルのリークは、この底なし沼に拍車をかける。この急激なデータの流入に対処するため、調査ジャーナリストたちは世界中で協力し、新しい戦略を立て、強力なITツールに頼っています。
元従業員のフランシス・ハウゲンが主導したFacebookからのデータ流出事件「Facebookファイル」とは?数万枚のドキュメント、PDF、写真、スキャン、メールファイル。その大きさがイメージしにくい数字。ウィキリークスが2010年から2011年にかけて公開したアメリカ政府の外交電報が25万ファイルを超えているのに比べれば、些細なことだ。昨年10月、国際調査報道ジャーナリスト連合(ICIJ)は、パンドラ文書に含まれるPDF文書、Excelファイル、スクリーンショット、スキャンなどのコンピュータファイルの数を1,190万件以上と発表しました。
そのために、ICIJは巨大なデジタルストライクフォースを提供することで、国際的な捜査部隊をコーディネートしています。ワシントンに本拠地を置くこのNGOは、40人のスタッフを擁するメディア組織であると同時に、世界各地に数百人の調査ジャーナリストを擁するネットワークでもあります。このコンソーシアムは、パンドラ文書だけでなく、パナマ文書、パラダイス文書の背後にあるものです。コンソーシアムのテクノロジーディレクターであるピエール・ロメラは、これらの成功がある戦略に結びついていると考えています。「テクノロジーをジャーナリズムに役立てたいという思いがあります。だからこそ、ICIJの規模の小ささにもかかわらず、データや文書を処理する能力は、何百人ものジャーナリストを抱えるメディアよりもはるかに強いのです。
コンソーシアムが開発した、数百万件の文書を様々な表現で検索できるソフトウェア「Datashare」のユーザーインターフェース。ピエール・ロメラ
ICIJが開発したソフトウェア「Datashare」は、何百万もの文書からテキストを抽出する役割を担っています。部分的に機械学習、非常に複雑なアルゴリズムを使用しています。人名、地名、団体名、請求書などのファイル形式を認識するアルゴリズムである "抽出パイプライン "をベースにしています」とPierre Romera氏は説明します。これらの名前や形状は、スプレッドシートで参照され、対応するファイルへのリンクが貼られます。
コンソーシアムに参加しているジャーナリストが情報交換するネットワーク「iHub」のホームページです。ピエール・ロメラ
独自のソフトウェアを開発したり、オープンソースに頼ったりすることは、ニュースルームにとって戦略的な独立性の問題です。でも、高いんですよね。トム・ルブランは、デジタルおよびインテリジェントなソフトウェアを専門とする弁護士です。潤沢な資金を持たないメディアは、自社でシステムを開発することができますが、時間を節約できる一方で、そのコードを所有する会社が好きな時にアクセスを遮断できるようなプライベートコードに取り組まないように注意しなければなりません」と述べています。
お金は常に重要です。ICIJは、財団(90%)と個人からの寄付により、2019年の年間予算は600万ユーロでした。そのソフトウェアは、すべてのメディアが自由に利用できます。禁断の物語コンソーシアムがイスラエルのスパイウェアを調査した「ペガサス・プロジェクト」は、調査ジャーナリスト同士のコラボレーションの一例です。
コンピュータのコードを整理する
近年の技術開発により、何百万ものファイルを整理する時間を短縮することが可能になりました。「2010年のウィキリークスの電報を覚えています。同僚は、これらの文書の一部だけに直面し、データが高度に構造化されているにもかかわらず、キーワードで検索するのに世界中で苦労しました。今日では、スマートフォンでこのような検索がすぐにできます」と語るのは、スイスのメディア企業Tamedia社の調査ジャーナリストであり、イノベーションプロジェクトマネージャーでもあるタイタス・プラットナー。特にICIJは、オープンソースのソフトウェア上でアルゴリズムを開発し、何千もの文書を分類して共有するのに役立てています。パンドラペーパーの抽出にかかった費用は1万5千ドルから2万ドルだった。内部告発者がコンソーシアムに連絡してパナマ文書などのデータを提供すると、ピエール・ロメラは手作業または遠隔操作でデータを回収します。電子メールからPDFまで、Word、Excel、画像など、さまざまな形式のドキュメントからテキストを抽出できるツールを使用しています。この作業には長い時間とコストがかかり、パンドラペーパーの抽出には15,000~20,000ドルの費用がかかります。(現在、私たちは約60台のサーバーで、調査に役立つICIJのすべてのサービスを実行しています」。

世界で活躍する
整理されたデータは、ICIJネットワークのメンバーに公開されます。というのも、Datashareはデータを抽出するだけでなく、共有や研究のためのツールでもあるからです。Delphine Reuter氏は、コンソーシアムのデータジャーナリストです。"最初にファイルの特定の編成があった場合、Datashareではその編成を見ることができます。そのため、ジャーナリストがあるドキュメントに特定の名前があって興味を持った場合、同じファイルに含まれるすべてのドキュメントも見ることができます。 ICIJの技術チームは、調査報道ジャーナリストのためのソーシャルネットワークのようなものも開発しました。最初の監禁事件でテレワークが普及するずっと前から、ネットワークはクラウド型プラットフォーム「Global iHub」で運用されていました。「ジャーナリストのコンピュータからアクセスできる安全なプラットフォームで、ジャーナリストは自分の研究を共有しています。興味のあることに応じてグループを作り、お互いにコミュニケーションをとることができます」とデルフィーヌ・ロイターは説明します。ファイルから発見された名前はすべて、その地域に対応するグループに掲載されます。ジャーナリストは、Datashareに保存されている文書を調べ、アルゴリズムによって特定された名前を確認したり、確認しなかったりして、調査を始めることができます。