5.画像の圧縮と画質    5.6 ビッグデータ

5.6 ビッグデータ

前ページ

 現在は大量データの時代であり、今までの単一データ圧縮技術の研究から、データ集合の圧縮が研究課題となっています。今までの優れた圧縮法は、入力データ全体に対するランダムアクセスを前提にしています。データ全体を一度に読み込みその偏りを利用して圧縮しています。しかし、データ全体を調べることはそう簡単ではありません。
 圧縮アルゴリズムの性能を評価するものさしとしては、[圧縮率][メモリ使用量][計算時間]があります。多くの人にアクセスしてもらいたいHPを作成する場合には、使用する画像の圧縮率を高くしてデータ転送時間を短くし、そこそこの短時間で所期の画質のHPを閲覧させようと、昔人間の私は考えます。そのために画像の性質に適した圧縮が可能な方法を選定します。最近ではデータ転送速度が格段に速くなり、使用する機器も高度化していますので、データ圧縮に関してほとんど気にしない開発者が増えてきていますが、きれいだけどすごく重いHPは、私はあまり好きではありません。
 常時大量データのやり取りをする機関では、転送時間とデータ保護を目的として、データ圧縮と暗号化を行い転送するデータ量を減少します。しかし、転送後に元のデータに戻して表示させたい場合に、そのための計算時間が長くかかると本末転倒となります。暗号化の場合には、素数ペアの暗号キーを用いて、暗号の復号化を短時間で行い、かつ、他者が復号化を試みるのに現実的には復号化に困難な膨大な時間が必要にしています。
 ビッグデータは、実世界を反映する多種多様なコンテンツ、あるいはそのコンテンツに加えて社会活動の要求に即時対応し、多角的に処理・解析を行い、新たな社会的価値を生み出す一連の過程を含む全体を指しています。ビッグデータの課題は、(1)増大するデータの蓄積・管理、(2)大容量データの高効率処理、(3)多様なデータからの価値あるコンテンツの抽出・生成、(4)プライバシー保護とセキュリティーが考えられます。
(1)増大するデータの蓄積・管理
 蓄積されたデータすべてを利用することが前提です。過去のアナログデータのデジタル化と日々生成されるデータを共通に利用できることが重要です。
(2)大容量データの高効率処理
 処理の高速化と結果の高精度化という相反する要素が同時に求められます。全データを対象とした効率の良い解析処理が大きな課題です。センシング技術の発達により、社会のさまざまな場所にセンサが設置され、多量のデータがリアルタイムに処理されていて、それらのデータを統合して対処する即時性が更に重要な課題となっています。
(3)多様なデータからの価値あるコンテンツの抽出・生成
 多種多様なデータの中から「価値ある」コンテンツの抽出・生成を行うためには、(1)多種なデータを同時に扱い、(2)多様なデータの中から使える結果を探す、という課題があります。多種なデータでは、構造化された少数のデータのほかに構造化されていない膨大なデータがあり、その処理には多くのコストが必要になります。価値観の異なる多くの人が存在する中で、使える結果を探すのは一筋縄にはいかないため、データサイエンティストが必要とされています。
(4)プライバシー保護とセキュリティー
 検索サイトにおける多数のユーザの膨大なアクセスログから、利用しているユーザに有用な結果としてフィードバックされていますが、個々のデータが匿名化されたとしても大量のデータを突き合わせれば、個人が特定できる可能性は高く、プライバシー保護を如何に確保するのかが問題です。
 プライバシー保護技術、データアクセスセキュリティー技術、暗号化技術など、データを守る技術は様々の種類が存在します。
 データマイニングは、20世紀が終わる頃に一躍脚光を浴びた言葉で、データの山から価値あるデータを掘り起こすことです。20世紀の間は計算機パワーとコストの制限で、相関関係処理はデータ量に制限がありましたが、効率よいアルゴリズムの提唱(R.Agawal, T.Imielinski, A.N.Swami, "Mining association rules between sets of items in large databeses", Proc. ACM SIGMOD93, pp.207-216(1993).)と記憶容量を含めた計算機能力の急速な発達により、全件検索による相関解析はデータ解析処理の標準的な機能になっています。
 人が扱えるデータ量の範疇を超えた大量のデータを如何に扱うかのが重要な課題で、機械学習アルゴリズムの進展に期待がかかっています。数ある解説書の中で、中野美由紀, 「ビッグデータ統合利活用における課題と技術」(電子情報通信学会誌, Vol.97, No.5, pp.343-347(2014).)が分かりやすく感じました。

次ページ   2014.10.10作成 2017.1.25改定

小川技研サイト
可逆・非可逆

・熱力学では、ある系の状態が、別の状態に変化するとき、熱と仕事の出入りを逆にして、同じ経路を逆にたどって元の状態に戻ることができることを可逆(Reversible)と言います。系と熱および仕事のやりとりをした周囲には何の変化も起こりません。

・非可逆圧縮とは、圧縮前のデータと、圧縮・展開を経たデータとが完全には一致しないデータ圧縮方法のことです。

・人間が知覚しにくい情報部分を大幅に減らし、感じやすい部分の情報のみを多く残すようにすると、元のデータは欠落・改変するものの、すべてのデータを均一に扱う可逆圧縮と比較して圧倒的な圧縮率が得られ、なおかつ見た人には欠損部分が気にならない方法が開発されています。