Cassandra ドキュメント

バージョン

DataStax用語集

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

A

アンチエントロピー

データが最新であることを保証するために、ノード上のレプリカデータを同期すること。

近似最近傍 (ANN)

データセット内の特定の項目に最も類似したベクトルを特定する機械学習アルゴリズム。

認証

ユーザーまたはアプリケーションのIDを確立するプロセス。

承認

ロールを通じてデータベースリソースへの権限を確立するプロセス。

B

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

バックプレッシャー

バッファリングされたリクエストの内部処理が追いつくまで、しきい値に達した後、着信リクエストのバッファリングを一時停止またはブロックすること。

ブルームフィルター

ディスクI/Oを実行する前に、リクエストされた行のデータがSSTableに存在するかどうかをチェックする、各SSTableに関連付けられたオフヒープ構造。

ブートストラップ

新しいノードがクラスターに透過的に参加し、既存のノードから必要なデータを収集するプロセス。

C

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

カーディナリティ

列の一意の値の数。たとえば、従業員ごとに一意のID番号の列はカーディナリティが高く、複数の従業員が同じ郵便番号を持つ可能性があるため、従業員の郵便番号の列はカーディナリティが低くなります。

カーディナリティの低い列のインデックスは、インデックスが列よりも大幅に小さいため、読み取りパフォーマンスを向上させることができます。カーディナリティの高い列のインデックスは、パフォーマンスを低下させる可能性があります。アプリケーションでカーディナリティの高い列の検索が必要な場合は、マテリアライズドビューが理想的です。

セル

格納されたデータの最小単位。行と列の交点に値が含まれています。

クラスター

ゴシッププロトコルを使用してメッセージを交換する2つ以上のデータベースインスタンス。

クラスタリング

インデックスを作成し、インデックスに基づいてデータを順序どおりに保つストレージエンジンプロセス。

クラスタリング列

テーブル定義では、クラスタリング列は複合主キー定義の一部である列です。クラスタリング列は、パーティションキー用に予約されているため、最初の列にはできないことに注意してください。列は、単一のパーティション内の複数の行でクラスタリングされます。クラスタリング順序は、複合主キー定義における列の位置によって決定されます。

合体戦略

同じデータセンター (intra-DC) 内のノードまたは異なるデータセンター (inter-DC) 内のノードへのアウトバウンド TCP 接続のために、複数のネットワークメッセージを単一のパケットに結合する戦略。合体戦略には、保留中のメッセージのブロッキングキューと、送信するメッセージの出力コレクションが提供されます。

データの最小単位。名前、値、タイムスタンプが含まれています。

列ファミリー

リレーショナルシステムのテーブルに似た、行のコンテナー。CQL 3ではテーブルと呼ばれます。

コミットログ

ハードウェア障害が発生した場合にリカバリするために、データベースが変更されたデータを追加するファイル。

コンパクション

SSTableを統合し、墓石を破棄し、SSTableインデックスを再生成するプロセス。利用可能なコンパクション戦略は次のとおりです。

複合パーティションキー

複数の列で構成されるパーティションキー。

複合主キー

データが格納されるノードを決定するパーティションキーと、クラスタリングを決定する1つ以上の追加ので構成される主キー。

整合性

クラスター内のレプリカ上のデータの同期。整合性は、弱い整合性または強い整合性として分類されます。

整合性レベル

書き込みを承認するか、それぞれ読み取りリクエストに応答するクラスターレプリカの数によって、書き込みまたは読み取りが成功したことを定義する設定。

コーディネーターノード

クラスター構成のスニッチに基づいて、リング内のどのノードがリクエストを取得する必要があるかを決定するノード。

コサイン類似度

多次元空間内の2つの非ゼロベクトル間の類似度を測定するメトリック。ベクトルの間の角度のコサインを定量化します。角度は、各ベクトルの互いに対する方向と方向を表します。ゼロ (0) は、完全に類似していないことを示します。マイナス1 (-1) は、ベクトルの正確な反対方向を示します。1 (1) は、完全な類似性を示します。

CQLシェル

Cassandraクエリ言語シェル (cqlsh) ユーティリティ。

クロスデータセンター転送

あるデータセンターから別のデータセンターのノードにデータを送信することにより、データセンター間のレプリケーションを最適化するための手法。受信ノードは、そのデータセンター内の他のノードにデータを転送します。

D

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

データセンター

レプリケーションとワークロード分離の目的で、クラスター内で一緒に構成された関連ノードのグループ。必ずしも別の場所や物理的なデータセンターであるとは限りません。データセンター名は、大文字と小文字が区別され、変更することはできません。

データ型

特定の種類のデータ項目で、取りうる値や実行できる操作によって定義されます。

非正規化

非正規化とは、冗長なデータを追加したり、データをグループ化したりすることにより、データベースの読み取りパフォーマンスを最適化するプロセスを指します。このプロセスは、複数のテーブルでデータを複製するか、クエリのためにデータをグループ化することで実現します。

E

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

EBNF

EBNF (拡張バッカス・ナウア記法) 構文は、言語を正式に記述するコンテキストフリー文法を表します。EBNFは、拡張で許可される追加の演算子を使用して、前身のBNF (バッカス・ナウア記法) を拡張します。構文 (鉄道) 図は、EBNF文法をグラフィカルに描写します。

埋め込み

機械学習における数学的手法。複雑な高次元データが低次元空間の点として表現されます。埋め込みを作成するプロセスでは、距離や類似性などの元のデータの関連プロパティが保持され、計算処理が容易になります。たとえば、自然言語処理 (NLP) において、意味が類似している単語は、機械学習モデルでの使用を容易にするために、縮小された空間で互いに近くに設定できます。

ユークリッド距離

2点間の座標幾何学的な非負の距離メトリックで、ベクトルとして表されるデータ点間の類似性または非類似性を定量化します。生成されたサンプルを実際のデータポイントと比較するために使用します。

結果整合性

データベースは可用性とパーティション許容度を最大化します。データベースは、読み取り操作中にすべてのレプリカを更新し、直接アクセスされないレプリカを定期的にチェックおよび更新することにより、最終的なデータ整合性を保証します。更新とチェックにより、すべてのクエリで常に最新の結果セットが返され、任意の指定された行のすべてのレプリカが最終的に互いに完全に整合することが保証されます。

F

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

G

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

ガベージコレクター

プログラムで使用されなくなった場合にヒープメモリを解放するJavaバックグラウンドプロセス。メモリを割り当ててクリーンアップする主なJavaアルゴリズムは、Continuous Mark Sweep (CMS) と Garbage-First (G1) です。

ゴシップ

ノード間で場所と状態情報を交換するためのピアツーピア通信プロトコル。

H

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

HDD

ハードディスクドライブ (HDD) またはスピニングディスクは、1つ以上の剛性のある高速回転ディスクを使用してデジタル情報を保存および取得するために使用されるデータストレージデバイスです。SSDと比較してください。

HDFS

Hadoop分散ファイルシステム (HDFS) は、パフォーマンスを向上させるためにノードにデータを格納します。HDFSは、HadoopディストリビューションのMapReduceに加えて必要なコンポーネントです。

ヘッドルーム

処理されるデータによって占有されるスペースに加えて、プロセス (コンパクションなど) に必要なディスクスペースの量。

ヒント

Cassandraがすべての更新が最終的にすべてのレプリカによって受信されるという結果整合性の保証を実装する、リード修復と完全/増分アンチエントロピー修復に加えて、3つの方法の1つ。

I

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

べき等

結果を変更せずに複数回発生する可能性のある操作。たとえば、結果に影響を与えることなく同じ更新を複数回実行するなど。

イミュータブル

上書きできないディスク上のデータ。

インデックス

主キーを使用せずにデータベース内の列を検索するためのネイティブ機能。

J

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

ジャカード類似度

生成されたデータと実際のデータの機能または要素の2つのセット間の類似度の尺度。数学的な計算は、2つのセットの積集合のサイズをそれらの和集合のサイズで割ったものであり、ゼロ (0) から1 (1) の範囲です。1 (1) は、同一のセットを示します。

K

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

キースペース

各データセンターのノードでデータがどのようにレプリケートされるかを定義する名前空間コンテナー。

L

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

LeveledCompactionStrategy (LCS)

このコンパクション戦略では、レベルにグループ化された固定の比較的小さいサイズのSSTableが作成されます。各レベル内では、SSTableが重複しないことが保証されています。各レベル (L0、L1、L2など) は、前のレベルの10倍の大きさです。SSTableが連続して大きなレベルにコンパクションされるため、ディスクI/Oは、低いレベルよりも高いレベルでより均一で予測可能になります。各レベルで、行キーは次のレベルの重複しないSSTableにマージされます。このプロセスにより、データベースが行キーデータの存在を確認するために各レベルのどのSSTableをチェックするかを判断できるため、読み取りのパフォーマンスが向上します。

線形化可能整合性

シリアライズ可能な整合性とも呼ばれるリニアライズ可能な整合性とは、ある操作が完了するまで、別の操作を実行できないという制約です。

データベースは、書き込みにおけるリニアライズ可能な整合性を確保するために、軽量トランザクションをサポートしています。軽量トランザクションの最初のフェーズは、SERIAL整合性で動作し、必要な操作が成功することを保証するためにPaxosプロトコルに従います。このフェーズが成功すると、書き込みは操作に指定された整合性レベルで実行されます。SERIAL整合性レベルで実行される読み取りは、データベース組み込みの読み取り修復操作なしで実行されます。

listen address(リッスンアドレス)

ノードがバインドし、他のCassandraノードにノードへの接続を指示するアドレスまたはインターフェース。

M

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

Machine Learning (ML)(機械学習)

明示的な指示なしに学習および適応できるコンピュータシステムを使用および開発する、人工知能(AI)とコンピュータサイエンスの分野。MLは、アルゴリズムと統計モデルを使用してデータを分析し、パターンを特定し、意思決定を行い、システムを改善します。

MapReduce

大規模なデータセットを迅速に処理するHadoopの並列処理エンジン。HadoopディストリビューションのMapReduceに加えて必要なコンポーネント。

materialized view(マテリアライズドビュー)

マテリアライズドビューとは、別のベーステーブルから自動的に挿入および更新されるデータを持つテーブルです。ベーステーブルとは異なるプライマリキーを持ち、異なるクエリの実装を可能にします。

memtable

データベーステーブル固有の、ライトバックキャッシュに似たインメモリデータ構造。

mutation(ミューテーション)

ミューテーションは、挿入または削除のいずれかです。

N

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

Natural Language Processing (NLP)(自然言語処理)

コンピュータが人間の言語を解釈し、共有して、ユーザーに最適な利用方法を提供できるように支援します。

node(ノード)

ライセンスされたソフトウェアのインスタンスを実行するJava仮想マシン(Javaバイトコードをマシン語に変換して実行するプラットフォームに依存しない実行環境)。

node repair(ノード修復)

レプリカ上のすべてのデータを一貫性のある状態にするプロセス。

normalization(正規化)

正規化とは、データベースのスキーマ内の冗長性を排除し、データ不整合の可能性を減らすために使用される一連のステップを指します。DataStax Enterpriseでは、クエリのために複数のテーブルでデータを結合するには、より多くのノードにアクセスする必要があるため、このプロセスは非効率的です。

O

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

OLTP

オンライントランザクション処理(OLTP)は、データ入力と取得のための多数の短いオンライントランザクションによって特徴付けられます。

P

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

partition(パーティション)

パーティションは、キーによってアドレス指定可能なデータのコレクションです。このデータは、Cassandraクラスター内の1つのノードに存在します。パーティションは、レプリケーションファクターで指定されている数だけノードにレプリケートされます。

partition index(パーティションインデックス)

プライマリキーとデータの開始位置のリスト。

partition key(パーティションキー)

パーティションキーは、Cassandraクラスターが要求されたデータがどのノードに存在するかを知るのに役立つ論理エンティティを表します。

パーティションキーは、プライマリキー定義で宣言された最初の列です。複合キーでは、複数の列がプライマリキーを形成する列を宣言できます。

partition range(パーティション範囲)

構成されたパーティショナーによって異なるパーティションの制限。Murmur3Partitioner(デフォルト)の範囲は-263から+263で、RandomPartitionerの範囲は0から2127-1です。

partition summary(パーティションサマリー)

パーティションインデックスのサブセット。デフォルトでは、128個ごとに1つのパーティションキーがサンプリングされます。

Partitioner(パーティショナー)

クラスター全体にデータを分散します。パーティショナーの種類は、Murmur3Partitioner(デフォルト)、RandomPartitioner、およびOrderPreservingPartitionerです。

modules/ROOT/pages/glossary.adoc内の未解決のincludeディレクティブ - include::ROOT:partial$persistent-volume.adoc[]

modules/ROOT/pages/glossary.adoc内の未解決のincludeディレクティブ - include::ROOT:partial$persistent-volume-claim.adoc[]

primary key(プライマリキー)

パーティションキー。テーブル内の行を一意に識別する1つまたは複数の列。

R

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

range movement(範囲移動)

ノードに割り当てられたトークンの範囲の変更。

read repair(読み取り修復)

頻繁に読み取られるデータの最新バージョンでデータベースレプリカを更新するプロセス。

replica(レプリカ)

データベース全体の一部のコピー。各ノードはいくつかのレプリカを保持します。

replica placement strategy(レプリカ配置戦略)

データの各行のレプリカを決定する仕様。

replication factor (RF)(レプリケーションファクター)

クラスター全体のレプリカの総数。RFと略されます。レプリケーションファクターが1の場合、クラスター内の各行のコピーは1つだけです。行を含むノードがダウンすると、行を取得できません。レプリケーションファクターが2の場合、各行のコピーが2つあり、各コピーが異なるノードにあることを示します。すべてのレプリカは同様に重要です。プライマリレプリカまたはマスターレプリカはありません。

replication group(レプリケーショングループ)

データセンターを参照してください。

role(ロール)

ユーザーに割り当てられ、データベースリソースへのアクセスを制限する一連の権限。内部認証を使用する場合、ロールにはパスワードを設定でき、単一のユーザー、DSEクライアントツール、またはアプリケーションを表すこともできます。

rolling restart(ローリング再起動)

ダウンタイムなしでクラスター内のノードをアップグレード中に実行される手順。他のノードがオンラインで動作し続けている間、ノードは一度に1つずつアップグレードおよび再起動されます。

row(行)

1)同じプライマリキーを持つ列。
2)ストレージエンジン内の列の組み合わせごとのセルのコレクション。

row cache(行キャッシュ)

読み取り集中型操作のパフォーマンスを向上させるためのデータベースコンポーネント。オフヒープメモリでは、行キャッシュはローカルのSSTablesから最も最近読み取られた行を保持します。ローカルの各読み取り操作は、その結果セットを行キャッシュに格納し、コーディネーターノードに送信します。次の読み取りでは、最初に行キャッシュがチェックされます。必要なデータがある場合、データベースはすぐにそれを返します。この最初の読み取りでは、Bloomフィルター、パーティションキーキャッシュ、パーティションサマリー、パーティションインデックス、およびSSTableでのその後のシークを節約できます。

データベースは、LRU(Least-Recently-Used)エビクションを使用して、最も頻繁にアクセスされる行で行キャッシュが更新されるようにします。行キャッシュのサイズは、cassandra.yamlファイルで構成できます。

S

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

seed(シード)

シード、またはシードノードは、クラスターに参加する新しいノードのゴシッププロセスをブートストラップするために使用されます。シードノードは他の機能を提供せず、クラスターの単一障害点ではありません。

modules/ROOT/pages/glossary.adoc内の未解決のincludeディレクティブ - include::ROOT:partial$segment.adoc[]

serializable consistency(シリアライズ可能な整合性)

リニアライズ可能な整合性を参照してください。

SizeTieredCompactionStrategy (STCS)(サイズ階層化コンパクション戦略)

デフォルトのコンパクション戦略。この戦略は、テーブルのサブプロパティmin_thresholdで構成されているように、ディスク上に多数の同様のサイズのSSTableがある場合に、マイナーコンパクションをトリガーします。マイナーコンパクションには、キースペース内のすべてのテーブルは含まれません。関連するCQLドキュメントのSTCSコンパクションサブプロパティも参照してください。

slice(スライス)

たとえば、条件付きWHERE句を使用して、セットとしてクエリするパーティション内のクラスター化された列のセット。

Snitch(スニッチ)

ノードのIPアドレスから、ラックやデータセンターなどの物理的な場所および仮想的な場所へのマッピング。要求ルーティングメカニズムは、使用されるスニッチのタイプによって影響を受けます。

SSD

ソリッドステートドライブ(SSD)は、集積回路を使用してデータを永続的に保存するソリッドステートストレージデバイスです。HDDと比較してください。

SSTable

ソート済み文字列テーブル(SSTable)は、データベースが定期的にmemtableを書き込む不変のデータファイルです。SSTableはディスクに順次格納され、データベーステーブルごとに維持されます。

static column(静的列)

パーティションのすべての行で共有される特別な列。

streaming(ストリーミング)

クラスター内のノード間でデータ交換を処理するコンポーネント。SSTableファイルの一部です。

例として、以下があります。

  • 新しいノードをブートストラップするとき、新しいノードはストリーミングを使用して既存のノードからデータを取得します。

  • nodetool repairを実行すると、ノードはストリーミングを使用して同期していないデータを交換します。

  • バックアップからデータを一括ロードするとき、sstableloaderはストリーミングを使用してタスクを完了します。

strong consistency(強い整合性)

データベースがデータを読み取ると、結果を返す前に読み取り修復を実行します。

superuser(スーパーユーザー)

スーパーユーザーは、ルートデータベースアクセスを提供するロール属性です。スーパーユーザーは、すべてのオブジェクトに対するすべての権限を持っています。Apache Cassandraデータベースには、デフォルトでパスワードがcassandraのスーパーユーザーロールcassandraが含まれています。このアカウントは、QUORUMの整合性レベルでログインを含むクエリを実行します。ユーザーはデプロイメント用のスーパーユーザーを作成し、cassandraロールを削除することをお勧めします。

T

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

table(テーブル)

名前で順序付けられ、行でフェッチされる列のコレクション。行は列で構成され、プライマリキーを持ちます。キーの最初の部分は列名です。複合キーの後続の部分は、テーブル内の列の順序を定義する他の列名です。

TimeWindowCompactionStrategy (TWCS)

このコンパクション戦略は、一連の時間窓に基づいてSSTableをコンパクションします。現在の時間窓の間、SSTableは1つ以上のSSTableにコンパクションされます。現在の時間窓の終わりには、すべてのSSTableが1つのより大きなSSTableにコンパクションされます。コンパクションプロセスは、次の時間窓の開始時に繰り返されます。各TWCS時間窓は、指定された範囲内のデータを含み、さまざまな量のデータを含んでいます。

token

パーティショナーに依存するリング上の要素。リング上のノードの位置と、そのノードが担当するデータ部分を決定します。Murmur3Partitioner(デフォルト)の範囲は-263から+263です。RandomPartitionerの範囲は0から2127-1です。

tombstone

列が削除されたことを示す行内のマーカー。コンパクション中に、マークされた列は削除されます。

TTL

Time-to-live(TTL)は、列に挿入された値のオプションの有効期限です。

調整可能な一貫性

データベースは、特定の行のすべてのレプリカが最終的に完全に一貫性を持つことを保証します。即時かつ完全な一貫性を必要とする状況では、データベースは、指定された操作、データセンター、またはクラスターに対して100%の一貫性を提供するように調整できます。データベースは、すべてのデータと操作に対して完全な一貫性に調整することはできません。

U

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

UnifiedCompactionStrategy (UCS)

このコンパクション戦略は、一連の時間窓に基づいてSSTableをコンパクションします。現在の時間窓の間、SSTableは1つ以上のSSTableにコンパクションされます。現在の時間窓の終わりには、すべてのSSTableが1つのより大きなSSTableにコンパクションされます。コンパクションプロセスは、次の時間窓の開始時に繰り返されます。各TWCS時間窓は、指定された範囲内のデータを含み、さまざまな量のデータを含んでいます。

レベル化、階層化、時間窓化されたコンパクション戦略の適用範囲をカバーし、コンパクション階層の異なるレベルでのレベル化と階層化の組み合わせを含みます。このコンパクションは、[STCS](w = T4がSTCSのデフォルトのしきい値4と一致)に類似したモード、LCS(w = L10がLCSのデフォルトのファンファクター10と一致)で動作でき、大きな階層化ファンファクター(例:w = T20)で使用すると、時系列ワークロードにも十分に機能します。特にブルームフィルターや時間順序の恩恵を受けることができない(つまり、ワイドパーティション非時系列)読み取り負荷の高いワークロードは、レベル化された構成に最適です。書き込み負荷の高い、時系列またはキーバリューワークロードは、階層化されたものが最適です。

upsert

列が存在する場合は、行の指定された列を更新するデータベースの変更。列が存在しない場合は、その列が挿入されます。

V

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

ベクトル

特定のオブジェクトまたはエンティティを表す浮動小数点型の配列。

データベース上のデータを調べて、ベクトルの間の距離を決定します。距離が近いほど、データはより類似しています。距離が遠いほど、データは類似性が低くなります。

Vnode

Vnodeは仮想ノードです。通常、ノードはクラスターの完全なトークン範囲内の単一のパーティショニング範囲を担当します。vnodeを有効にすると、各ノードは複数の仮想ノードを担当し、事実上、パーティショニング範囲をクラスター内のより多くのノードに分散します。vnodeを有効にすると、ホットスポットが発生したり、クラスター内の1つのノードに負荷がかかるリスクを軽減できます。

W

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

弱い一貫性

データを読み取る際、データベースは結果を返した後で読み取り修復を実行します。

ワイド行

CQL 3が使い慣れた行ベースの結果セットに転置するデータパーティション。

X, Y, Z

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | X, Y, Z

ゾンビ

削除後、データベーステーブルに再出現する行またはセル。これは、ノードが長期間ダウンし、修復されずに復元された場合に発生する可能性があります。

削除されたデータはデータベーステーブルから消去されません。コンパクションまでtombstoneでマークされます。1つのノードで作成されたtombstoneは、削除されたデータを含むノードに伝播される必要があります。これらのノードの1つがこれが発生する前にダウンした場合、ノードは最新のtombstoneを受け取れない可能性があります。ノードがオンラインに戻る前に修復されない場合、データベースはtombstoneされていないアイテムを見つけ、それらを新しいデータとして他のノードに伝播します。

この問題を回避するには、復元されたノードをクラスターに再結合する前に、nodetool repairを実行してください。