短い梅雨が開けたら、コロナ感染症が増えてきました。
第7波ということで、その勢いがすごいです。これでは、当面マスクは外せそうにありません。

話題は変わりますが、先日、約24百万件あるデータのクラスタリングを行いました。といってもデンドログラムが描けるわけではないので、一定の水準で似ているもの同士をグルーピングするという処理です。

すごく単純な処理でも、数が多いと本当に大変ですね。総当りで似たものを探すので、(24百万 x 24百万) / 2 ぐらいの比較演算になります。

繰り返し数が多いので、一回の演算ごとに、地味に時間短縮を図ることがとても重要になります。幸いこの手の計算のライブラリーが揃ってきていて、さらに、うまくそのライブラリーに適合するデータだったので、一日で片付けることができました。

順調に進められたときは、本当にスッキリです。
「また、頑張るぞーっ」て思いました。