4画面の雑記帳

思ったことをつらつら書いてく雑記帳

文字列処理って難しいよねと言う話

言葉狩り(ではない)。

 

 

今日も今日とてツイ廃生活を送っていると気になる話題が流れて来たので今日はその話題です。

 

元ツイ↓

 

検証ツイ↓

 

内容的にはどんなツイートが「safeではない」判定されているか分かるよ、と言ったもの。ただこれは検証ツイの方でも指摘されていますが「safeではない」=センシティブ判定に直結している訳ではないので、何段階もあるうちの一次プールだとか一種のラベル付けくらいの認識で良いかと思います。少し前に仕事関連で業界情報のスクレイピングツール作成なんてのもやったことありますが、日本語の表記揺れってめちゃくちゃに膨大なのでTwitterレベルの巨大情報コンテンツだとラベル付け1つ取ってもどれだけ大変なのか想像もつきません…。

そんな前置きはさておき、元ツイさんの検索式「from:自分のID -filter:safe」を使って自分のツイートで何が「safeじゃない」判定になったかが面白かったというのが本題です。いくつか紹介していきます。

 

まずは妥当なあたりから。

 

1.犯罪に関連しそうなワードを含むもの

「刺さる」「盗撮」がヒットした?

まぁこれは妥当かなと。「刺さる」は「心に刺さる」という意味合いで使っていますが傷害事件と関係しそうと言われればそれはそう。「盗撮」とかもうもろにヒットしてくださいって言ってるようなもんなので妥当かと(にちかが悪いよ~)。

 

 

2.経済用語(?)

「DD」が引っかかってる???なんでや!?と思って調べてみると企業買収などのM&A関連の専門用語「Due Diligence」の略らしいです。ほへー。

ma-navigator.com

 

ちなみに僕のツイートの方は「DIAMOND DAYS」という曲名の略です。高度な経済情報は一切含まれておりません!(笑)

うーん、重大な金銭トラブルに関与するという意味でのラベリングなのでしょうか? この分だと専門家のツイートは全部判定ついてそうですね。

あと「試行回数を稼ぐ」とかもヒットしていたので「稼ぐ」が判定入ってるっぽいです。これはよくある「○○するだけで稼げる」詐欺関連かな?

 

 

3.出会い系

シャニマス君がいけないヨ~~~~()

おそらく「出会い」という単語がヒットしてます。「運命の出会いガシャ」というのはシャニマスの新規プレイヤーが確定させるまで何度でも引き直し可能なガシャで、リセットマラソンしなくても良いシステムの1つ。ゲーム内からツイートすると「運命の出会いガシャで○○に出会ったよ!」っていう定型文が流れます。シャニマス君が(ry

他にも「コスプレ」とかもヒットするみたいです。レイヤーさん...。

ついでに「SM」もヒットするので「ポケモンSM(サン・ムーン)」は全部ラベリングされてます。ソンナー。

 

 

4.公序良俗に反しそうなもの

ごめんて…。

「エッチ」「エロ」「おっぱい」「乳」あたりは全部ヒット。それはそう。でも「牛乳」「乳酸飲料」とかがヒットしてるの見るとちょっと笑ってしまった。

幼女戦記」を見ていた時の感想ツイートは「幼女」がヒットするので全部判定着きます。「爆発」などもヒットするので幼女戦記はどうあがいても逃れられないよ…。

 

 

5.攻撃的なツイート

えー、これを見てどのあたりに攻撃的なツイート(ワード)が含まれているかお分かりでしょうか?

 

この子です。

 

ハバタクカミ、通称ハバカミ。「ハバカミ」→「ハ馬鹿ミ」として処理されてるっぽくてこれまた笑ってしまいましたw

表記揺れは手強いぞ~~~~!!

 

同様に引っかかったのが「バカンス」。単純な文字列処理をしているだけなので、ヴァカンスなら引っかからなそう。

 

「馬鹿」「バカ」「アホ」「ボケ」は全部ヒットしますが、「ハバカミ」と似たような感じで「ゾアホリック」とかもヒットしてて日本語難しいなぁと。「○○したばかりに」なんて言い回しもヒットしたり、「ボケとツッコミ」の「ボケ」もヒットするのでお笑い関連もごっそりヒット。

 

「エタ」も引っかかります。単語的には確かにアウトですが「エターナル」が全部ヒット判定に。エタ~~~~~~ナルハ~モニ~~~~~~!!!!

 

 

6.意味不明な叫び

Twitter君も頭抱えてる件。僕も頭抱えてる()

 

 

 

はい、こんなところでしょうか。

本当に文字列処理って難しいよね。あの仕事また降って来そうでちょっと怖い…。

解説ツイートさんの所でも触れていますが、この「safeじゃない」判定に引っかかったからと言って即座にシャドーBANや凍結対象になる訳ではないので、そこだけは履き違えの無いようお願いいたします。Twitterの凍結判定が意味不明だというのは分かりますが、じゃあどうやって処理してるんでしょうねって言う所も気にはなります。何かしらの判定式があるにせよ、膨大な条件を組み込むことは確定しているので仕事で関わりたくは無いなぁ…。

という文字列処理に関するネタでした。仕様を使った遊びだと理解した上で試してみてくださいね。面白いものがヒットするかもしれません。

 

ではでは