上一篇博文整体看了Twitter推荐的架构:
- Twitter开源时间线推荐架构整理(Twitter‘s Recommendation Algorithm)
本篇文章解析一下可信和安全模块的具体实施细节。
Trust and Safety Models
- 源码地址:https://github.com/twitter/the-algorithm/tree/138bb519975407d4ea0dc1478d897d451ef05dab/trust_and_safety_models
信任和安全模型(Trust and Safety Models),简称T&S,主要用于检测推特系统中不可信和不安全等违规内容。
在后续架构中的多路召回模块(包括in-network召回路和out-of-network召回路),该T&S特征都能用于过滤掉不合规的内容,从而让推送给用户的推文在社交圈内外都是“绿色”的。
信任和安全模型可以分为多个维度来评估,但推特团队考虑到竞品压力(the adversarial nature of this area),因此暂时只开源了部分模型,包括NSFW的图文、推文内容的有毒性和滥用性,具体定义如下:
- pNSFWMedia:用于检测带有 NSFW 图像的推文的模型,包括成人和色情内容。
- pNSFWText:用于检测带有 NSFW 文本、成人/性主题的推文的模型。
- pToxicity:检测有毒推文的模型。毒性包括边缘内容,如侮辱和某些类型的骚扰。有毒内容并不违反 Twitter 的服务条款。
- pAbuse:检测滥用内容的模型。滥用内容包括违反 Twitter 服务条款的行为,包括仇恨言论、有针对性的骚扰和辱骂行为。
接下来分别解析一下NSFW(Media和Text)、Toxicity和Abuse部分的训练代码。
NSFW
其中NSFW(Not Safe/Suitable For Work)是指工作场所不宜的网站超链接,多指裸露、暴力、色情或冒犯等不适宜公众场合的内容。最初这个词在博客上出现,在给出含有上述内容的超链接旁标注NSFW,用于警告观看者;后在论坛、帖子及有超链接之页面上也普遍适用NSFW。
NSFW模块包括Media和Text两部分,由于官方没有开源数据,所以不太清楚数据组织的具体形式。先直接看一下Media和Text的训练代码。
Media用于带有NSFW图像的推文,从模型命名“models/nsfw_Keras_with_CLIP_twitter_hypertuned”可以看出,特征应该是通过CLIP提取的,然后搭建如下的较为简单的MLP结构进行检测。
def build_model(hp):
model = Sequential()
optimizer = tf.keras.optimizers.Adam(
learning_rate=0.001,
beta_1=0.9,
beta_2=0.999,
epsilon=1e-08,
amsgrad=False,
name="Adam",
) #优化器
activation=hp.Choice("activation", ["tanh", "gelu"])
kernel_initializer=hp.Choice("kernel_initializer", ["he_uniform", "glorot_uniform"])
for i in range(hp.Int("num_layers", 1, 2)): #此处开始搭建模型
model.add(tf.keras.layers.BatchNormalization())
units=hp.Int("units", min_value=128, max_value=256, step=128)
if i == 0: #第一层fc的输入是特征(None, 256)
model.add(
Dense(
units=units,
activation=activation,
kernel_initializer=kernel_initializer,
input_shape=(None, 256)
)
)
else: #后续多层的fc
model.add(
Dense(
units=units,
activation=activation,
kernel_initializer=kernel_initializer,
)
)
#最后加入sigmoid使网络维度变成1维,即预测是否有NSFW的概率
model.add(Dense(1, activation='sigmoid', kernel_initializer=kernel_initializer))
model.compile(optimizer=optimizer, loss='binary_crossentropy', metrics=metrics)
return model
Text类似Media,从模型配置“twitter_bert_base_en_uncased_augmented_mlm”可以看出,文本特征应该是通过BERT提取的,然后也搭建较为简单的2层MLP结构进行检测。
inputs = tf.keras.layers.Input(shape=(), dtype=tf.string, name=tweet_text_feature)
encoder = TextEncoder(
max_seq_lengths=params['max_seq_lengths'],
model_type=params['model_type'],
trainable=params['trainable_text_encoder'],
local_preprocessor_path='demo-preprocessor'
)
embedding = encoder([inputs])["pooled_output"] #提取文本特征
predictions = tf.keras.layers.Dense(2, activation='softmax')(embedding) #两层fc
model = tf.keras.models.Model(inputs=inputs, outputs=predictions)
但Text会多做一些文本预处理,来去除一些符号和表情,代码如下。
REGEX_PATTERNS = [
r'^RT @[A-Za-z0-9_]+: ',
r"@[A-Za-z0-9_]+",
r'https:\/\/t\.co\/[A-Za-z0-9]{10}',
r'@\?\?\?\?\?',
]
EMOJI_PATTERN = re.compile(
"(["
"\U0001F1E0-\U0001F1FF"
"\U0001F300-\U0001F5FF"
"\U0001F600-\U0001F64F"
"\U0001F680-\U0001F6FF"
"\U0001F700-\U0001F77F"
"\U0001F780-\U0001F7FF"
"\U0001F800-\U0001F8FF"
"\U0001F900-\U0001F9FF"
"\U0001FA00-\U0001FA6F"
"\U0001FA70-\U0001FAFF"
"\U00002702-\U000027B0"
"])"
)
def clean_tweet(text):
for pattern in REGEX_PATTERNS:
text = re.sub(pattern, '', text)
text = re.sub(EMOJI_PATTERN, r' \1 ', text)
text = re.sub(r'\n', ' ', text)
return text.strip().lower()
Toxicity
Toxicity主要检测有毒推文,毒性包括边缘内容,如侮辱和某些类型的骚扰,关键词如下。
keywords = {
"politics": [
...
],
"insults": [
...
],
"race": [
...
],
}
Toxicity模型主要基于BERT进行训练,有英文或多语种的BERT来支持该模块。
def load_bertweet(**kwargs):
bert = TFAutoModelForSequenceClassification.from_pretrained(
os.path.join(LOCAL_MODEL_DIR, "bertweet-base"),
num_labels=1,
classifier_dropout=0.1,
hidden_size=768,
)
if "num_classes" in kwargs and kwargs["num_classes"] > 2:
raise NotImplementedError
return bert, True
一些训练setting设置如下。
RANDOM_SEED = ...
TRAIN_EPOCHS = 4
MINI_BATCH_SIZE = 32
TARGET_POS_PER_EPOCH = 5000
PERC_TRAINING_TOX = ...
MAX_SEQ_LENGTH = 100
WARM_UP_PERC = 0.1
OUTER_CV = 5
INNER_CV = 5
NUM_PREFETCH = 5
NUM_WORKERS = 10
Abuse
Abuse是检测滥用内容的模型。滥用内容包括违反 Twitter 服务条款的行为,包括仇恨言论、有针对性的骚扰和辱骂行为,具体的label定义如下代码。文章来源:https://www.toymoban.com/news/detail-469586.html
labels = [
"has_non_punitive_action", #没有讨伐行为
"has_punitive_action", #有讨伐行为
"has_punitive_action_contains_self_harm", #有自残
"has_punitive_action_encourage_self_harm", #鼓励自残
"has_punitive_action_episodic", #有不定期行为
"has_punitive_action_episodic_hateful_conduct", #有不定期憎恨行为
"has_punitive_action_other_abuse_policy", #其他滥用条款
"has_punitive_action_without_self_harm" #有讨伐但没有自残
]
模型上也较为简单,也基于BERT进行检测。文章来源地址https://www.toymoban.com/news/detail-469586.html
fe = FeatureEncoder(train)
inputs, preprocessing_head = fe.build_model_head(model=ptos_prototype, text_encoder=text_encoder_pooled_output)
cls_dropout = tf.keras.layers.Dropout(params['cls_dropout_rate'], name="cls_dropout")
outputs = cls_dropout(preprocessing_head)
outputs = tf.keras.layers.Dense(8, name="output", dtype="float32")(outputs)
model = tf.keras.Model(
inputs=inputs,
outputs=outputs
)
到了这里,关于Twitter推荐系统的可信和安全模块解析(Trust and Safety Models)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!