网站标签该站未曾设置keywords
网站描述该站未曾设置description
上一篇:音圈电机、音圈马达、直线电机、线性平台、自动化设备、线性电机、直线马达、直线滑台、直线伺服驱动器、直线编码器/SUPT MOTION
下一篇:中国北京(海淀)留学人员创业园
seo综合信息
SEO信息 百度来访IP:- | 移动端来访IP:- | 出站链接:0 | 站内链接:0 IP网速: IP地址:119.29.22.179 [中国广东广州 腾讯云] | 网速:521毫秒 ALEXA排名 世界排名:- | 预估IP:- | 预估PV:- 备案信息 - | 名称:- | 已创建:10年4个月17天
收录 百度 360 搜狗 谷歌 查询 0 0 0 0
电脑关键词 手机关键词 页面友好 首页位置 索引 近期收录 0 0 电脑端优秀 - 0 0
协议类型HTTP/1.1 200 OK 页面类型text/html 服务器类型nginx/1.8.0 是否压缩是 原网页大小144536 压缩后大小26129 压缩比81.92%
网站快照F e l i x H o s S p a c e | 俊 浩 的 技 术 笔 记 F e l i x H o s S p a c e 4 2 i s t h e A N S t o e v e r y t h i n g G i t H u b M e n u W i d g e t s S e a r c h S k i p t o c o n t e n t C A T E G O R I E S B i g D a t a ( 1 1 ) L i n u x ( 7 ) M a c h i n e L e a r n i n g ( 2 5 ) M y S Q L ( 3 ) P H P ( 8 ) P y t h o n ( 4 ) R E C E N T P O S T S C N N 卷 积 神 经 网 络 R N N / L S T M 递 归 神 经 网 络 B a t c h N o r m a l i z a t i o n S p a r k 大 规 模 稀 疏 矩 阵 乘 法 L i g h t G B M X G B o o s t 基 于 C C O 的 协 同 过 滤 推 荐 常 用 推 荐 算 法 比 较 个 性 化 推 荐 系 统 的 基 本 抽 象 基 于 词 向 量 的 文 本 分 类 推 断 基 于 T W E 模 型 的 关 键 词 提 取 N L P 关 键 词 提 取 算 法 之 T e x t R a n k N L P 关 键 词 提 取 算 法 之 T F I D F T e n s o r F l o w G P U 环 境 部 署 ( C U D A + c u D N N ) G B D T 集 成 学 习 ( e n s e m b l e l e a r n i n g ) 决 策 树 ( D e c i s i o n T r e e ) K N N ( K N e a r e s t N e i g h b o r s ) 朴 素 贝 叶 斯 ( N a i v e B a y e s ) S V M ( S u p p o r t V e c t o r M a c h i n e ) S o f t m a x 回 归 逻 辑 回 归 ( L o g i s t i c s R e g r e s s i o n ) 线 性 回 归 ( L i n e a r R e g r e s s i o n ) K M e a n s 聚 类 算 法 ( 实 践 篇 ) – 基 于 S p a r k M l i b 的 图 像 压 缩 案 例 K M e a n s 聚 类 算 法 ( 理 论 篇 ) 方 差 、 标 准 差 、 均 方 误 差 、 协 方 差 的 区 别 H a d o o p N a m e N o d e 高 可 用 架 构 H a d o o p 之 Y A R N / M R v 2 H a d o o p 之 H D F S ( N a m e N o d e 、 D a t a N o d e 、 S e c o n d a r y N a m e N o d e ) k a f k a 集 群 部 署 T A G S P H P 语 法 N g i n x 恶 意 攻 击 线 性 回 归 T h r i f t N L P G B D T Y a r n 推 荐 系 统 M a p R e d u c e H a d o o p C N N c U R L A p a c h e H i v e 朴 素 贝 叶 斯 Z o o k e e p e r 深 度 学 习 A d a B o o s t p c n t l H D F S O O P 访 问 控 制 S p a r k M l i b N a m e N o d e K i b a n a 正 则 表 达 式 语 法 机 器 学 习 K a f k a 逻 辑 回 归 G P U L o g s t a s h L i g h t G B M c u D N N S q o o p p y t h o n R N N 集 成 学 习 H b a s e K N N e x c e l K M e a n s 聚 类 算 法 U b u n t u X G B o o s t S o f t m a x M y S Q L B a t c h N o r m a l i z a t i o n S V M 高 可 用 大 数 据 S p a r k C U D A O R C E l a s t i c s e a r c h 数 据 挖 掘 l i n u x P H P 随 机 森 林 L S T M 决 策 树 T e n s o r F l o w 多 进 程 编 程 搜 索 : 日 志 C N N 卷 积 神 经 网 络 2 0 1 8 年 3 月 1 0 日 F e l i x H o C N N 的 核 心 思 想 : 局 部 感 受 野 ( l o c a l f i e l d ) + 权 值 共 享 + 亚 采 样 。 C N N 主 要 由 四 类 层 ( l a y e r ) 组 成 , 即 卷 积 层 ( C o n v ) 、 激 活 层 ( A c t i v a t i o n ) 、 池 化 层 ( P o o l i n g ) 以 及 全 连 接 层 ( F C / D e n s e ) 。 卷 积 层 ( C o n v o l u t i o n ) 传 统 神 经 网 络 采 用 全 连 接 的 方 式 , 往 往 容 易 导 致 需 要 训 练 的 参 数 非 常 庞 大 , 甚 至 难 以 训 练 , 卷 积 神 经 网 络 通 过 卷 积 层 的 “ 局 部 连 接 ” 和 “ 参 数 共 享 ” 的 特 性 大 大 减 少 训 练 参 数 。 举 例 : 输 入 1 0 0 x 1 0 0 , 隐 藏 层 有 1 0 个 神 经 元 传 统 全 连 接 方 式 ( F u l l C o n n e c t e d ) 输 入 1 0 0 x 1 0 0 与 每 一 个 神 经 元 连 接 , 需 要 训 练 1 0 0 x 1 0 0 x 1 0 = 1 0 0 0 0 0 个 参 数 ( 不 考 虑 b i a s ) 局 部 连 接 ( S p a r s e C o n n e c t i v i t y ) 假 设 每 个 神 经 元 只 与 局 部 1 0 x 1 0 个 输 入 连 接 , 那 么 只 需 要 训 练 1 0 x 1 0 x 1 0 = 1 0 0 0 个 参 数 ! ! 权 值 共 享 ( S h a r e d W e i g h t s ) 如 果 每 个 神 经 元 的 连 接 使 用 相 同 的 权 值 , 那 么 实 际 训 练 参 数 进 一 步 压 缩 到 1 0 x 1 0 x 1 = 1 0 0 个 参 数 ! ! 卷 积 层 如 何 生 成 卷 积 核 ( 或 称 滤 波 器 , f i l t e r / k e r n e l ) 上 图 是 一 个 尺 寸 为 3 × 3 的 卷 积 核 , 即 每 个 神 经 元 由 输 入 的 3 × 3 局 部 连 接 所 得 , 卷 积 核 的 值 通 过 训 练 来 学 习 。 卷 积 核 的 s t r i d e 值 s t r i d e 指 卷 积 核 的 移 动 步 长 ( 这 其 实 就 是 权 值 共 享 的 表 现 ) , 上 图 s t r i d e = 2 , 卷 积 核 每 次 移 动 两 个 单 元 。 卷 积 核 的 p a d d i n g 值 p a d d i n g 即 在 输 入 矩 阵 的 四 周 添 加 填 充 , 一 方 面 可 以 减 少 原 输 入 的 边 缘 影 响 , 另 一 方 面 可 以 用 于 维 持 输 入 和 输 出 的 维 度 一 致 ( 需 要 s t r i d e 配 合 ) 。 p a d d i n g 的 常 见 术 语 包 括 : ( 1 ) v a l i d : 即 n o p a d d i n g ( 2 ) s a m e : 通 过 填 充 使 得 输 入 和 输 出 的 维 度 保 持 一 致 输 出 维 度 计 算 ( 取 下 界 ) : 卷 积 输 出 F e a t u r e M a p ( 特 征 图 ) 实 际 上 卷 积 核 的 作 用 就 是 对 输 入 层 进 行 特 征 学 习 , 卷 积 核 可 以 看 成 是 对 输 入 的 一 种 特 征 映 射 , 通 过 这 种 特 征 映 射 , 一 个 卷 积 核 对 应 生 成 一 个 特 征 图 ( F e a t u r e M a p ) , 即 上 图 的 R e s u l t 。 多 通 道 卷 积 当 输 入 有 多 个 通 道 ( c h a n n e l ) 时 ( 例 如 图 片 可 以 有 R G B 三 个 通 道 ) , 卷 积 核 需 要 拥 有 相 同 的 c h a n n e l 数 , 每 个 卷 积 核 c h a n n e l 与 输 入 层 的 对 应 c h a n n e l 进 行 卷 积 , 将 每 个 c h a n n e l 的 卷 积 结 果 按 位 相 加 得 到 最 终 的 F e a t u r e M a p 。 多 卷 积 核 当 有 多 个 卷 积 核 时 , 可 以 学 习 到 多 种 不 同 的 特 征 , 对 应 产 生 包 含 多 个 c h a n n e l 的 F e a t u r e M a p , 例 如 上 图 有 两 个 f i l t e r , 所 以 o u t p u t 有 两 个 c h a n n e l 。 为 什 么 不 需 要 全 连 接 而 只 需 要 局 部 连 接 就 会 有 效 果 ? 对 于 图 像 而 言 , 局 部 区 域 的 像 素 关 联 性 往 往 很 强 , 而 相 距 较 远 的 区 域 关 联 性 往 往 很 弱 。 同 样 , 对 于 文 本 而 言 , 相 近 的 词 汇 在 语 义 表 达 上 往 往 有 紧 密 联 系 而 相 隔 较 远 的 词 汇 语 义 关 联 则 相 对 较 低 。 因 此 , 只 需 要 对 局 部 信 息 进 行 特 征 提 取 , 最 后 综 合 起 来 就 能 达 到 全 局 感 知 。 激 活 层 ( A c t i v a t i o n ) 阅 读 全 文 → C N N N L P 数 据 挖 掘 机 器 学 习 深 度 学 习 日 志 R N N / L S T M 递 归 神 经 网 络 2 0 1 8 年 1 月 6 日 F e l i x H o 关 于 递 归 神 经 网 络 的 理 论 介 绍 推 荐 阅 读 这 篇 非 常 经 典 的 文 章 → U n d e r s t a n d i n g L S T M N e t w o r k s 本 文 为 总 结 笔 记 一 、 R N N v s L S T M R N N 逻 辑 结 构 图 L S T M 逻 辑 结 构 图 L S T M 是 R N N 的 变 体 , 它 们 的 原 理 几 乎 一 样 , 唯 一 的 不 同 是 o u t p u t 即 h i d d e n s t a t e 的 计 算 逻 辑 不 同 R N N 如 何 计 算 某 个 时 刻 t 的 o u t p u t ? h _ t = t a n h ( W * [ h _ , x _ t ] + b ) L S T M 如 何 计 算 某 个 时 刻 t 的 o u t p u t ? 遗 忘 门 ( F o r g e t G a t e ) : 控 制 遗 忘 哪 些 记 忆 ( C e l l s t a t e ) f _ t = s i g m o i d ( W _ f * [ h _ , x _ t ] + b _ f ) 新 信 息 : 候 选 记 忆 信 息 ^ = t a n h ( W _ c * [ h _ , x _ t ] + b _ c ) 输 入 门 ( I n p u t G a t e ) : 控 制 加 入 哪 些 新 信 息 到 记 忆 中 i _ t = s i g m o i d ( W _ i * [ h _ , x _ t ] + b _ i ) 新 记 忆 : 遗 忘 部 分 旧 记 忆 , 加 入 部 分 新 记 忆 信 息 , 得 到 最 新 的 c e l l s t a t e C _ t = f _ t * C _ + i _ t * ^ 输 出 门 ( O u t p u t G a t e ) : 控 制 当 前 最 新 记 忆 的 对 应 输 出 值 o _ t = s i g m o i d ( W _ o * [ h _ , x _ t ] + b _ o ) 输 出 值 : 最 终 的 h i d d e n s t a t e h _ t = o _ t * t a n h ( C _ t ) 当 F o r g e t G a t e = 0 , I n p u t G a t e = 1 , O u t p u t G a t e = 1 时 L S T M 与 R N N 等 价 L S T M 为 什 么 优 于 R N N ? R N N 通 过 叠 乘 的 方 式 进 行 状 态 更 新 , 当 s e q u e n c e 比 较 长 时 容 易 出 现 梯 度 消 失 / 爆 炸 的 情 况 , 主 要 原 因 是 反 向 传 播 的 连 乘 效 应 , 而 L S T M 是 通 过 门 控 制 的 叠 加 方 式 来 更 新 状 态 ( C _ t 的 计 算 公 式 ) , 所 以 可 以 有 效 防 止 梯 度 问 题 , 当 然 对 于 超 长 的 s e q u e n c e , L S T M 依 然 会 有 梯 度 消 失 或 者 爆 炸 的 可 能 。 二 、 R N N / L S T M 中 的 n u m _ u n i t s 是 啥 意 思 ? n u m _ u n i t s 相 当 于 神 经 网 络 的 隐 层 神 经 元 的 个 数 , 例 如 上 图 表 示 一 个 L S T M C e l l , 包 含 四 个 神 经 网 络 层 , 即 黄 色 方 框 部 分 , n u m _ u n i t s 就 是 每 个 神 经 网 络 结 构 的 隐 层 神 经 元 个 数 ( 全 连 接 单 元 数 ) , 它 实 际 上 也 是 L S T M 输 出 向 量 的 维 度 数 , 所 以 h _ t 为 n u m _ u n i t s 维 向 量 。 三 、 如 何 计 算 K e r a s 的 L S T M l a y e r 的 参 数 个 数 ? 假 设 L S T M ( n u m _ u n i t s = 1 5 0 ) , 输 入 维 度 i n p u t _ d i m s = 1 0 0 , 那 么 共 需 要 训 练 的 参 数 个 数 为 : ( n u m \ \ _ u n i t s + i n p u t \ \ _ d i m s + 1 ) * n u m \ \ _ u n i t s * 4 = 1 5 0 6 0 0 说 明 : 1 . n u m _ u n i t s + i n p u t _ d i m s 是 因 为 上 层 输 出 需 要 首 先 与 输 入 进 行 一 次 c o n c a t , 即 [ h _ t 1 , x _ t ] , 2 . + 1 是 因 为 b i a s 3 . * 4 是 因 为 共 有 4 个 神 经 网 络 层 ( 黄 色 方 框 ) 4 . 为 什 么 不 需 要 乘 以 t i m e _ s t e p s 即 n u m b e r o f c e l l ? 因 为 递 归 神 经 网 络 的 每 个 c e l l 实 际 上 只 是 在 不 同 时 态 下 的 状 态 , 所 以 不 同 c e l l 共 用 同 一 套 权 重 , 文 章 开 头 的 结 构 图 只 是 为 了 理 解 方 便 而 将 递 归 过 程 展 开 , 实 际 上 任 何 时 候 都 只 存 在 一 个 c e l l ! ! 四 、 为 什 么 L S T M 要 用 s i g m o i d 作 为 门 控 激 活 函 数 ? 因 为 s i g m o i d 的 输 出 在 0 ~ 1 之 间 , 可 以 很 好 地 控 制 信 息 的 删 除 和 保 留 。 五 、 为 什 么 L S T M 的 输 入 和 输 出 值 不 用 s i g m o i d 而 用 t a n h 作 为 激 活 函 数 ? L S T M 内 部 维 护 了 一 个 状 态 向 量 , 其 值 应 该 可 以 增 加 或 者 减 少 , 而 s i g m o i d 的 输 出 为 非 负 数 , 所 以 状 态 信 息 只 能 增 加 , 显 然 不 合 适 , 相 反 , t a n h 的 输 出 范 围 包 含 了 正 负 数 , 因 此 可 以 满 足 状 态 的 增 减 。 六 、 什 么 是 s e q u e n c e ? 阅 读 全 文 → L S T M N L P R N N 数 据 挖 掘 机 器 学 习 深 度 学 习 日 志 B a t c h N o r m a l i z a t i o n 2 0 1 8 年 1 月 2 日 F e l i x H o B a t c h N o r m a l i z a t i o n ( 简 称 B N ) 是 指 对 上 一 层 的 输 出 或 者 激 活 层 的 输 入 做 标 准 化 处 理 , 从 而 使 得 激 活 层 的 输 入 值 的 分 布 更 合 适 , 进 而 加 快 收 敛 速 度 。 p i c v i a t h i s p o s t 上 图 表 示 一 个 多 层 神 经 网 络 在 采 用 B N 层 和 不 采 用 B N 层 时 不 同 层 的 对 应 输 出 分 布 , 可 见 不 使 用 B N 层 的 输 出 大 部 分 分 布 在 两 端 , 而 使 用 B N 层 的 输 出 分 布 则 比 较 均 衡 。 什 么 是 B a t c h N o r m a l i z a t i o n B a t c h N o r m a l i z a t i o n 是 指 将 线 性 激 活 函 数 的 输 入 值 变 换 为 标 准 正 态 分 布 ( 均 值 为 0 , 方 差 为 1 ) , 使 得 其 分 布 在 激 活 函 数 的 敏 感 区 , 从 而 加 快 收 敛 。 如 果 不 这 么 做 , 一 旦 激 活 函 数 的 输 入 值 分 布 在 激 活 函 数 的 极 限 饱 和 区 , 那 么 激 活 函 数 的 梯 度 就 会 接 近 消 失 , 从 而 无 法 更 新 参 数 或 者 参 数 更 新 很 慢 , 进 而 影 响 模 型 的 学 习 。 例 如 : s i g m o i d 函 数 , 敏 感 区 在 [ 2 , 2 ] , 两 端 的 梯 度 逐 渐 消 失 , 如 果 将 输 入 变 换 为 正 态 分 布 , 那 么 9 5 % 的 落 点 都 在 敏 感 区 , 有 效 避 免 梯 度 消 失 问 题 。 一 味 将 输 入 值 通 过 正 态 变 换 使 得 其 落 在 敏 感 区 也 有 问 题 , 因 为 敏 感 区 往 往 是 偏 线 性 的 , 这 样 会 影 响 模 型 的 表 达 能 力 , 相 当 于 失 去 了 激 活 函 数 的 意 义 ( 激 活 函 数 通 过 让 模 型 损 失 一 些 输 入 信 息 从 而 达 到 非 线 性 效 果 , 例 如 s i g m o i d 的 两 端 ) , 因 此 B N 层 还 会 通 过 s c a l e ( γ 斜 率 , 即 缩 放 , 可 以 看 成 对 方 差 的 调 整 ) 和 s h i f t ( β 截 距 , 即 移 位 , 可 以 看 成 对 均 值 的 调 整 ) 的 操 作 使 得 落 点 分 布 在 线 性 与 非 线 性 上 获 得 平 衡 。 R e l u 激 活 函 数 是 否 适 合 前 接 一 个 B N ? 适 合 。 通 过 B a t c h N o r m a l i z a t i o n 后 , 输 入 9 5 % 分 布 在 ( 2 , 2 ) 大 概 有 一 半 的 输 入 得 到 激 活 , 且 保 留 非 线 性 。 如 何 计 算 B a t c h N o r m a l i z a t i o n 的 输 出 值 首 先 进 行 正 态 变 换 : 其 中 E ( x ) 表 示 一 个 b a t c h 的 均 值 , v a r ( x ) 表 示 一 个 b a t c h 的 方 差 。 ( 计 算 全 局 均 值 、 方 差 需 要 非 常 大 的 计 算 开 销 , 计 算 b a t c h 则 非 常 高 效 , 也 许 这 就 是 为 什 么 叫 B a t c h N o r m a l i z a t i o n 的 原 因 ) 再 通 过 s c a l e 和 s h i f t 计 算 最 终 输 出 : 其 中 γ 和 β 是 要 学 习 的 参 数 。 举 例 : 对 于 一 个 b a t c h _ s i z e 为 N , 宽 为 P , 高 为 Q 的 特 征 图 , 一 个 b a t c h 的 均 值 和 方 差 就 是 基 于 这 N x P x Q 个 特 征 计 算 所 得 , 一 个 特 征 图 学 习 一 组 γ 和 β 。 B a t c h N o r m a l i z a t i o n 的 优 点 1 . 收 敛 更 快 , 减 少 了 训 练 时 间 ( 因 为 降 低 了 梯 度 爆 炸 / 消 失 的 风 险 ) 。 2 . 减 少 了 对 正 则 化 ( d r o p o u t 、 L 2 ) 的 需 求 , 因 为 B N 标 准 化 是 基 于 b a t c h 来 计 算 均 值 和 方 差 的 , 所 以 每 个 标 准 化 产 生 的 值 都 取 决 于 当 前 的 b a t c h , 这 本 身 就 是 一 种 正 则 化 的 体 现 。 3 . 允 许 设 置 更 高 的 学 习 率 ( 因 为 降 低 了 梯 度 爆 炸 / 消 失 的 风 险 ) 。 B a t c h N o r m a l i z a t i o n 的 使 用 需 要 注 意 什 么 1 . 由 于 均 值 和 方 差 是 针 对 b a t c h 计 算 的 , 所 以 如 果 b a t c h 太 少 , 引 入 B N 可 能 会 有 副 作 用 。 2 . 对 于 不 平 衡 的 数 据 集 , 引 入 B N 可 能 会 导 致 更 差 的 P e r f o r m a n c e , 因 为 对 于 不 平 衡 语 料 , B N 不 但 没 有 做 到 “ 标 准 化 ” 反 而 让 不 平 衡 的 问 题 更 加 突 出 。 转 载 请 注 明 出 处 : © h t t p : / / h e j u n h a o . m e B a t c h N o r m a l i z a t i o n 机 器 学 习 深 度 学 习 日 志 S p a r k 大 规 模 稀 疏 矩 阵 乘 法 2 0 1 7 年 1 0 月 2 3 日 F e l i x H o s p a r k 可 以 通 过 B l o c k M a t r i x 进 行 矩 阵 相 乘 , 但 其 在 大 规 模 稀 疏 矩 阵 场 景 有 非 常 严 重 的 性 能 问 题 , 本 文 通 过 基 于 R D D 和 D a t a F r a m e 两 种 方 式 实 现 基 于 s p a r k 的 大 规 模 稀 疏 矩 阵 乘 法 运 算 。 一 、 矩 阵 乘 法 运 算 二 、 通 过 B l o c k M a t r i x 进 行 矩 阵 相 乘 f r o m p y s p a r k . m l l i b . l i n a l g . d i s t r i b u t e d i m p o r t * f r o m p y s p a r k . s q l i m p o r t S p a r k S e s s i o n s s = S p a r k S e s s i o n . b u i l d e r . a p p N a m e ( t e s t ) \ \ . c o n f i g ( s p a r k . s e r i a l i z e r , o r g . a p a c h e . s p a r k . s e r i a l i z e r . K r y o S e r i a l i z e r ) \ \ . g e t O r C r e a t e ( ) s c = s s . s p a r k C o n t e x t s c . s e t L o g L e v e l ( W A R N ) M _ r d d = s c . p a r a l l e l i z e ( [ ( 0 , 0 , 1 ) , ( 0 , 1 , 2 ) , ( 0 , 2 , 3 ) , ( 1 , 0 , 4 ) , ( 1 , 1 , 5 ) , ( 1 , 2 , 6 ) ] ) N _ r d d = s c . p a r a l l e l i z e ( [ ( 0 , 0 , 7 ) , ( 0 , 1 , 8 ) , ( 1 , 0 , 9 ) , ( 1 , 1 , 1 0 ) , ( 2 , 0 , 1 1 ) , ( 2 , 1 , 1 2 ) ] ) M = C o o r d i n a t e M a t r i x ( M _ r d d ) . t o B l o c k M a t r i x ( ) N = C o o r d i n a t e M a t r i x ( N _ r d d ) . t o B l o c k M a t r i x ( ) M . m u l t i p l y ( N ) . t o C o o r d i n a t e M a t r i x ( ) . e n t r i e s . c o l l e c t ( ) # # # # # # # # 输 出 # # # # # # # # # # # # # # [ M a t r i x E n t r y ( 0 , 0 , 5 8 . 0 ) , # M a t r i x E n t r y ( 1 , 0 , 1 3 9 . 0 ) , # M a t r i x E n t r y ( 0 , 1 , 6 4 . 0 ) , # M a t r i x E n t r y ( 1 , 1 , 1 5 4 . 0 ) ] 三 、 B l o c k M a t r i x 的 性 能 问 题 在 s p a r k 的 官 方 文 档 中 关 于 m u l t i p l y 这 个 方 法 的 描 述 如 下 L e f t m u l t i p l i e s t h i s B l o c k M a t r i x b y o t h e r , a n o t h e r B l o c k M a t r i x . T h e c o l s P e r B l o c k o f t h i s m a t r i x m u s t e q u a l t h e r o w s P e r B l o c k o f o t h e r . I f o t h e r c o n t a i n s a n y S p a r s e M a t r i x b l o c k s , t h e y w i l l h a v e t o b e c o n v e r t e d t o D e n s e M a t r i x b l o c k s . T h e o u t p u t B l o c k M a t r i x w i l l o n l y c o n s i s t o f D e n s e M a t r i x b l o c k s . T h i s m a y c a u s e s o m e p e r f o r m a n c e i s s u e s u n t i l s u p p o r t f o r m u l t i p l y i n g t w o s p a r s e m a t r i c e s i s a d d e d . 也 就 是 说 , B l o c k M a t r i x 在 进 行 矩 阵 乘 法 时 会 先 把 稀 疏 矩 阵 转 换 成 稠 密 矩 阵 ! ! 对 于 一 个 1 0 0 0 0 x 1 0 0 0 0 的 稀 疏 矩 阵 , 实 际 存 储 的 可 能 只 有 几 万 个 非 零 元 素 , 而 转 换 成 稠 密 矩 阵 后 , 你 需 要 对 所 有 1 0 0 0 0 x 1 0 0 0 0 = 1 亿 个 元 素 提 供 存 储 空 间 ! ! 而 实 际 场 景 面 对 的 稀 疏 矩 阵 的 维 度 远 远 大 于 1 0 0 0 0 , 所 以 B l o c k M a t r i x 无 法 适 用 于 大 规 模 稀 疏 矩 阵 运 算 。 四 、 矩 阵 乘 法 公 式 从 矩 阵 乘 法 公 式 可 知 , 矩 阵 相 乘 主 要 有 以 下 环 节 : 1 . 左 矩 阵 的 列 号 ( j ) 与 右 矩 阵 的 行 号 ( j ) 相 同 的 元 素 进 行 两 两 相 乘 得 到 M N _ i k 。 2 . 对 所 有 具 有 相 同 下 标 ( i k ) 的 M N _ i k 进 行 相 加 , 即 得 到 P _ i k 。 五 、 基 于 R D D 实 现 矩 阵 乘 法 阅 读 全 文 → S p a r k 大 数 据 日 志 L i g h t G B M 2 0 1 7 年 7 月 1 8 日 F e l i x H o L i g h t G B M 是 一 种 基 于 决 策 树 算 法 的 快 速 、 分 布 式 、 高 性 能 的 G B D T 框 架 , 它 是 传 统 G B D T 算 法 的 一 种 改 进 实 现 , “ L i g h t ” 主 要 体 现 在 三 个 方 面 , 即 更 少 的 数 据 、 更 少 的 特 征 、 更 少 的 内 存 , 分 别 通 过 G O S S ( 单 边 梯 度 采 样 ) 、 E F B ( 互 斥 特 征 捆 绑 ) 和 H i s t o g r a m ( 直 方 图 算 法 ) 三 项 技 术 实 现 。 G O S S ( G r a d i e n t b a s e d O n e S i d e S a m p l i n g 单 边 梯 度 采 样 ) G O S S 是 一 种 采 样 方 法 , 在 每 次 迭 代 前 , 先 对 样 本 进 行 采 样 , 保 留 梯 度 变 化 最 大 的 a % 个 样 本 , 为 了 不 改 变 样 本 分 布 , 还 需 要 从 剩 下 的 梯 度 变 化 较 小 的 样 本 中 随 机 采 样 b % 个 样 本 , 并 给 予 这 b % 个 样 本 ( 1 a ) / b 的 权 重 , 这 两 部 分 样 本 为 最 终 的 训 练 样 本 。 通 过 G O S S 既 保 留 了 重 要 的 样 本 , 又 在 保 持 样 本 分 布 的 同 时 大 大 减 少 了 训 练 样 本 数 , 从 而 实 现 不 影 响 模 型 准 确 性 的 同 时 大 幅 度 提 升 训 练 效 率 。 G O S S 为 什 么 以 梯 度 作 为 样 本 权 重 ? 因 为 G B D T 对 l o s s 的 负 梯 度 进 行 拟 合 , 所 以 样 本 误 差 越 大 , 梯 度 的 绝 对 值 越 大 , 证 明 模 型 对 该 样 本 的 学 习 还 不 足 够 , 相 反 如 果 越 小 证 明 模 型 对 该 样 本 的 学 习 已 经 很 充 分 , 所 以 梯 度 的 绝 对 值 越 大 , 样 本 重 要 性 越 高 。 ( 梯 度 是 某 一 点 最 陡 峭 的 地 方 , 梯 度 大 小 形 容 它 有 多 陡 峭 ) E F B ( E x c l u s i v e F e a t u r e B u n d l i n g 互 斥 特 征 捆 绑 ) 对 于 具 有 高 维 稀 疏 特 征 的 数 据 , 很 多 特 征 是 互 斥 的 ( 即 多 个 特 征 之 间 最 多 只 有 一 个 特 征 的 取 值 为 非 0 ) , E F B 通 过 捆 绑 多 个 互 斥 特 征 形 成 一 个 “ 大 特 征 ” , 从 而 大 大 减 少 特 征 的 数 量 , 相 当 于 是 一 种 降 维 的 方 法 。 例 如 , 特 征 A 的 取 值 为 0 ~ 1 0 , 特 征 B 的 取 值 为 0 ~ 2 0 , A 、 B 为 互 斥 特 征 , 那 么 捆 绑 A / B 形 成 特 征 C , 特 征 C 的 取 值 为 0 ~ 3 0 , 所 以 B = 5 与 C = 1 5 是 等 价 的 。 构 造 特 征 直 方 图 是 训 练 G B D T 的 主 要 时 间 消 耗 , 而 构 造 特 征 直 方 图 的 时 间 取 决 于 需 要 遍 历 的 特 征 数 量 , 通 过 E F B 方 法 可 以 减 少 特 征 的 数 量 从 而 加 快 训 练 的 效 率 。 备 注 : 找 出 最 优 的 b u n d l e 组 合 数 是 一 个 N P 问 题 , L i g h t G B M 通 过 贪 心 近 似 算 法 解 决 。 即 转 化 为 图 着 色 问 题 , 图 中 的 点 为 特 征 , 非 互 斥 的 特 征 用 一 条 边 连 接 , 边 的 权 重 为 相 连 特 征 的 总 冲 突 值 , 那 么 着 色 相 同 的 点 即 为 互 斥 点 ( 特 征 ) 直 方 图 优 化 算 法 ( H i s t o g r a m ) L i g h t G B M 基 于 直 方 图 算 法 优 化 查 找 最 佳 分 割 点 的 效 率 , 在 训 练 前 首 先 通 过 直 方 图 算 法 将 连 续 特 征 离 散 化 , 相 当 于 对 特 征 的 值 进 行 分 段 划 分 , 形 成 k 个 b i n s ( 即 k 个 离 散 值 ) , 构 造 一 个 宽 度 为 k 的 直 方 图 , 在 遍 历 数 据 时 , 根 据 离 散 值 在 对 应 b i n 上 累 积 统 计 量 ( 即 梯 度 g , 样 本 数 n ) 。 通 过 累 积 的 统 计 量 计 算 分 裂 增 益 , 通 过 遍 历 所 有 b i n 寻 找 该 特 征 的 最 佳 分 割 点 。 流 程 总 结 特 征 离 散 化 , 得 k 个 b i n s , 形 成 宽 度 为 k 的 直 方 图 遍 历 数 据 , 根 据 离 散 值 在 对 应 b i n 上 累 积 统 计 量 ( g 、 n ) 遍 历 b i n s , 通 过 累 积 统 计 量 计 算 不 同 划 分 的 分 裂 增 益 , 求 得 最 佳 分 割 点 增 益 计 算 公 式 : 其 中 S 为 梯 度 之 和 , n 为 样 本 数 , L / R / P 表 示 左 / 右 / 父 节 点 优 点 : 传 统 的 p r e s o r t e d 算 法 ( 例 如 X G B o o s t 的 e x a c t g r e e d y 算 法 ) 在 计 算 某 个 特 征 的 分 裂 增 益 时 需 要 遍 历 所 有 的 特 征 值 的 划 分 情 况 , 而 直 方 图 算 法 只 需 要 遍 历 k 个 b i n s 的 划 分 情 况 , 时 间 复 杂 度 从 O ( # d a t a * # f e a t u r e s ) 降 到 O ( # b i n s * # f e a t u r e s ) , 大 大 减 少 了 计 算 量 。 传 统 的 p r e s o r t e d 算 法 需 要 对 特 征 预 排 序 , 而 直 方 图 算 法 没 有 排 序 要 求 , 进 一 步 提 升 了 效 率 。 直 方 图 算 法 可 以 通 过 做 差 加 速 , 即 只 需 要 知 道 父 节 点 的 直 方 图 , 和 任 一 子 节 点 的 直 方 图 , 即 可 通 过 做 差 得 到 其 兄 弟 节 点 的 直 方 图 , 效 率 提 升 一 倍 。 由 于 直 方 图 算 法 没 有 排 序 要 求 , 因 此 不 用 额 外 存 储 排 序 索 引 , 另 外 离 散 化 后 的 特 征 值 可 以 用 更 小 的 数 据 类 型 表 示 ( 例 如 2 5 6 个 b i n 则 只 需 要 用 8 位 整 型 表 示 , 即 从 通 常 的 4 字 节 降 到 1 字 节 ) , 以 上 两 点 都 可 以 大 大 减 少 内 存 的 占 用 。 分 析 : 直 方 图 算 法 主 要 围 绕 着 训 练 更 快 、 内 存 占 用 更 少 两 个 方 面 进 行 优 化 , 虽 然 它 找 到 的 并 不 是 最 精 确 的 分 割 点 , 但 对 最 终 的 模 型 精 度 影 响 并 不 大 , 而 且 较 粗 的 分 割 点 本 身 也 有 正 则 化 的 效 果 , 有 时 甚 至 会 有 更 好 的 精 度 。 另 外 , 对 于 b o s t i n g 框 架 而 言 , 决 策 树 本 身 是 弱 模 型 , 单 棵 树 的 误 差 变 化 稍 大 , 对 最 终 的 结 果 没 有 太 大 的 影 响 。 并 行 学 习 ( P a r a l l e l O p t i m i z a t i o n ) 阅 读 全 文 → G B D T L i g h t G B M 决 策 树 机 器 学 习 集 成 学 习 日 志 X G B o o s t 2 0 1 7 年 7 月 1 1 日 F e l i x H o x g b o o s t 是 对 传 统 G B D T 算 法 的 一 种 改 进 实 现 , 主 要 包 括 损 失 函 数 、 正 则 化 、 分 裂 点 查 找 优 化 、 稀 疏 特 征 感 知 、 并 行 化 等 方 面 . 原 理 推 导 假 设 迭 代 训 练 k 次 , 那 么 x g b o o s t 的 模 型 函 数 可 以 表 示 为 : 其 中 k 表 示 决 策 树 的 数 目 , f 表 示 一 棵 C A R T 树 。 那 么 , 前 t 棵 树 的 预 测 值 可 以 表 示 为 : 需 要 优 化 的 目 标 函 数 为 : 那 么 训 练 第 t 棵 树 的 目 标 函 数 可 表 示 为 : 在 前 t 1 棵 树 处 进 行 二 阶 泰 勒 展 开 : 由 于 去 除 常 数 项 L 后 不 影 响 问 题 优 化 , 因 此 目 标 函 数 化 简 为 : x g b o o s t 定 义 正 则 项 如 下 : 其 中 T 为 叶 子 数 , w j 为 第 j 个 叶 子 节 点 的 预 测 值 ( 权 重 , p r e d i c t i o n s c o r e ) 。 目 标 函 数 为 : 对 于 样 本 x i , 在 第 t 棵 树 的 预 测 值 表 示 为 : 其 中 q 表 示 树 结 构 , q ( x i ) 表 示 样 本 x i 在 中 被 分 到 的 叶 子 节 点 索 引 , w j 表 示 第 j 个 叶 子 节 点 的 预 测 值 , 因 此 原 目 标 函 数 由 样 本 表 示 形 式 ( s a m p l e w i s e ) 改 写 成 树 结 构 表 示 形 式 ( s t r u c t u r e w i s e ) : 化 简 得 : 其 中 G j 和 H j 分 别 表 示 被 分 到 第 j 个 叶 子 节 点 的 所 有 样 本 的 l o s s 的 一 阶 ( 二 阶 ) 导 数 值 之 和 , w j 表 示 第 j 个 叶 子 节 点 的 预 测 值 ( 权 重 ) , T 表 示 叶 子 节 点 数 。 对 目 标 函 数 求 关 于 w j 的 导 数 等 于 0 即 可 得 最 优 的 预 测 值 w j ^ * 使 得 目 标 函 数 最 小 化 : 将 w j ^ * 代 入 目 标 函 数 o b j ^ ( t ) 得 x g b o o s t 的 终 极 目 标 函 数 : 上 式 度 量 了 一 棵 结 构 为 q ( x ) 的 树 的 好 坏 , 值 越 小 越 好 ! ! ! ! 例 子 : 实 际 上 我 们 无 法 枚 举 所 有 的 树 结 构 然 后 选 择 最 优 的 树 , x g b o o s t 通 过 逐 层 优 化 的 方 式 构 建 树 模 型 。 将 一 个 叶 子 节 点 分 裂 为 左 右 两 个 新 的 叶 子 节 点 带 来 的 增 益 可 以 表 示 为 : 上 式 就 是 x g b o o s t 的 特 征 选 择 准 则 , G a i n 越 大 代 表 分 裂 后 带 来 的 l o s s 减 少 量 越 多 , 所 以 G a i n 越 大 越 好 . 策 略 : 当 g a i n > 0 或 大 于 某 个 阈 值 时 进 行 分 裂 , 否 则 不 分 裂 ( 相 当 于 剪 枝 ) 分 裂 点 查 找 算 法 ( s p l i t f i n d i n g a l g o r i t h m ) 阅 读 全 文 → G B D T X G B o o s t 决 策 树 机 器 学 习 集 成 学 习 日 志 基 于 C C O 的 协 同 过 滤 推 荐 2 0 1 7 年 7 月 2 日 F e l i x H o 基 于 C C O ( C o r r e l a t e d C r o s s O c c u r r e n c e ) 的 协 同 过 滤 本 质 上 是 一 种 I t e m B a s e d C F 算 法 基 于 C C O 的 协 同 过 滤 推 荐 基 于 C C O 的 协 同 过 滤 推 荐 通 过 物 品 之 间 的 共 现 情 况 来 计 算 物 品 之 间 的 关 联 度 , 它 跟 一 般 的 协 同 过 滤 算 法 不 同 的 地 方 在 于 一 般 的 协 同 过 滤 只 能 针 对 单 一 行 为 , 而 C C O 算 法 可 以 计 算 交 叉 行 为 下 的 协 同 关 联 。 例 如 : 它 不 仅 可 以 通 过 用 户 的 浏 览 行 为 来 告 诉 你 “ 浏 览 了 内 容 A 的 人 可 能 会 浏 览 内 容 B ” , 它 还 能 结 合 用 户 的 浏 览 行 为 和 用 户 的 广 告 点 击 行 为 来 告 诉 你 “ 点 击 了 广 告 A 的 人 可 能 会 浏 览 内 容 F ” 。 基 于 单 一 行 为 假 设 有 以 下 用 户 浏 览 行 为 日 志 : 整 理 后 得 到 以 下 关 系 : u 1 = > [ t 1 , t 2 , t 3 , t 5 ] u 2 = > [ t 1 , t 3 , t 4 , t 5 ] u 3 = > [ t 2 , t 4 ] 构 建 “ 用 户 关 于 浏 览 帖 子 ” 的 矩 阵 V 以 及 对 应 的 转 置 矩 阵 V ^ T : 将 矩 阵 V ^ T 乘 以 矩 阵 V 即 可 得 到 浏 览 帖 子 的 共 现 矩 阵 : 对 数 似 然 比 ( L o g L i k e l i h o o d R a t i o ) 即 L L R 。 我 们 根 据 两 个 事 件 的 共 现 关 系 计 算 L L R 值 , 用 于 衡 量 两 个 事 件 的 关 联 度 : 阅 读 全 文 → 大 数 据 推 荐 系 统 数 据 挖 掘 机 器 学 习 日 志 常 用 推 荐 算 法 比 较 2 0 1 7 年 7 月 1 日 F e l i x H o 在 推 荐 系 统 中 常 用 的 推 荐 算 法 一 般 可 以 分 为 两 类 , 即 基 于 内 容 推 荐 以 及 协 同 过 滤 。 另 外 , 还 有 一 类 算 法 专 门 处 理 冷 启 动 问 题 , 例 如 : 基 于 全 局 最 优 推 荐 。 基 于 内 容 推 荐 基 于 内 容 推 荐 ( C o n t e n t b a s e d R e c o m m e n d a t i o n s ) 非 常 好 理 解 , 简 单 来 说 就 是 根 据 用 户 偏 好 的 内 容 给 他 推 荐 其 他 相 似 的 内 容 。 图 : 基 于 内 容 推 荐 例 如 : 从 用 户 画 像 我 们 发 现 某 个 用 户 比 较 喜 欢 活 跃 在 “ 音 乐 ” 、 “ 体 育 ” 、 “ 动 漫 ” 、 “ 影 视 ” 这 些 栏 目 , 那 么 我 们 就 会 更 倾 向 推 荐 这 些 栏 目 的 内 容 给 他 , 我 们 还 发 现 他 平 时 偏 好 的 是 关 于 “ N B A ” 、 “ 美 剧 ” 、 “ 邓 紫 棋 ” 等 方 面 的 内 容 , 那 么 跟 这 些 相 关 的 内 容 就 会 有 更 高 的 推 荐 权 重 。 评 价 基 于 内 容 推 荐 的 结 果 一 般 具 有 很 强 的 解 释 性 , 因 为 它 推 荐 的 就 是 强 相 关 的 内 容 , 但 这 种 强 相 关 的 特 点 也 会 导 致 一 个 很 明 显 的 缺 陷 , 它 缺 乏 惊 喜 度 , 因 此 它 很 难 挖 掘 用 户 潜 在 的 兴 趣 。 要 解 决 惊 喜 度 的 问 题 , 可 以 采 用 另 一 类 算 法 – 协 同 过 滤 。 协 同 过 滤 协 同 过 滤 ( C o l l a b o r a t i v e F i l t e r i n g ) 推 荐 本 质 上 也 是 一 个 找 相 似 的 过 程 , 但 它 认 为 的 相 似 不 是 指 物 品 在 属 性 上 的 相 似 , 而 是 指 在 用 户 行 为 的 层 面 上 这 些 物 品 是 否 有 关 联 , 协 同 过 滤 一 般 可 以 分 为 基 于 用 户 的 协 同 过 滤 ( U s e r C F ) 和 基 于 物 品 的 协 同 过 滤 ( I t e m C F ) 。 图 : 用 户 物 品 偏 好 基 于 用 户 的 协 同 过 滤 解 释 : 因 为 用 户 1 与 用 户 2 都 喜 欢 物 品 A 、 B 、 C 、 D 、 E , 所 以 认 为 用 户 1 和 用 户 2 是 兴 趣 相 似 的 用 户 , 现 在 发 现 用 户 2 还 喜 欢 物 品 F 所 以 我 们 认 为 用 户 1 很 可 能 也 对 物 品 F 感 兴 趣 , 所 以 向 用 户 1 推 荐 物 品 F 。 基 于 物 品 的 协 同 过 滤 解 释 : 因 为 喜 欢 物 品 A 的 大 多 数 都 喜 欢 物 品 C , 所 以 可 以 认 为 物 品 A 和 物 品 C 是 相 似 的 。 用 户 4 喜 欢 物 品 A 所 以 向 用 户 4 推 荐 物 品 C 。 评 价 协 同 过 滤 集 合 了 群 体 智 慧 , 能 满 足 推 荐 惊 喜 度 , 善 于 发 掘 用 户 潜 在 的 兴 趣 。 训 练 的 用 户 历 史 行 为 数 据 越 多 , 一 般 训 练 出 来 的 模 型 效 果 也 会 越 好 。 协 同 过 滤 推 荐 的 解 释 性 一 般 较 弱 , 推 荐 结 果 不 如 基 于 内 容 推 荐 算 法 直 观 , 当 然 这 是 算 法 特 点 导 致 的 , 不 直 观 不 等 于 不 正 确 。 阅 读 全 文 → 大 数 据 推 荐 系 统 数 据 挖 掘 机 器 学 习 日 志 个 性 化 推 荐 系 统 的 基 本 抽 象 2 0 1 7 年 6 月 2 9 日 F e l i x H o 在 大 多 数 U G C 、 P G C 、 O G C 平 台 中 , “ 推 荐 ” 随 处 可 见 , 本 文 主 要 介 绍 个 性 化 推 荐 系 统 的 抽 象 组 成 。 关 于 推 荐 人 工 V S 个 性 化 早 期 的 推 荐 功 能 大 多 以 人 工 筛 选 为 主 。 人 工 筛 选 可 以 确 保 内 容 的 高 质 量 , 这 是 主 要 的 优 点 之 一 , 但 人 工 筛 选 往 往 需 要 投 入 大 量 的 人 力 成 本 。 另 外 , 由 于 不 同 用 户 的 个 人 偏 好 差 异 巨 大 , 高 质 量 的 内 容 往 往 不 等 于 最 合 适 的 内 容 ( 例 如 : 一 篇 介 绍 奢 侈 品 牌 化 妆 品 的 “ 高 大 上 ” 内 容 对 于 一 位 平 时 只 关 心 美 食 和 户 外 运 动 的 用 户 而 言 可 能 是 毫 无 吸 引 力 的 ) 。 为 了 提 升 用 户 体 验 , 后 来 出 现 了 “ 个 性 化 内 容 推 荐 ” 的 概 念 , 通 过 引 入 个 性 化 推 荐 系 统 , 解 决 这 类 “ 千 人 千 面 ” 的 问 题 。 推 荐 系 统 抽 象 个 性 化 推 荐 系 统 一 般 有 三 大 环 节 : 预 处 理 召 回 排 序 。 注 : 也 可 以 认 为 是 两 层 ( 召 回 排 序 ) 预 处 理 第 一 个 环 节 是 预 处 理 , 预 处 理 指 的 是 对 各 种 数 据 源 的 数 据 进 行 特 征 提 取 和 特 征 构 建 , 例 如 : 内 容 特 征 提 取 , 用 户 行 为 画 像 构 建 。 召 回 第 二 个 环 节 是 召 回 , 召 回 就 是 把 预 处 理 产 生 的 特 征 作 为 输 入 参 数 , 训 练 出 推 荐 模 型 , 然 后 使 用 推 荐 模 型 得 出 候 选 集 合 的 过 程 。 常 用 的 召 回 方 式 有 : 基 于 内 容 推 荐 、 基 于 协 同 过 滤 推 荐 等 。 排 序 第 三 个 环 节 是 排 序 , 简 单 来 说 就 是 将 候 选 集 合 根 据 一 定 的 规 则 , 例 如 : 点 击 预 估 、 匹 配 关 联 度 、 人 为 权 重 等 进 行 调 整 , 从 而 影 响 最 后 的 推 荐 顺 序 。 推 荐 系 统 架 构 最 后 简 单 画 了 一 个 基 本 的 推 荐 系 统 架 构 原 型 图 : 个 性 化 推 荐 系 统 架 构 © ️ h e j u n h a o . m e 转 载 请 注 明 出 处 : © h t t p : / / h e j u n h a o . m e 大 数 据 推 荐 系 统 数 据 挖 掘 机 器 学 习 日 志 基 于 词 向 量 的 文 本 分 类 推 断 2 0 1 7 年 6 月 2 8 日 F e l i x H o 之 前 的 文 章 中 介 绍 过 提 取 文 本 标 签 特 征 ( 关 键 词 ) 的 几 种 算 法 T F I D F 、 T e x t R a n k 、 T W E , 提 取 到 标 签 特 征 后 , 我 们 可 以 进 一 步 推 断 文 本 的 内 容 分 类 。 本 文 主 要 介 绍 通 过 词 向 量 模 型 进 行 内 容 分 类 的 一 般 思 路 。 提 取 文 本 标 签 特 征 假 设 有 以 下 一 段 文 本 : 2 0 1 6 / 1 7 赛 季 欧 冠 决 赛 在 威 尔 士 卡 迪 夫 千 年 球 场 打 响 , 最 终 尤 文 图 斯 以 1 4 不 敌 皇 家 马 德 里 , 遗 憾 错 失 冠 军 。 赛 后 , 尤 文 门 将 布 冯 表 示 对 结 果 非 常 失 望 , 因 为 尤 文 已 经 做 了 所 有 能 做 的 事 情 。 通 过 关 键 词 提 取 算 法 我 们 提 取 到 以 下 标 签 : # 欧 冠 、 # 决 赛 、 # 尤 文 图 斯 、 # 皇 家 马 德 里 、 # 布 冯 、 # 门 将 、 # 球 场 、 # 冠 军 假 设 我 们 有 一 个 关 于 体 育 的 分 类 体 系 : 图 : 分 类 体 系 一 级 分 类 : 体 育 二 级 分 类 : 篮 球 ( 关 联 标 签 : N B A , C B A , 篮 球 , 篮 板 球 , 助 攻 , 盖 帽 , F I B A , 姚 明 , 乔 丹 , 三 双 … ) 二 级 分 类 : 足 球 ( 关 联 标 签 : 世 界 杯 , 亚 冠 , 欧 冠 , 中 超 , 足 球 , 英 超 , 西 甲 , 梅 西 , 里 皮 , 马 拉 多 纳 , 门 将 , 广 州 恒 大 , 曼 联 … ) 分 类 推 断 通 过 词 向 量 模 型 ( W o r d 2 V e c ) 我 们 可 以 计 算 两 个 词 之 间 的 相 似 度 ( 余 弦 距 离 ) : S i m i l a r i t y ( t a g A , t a g B ) = c o s ( t a g A _ V e c , t a g B _ V e c ) 因 此 , 计 算 文 本 与 分 类 的 相 似 度 实 际 上 就 是 计 算 文 本 的 标 签 与 各 个 分 类 的 关 联 标 签 的 相 似 度 。 我 们 发 现 上 面 这 段 文 本 与 足 球 的 相 似 度 大 于 与 篮 球 的 相 似 度 : D i s t ( d o c _ t a g s , s o c c e r _ t a g s ) > D i s t ( d o c _ t a g s , b a s k e t b a l l _ t a g s ) 所 以 推 断 它 是 关 于 足 球 的 内 容 , 再 进 一 步 把 它 归 类 到 体 育 这 个 一 级 分 类 。 转 载 请 注 明 出 处 : © h t t p : / / h e j u n h a o . m e N L P 数 据 挖 掘 机 器 学 习 第 1 页 , 共 6 页 1 2 3 4 5 6 » C o p y r i g h t © 2 0 2 5 H E J U N H A O . M E | 粤 I C P 备 1 6 0 0 7 5 8 4 号
站点概括关于www.hejunhao.me说明:
www.hejunhao.me由网友主动性提交被0401导航库整理收录的,0401导航库仅提供www.hejunhao.me的基础信息并免费向大众网友展示,www.hejunhao.me的是IP地址:119.29.22.179 [中国广东广州 腾讯云],www.hejunhao.me的百度权重为0、百度手机权重为0、百度收录为0条、360收录为0条、搜狗收录为0条、谷歌收录为0条、百度来访流量大约在-之间、百度手机端来访流量大约在-之间、www.hejunhao.me的备案号是-、备案人叫-、被百度收录的关键词有0个、手机端关键词有0个、该站点迄今为止已经创建10年4个月17天。
内容声明:1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违规信息,如您发现违规内容,请联系我们进行清除处理!
4、本文地址:https://www.dhk0401.com/wangluodh/409512.html,复制请保留版权链接!
PP风管_PPH管_FRPP管厂家-镇江宜良工程塑料有限公司
镇江市宜良工程塑料有限公司专业从事于PP管道,PPH管道,PVDF管道,PP风管,pph管,pvdf管,pp管,pp阀门,pph阀门,pp板厂家等产品,欢迎来电咨询。
8181君之恋 - 军人交友-军人征婚-退役军人征婚交友平台
8181君之恋致力于打造国内专业的退役军人征婚交友平台,旨在为退役军人朋友和恋军女孩搭建一个真实可靠的征婚交友平台。
[慧云研]投资界专业的研究报告平台,全面提供研报最新数据,慧云研让投资机构免费看专业的研究报告数据
江苏达克浩斯精密机械有限公司超精密零部件和燃油喷射系统精密配件专业供应商
江苏达克浩斯精密机械有限公司
乐维亲子网,家庭亲子教育交流网站,分享孩子生活、学习和考试的相关资讯信息,全方位、多角度的交流,帮助家长解决孩子教育和学习过程中的常见问题。
该站暂未设置description...
该站暂未设置description...
该站暂未设置description...