TheB

用Scrapy及Gensim对哔哩哔哩弹幕网的标签进行Word2Vec语义分析

本来是课程作业, 但也还是放出来吧.

Scrapy是一个爬虫,Gensim则是一个语义分析软件。Word2Vec是一个“深度学习”的,将一个个单词变为一个个向量的算法。

实际操作过程很简单, Scrapy抓Bilibili, Gensim对结果做Word2Vec分析, 然后用Tkinter写UI界面.

因为前几天上Bili发现编号只到2878725,所以就到2878725了。作业的版本是用CrawlSpider的,但其实B站视频编号连续,顺序爬就可以。顺序爬的速度比用爬虫爬快好多,而且占用资源也少。之前爬虫爬到结果大概不足100M,Linode那VPS就已经内存不足了,现在完整结果有316M。

由于有很多投稿失效或者是”只有会员知道的世界”,爬完后的结果里面,会有很多B站的默认Tag.为避免影响结果,要删去.

2878725fl大约比2878725小一半…….

下一步之前还要把2878725fl改个名叫input

由于init_sims能极大减少内存占用,但却会令模型不能继续训练,所以就开启前后分别保存了一份,以备不时之需。这里的Size取了400,400就是向量的维度。

8192维的耗时

400维的耗时

到准备重现UI时,发现32位的Python吃不了那么大的数据(1024维),去搞64bit的,所有包都要重新装….

http://www.lfd.uci.edu/~gohlke/pythonlibs/
上面这个网址有编译好的windows包可以直接用

举个栗子,下载numpy, 先把
numpy-1.9.2+mkl-cp27-none-win_amd64.whl下下来
然后

搞定,然后就Scipy和Gensim,同理。

今天中大东校区IPv6废了,网速直线下降(我一直挂着v6跑)

下面就是TheB跑出来的结果截图

相似查询概念很简单,就是找出向量距离近(相关度高)的结果

TheB相似查询截图1
TheB相似查询,和厚颜无耻一起出现的是…..
TheB相似查询截图2
TheB相似查询,和浑身难受一起出现的是……
TheB相似查询截图3
TheB相似查询,和土共一起出现的是…..
TheB相似查询截图4
TheB相似查询,和局座一起出现的是……
TheB相似查询截图5
TheB相似查询,和鸡肉味一起出现的是……

类比查询则比较有意思,一个简单的例子就是,queen对于girl相当于king对于boy。运算: boy=girl-queen+king。

TheB类比查询截图6
TheB类比查询,MC和敖厂长的关系,相当于GTA5和老E等人的关系…
TheB类比查询截图7
TheB类比查询,MC和敖厂长的关系,相当于元首和张全蛋等人的关系….
TheB类比查询截图8
TheB类比查询,老E和敖厂长的关系,相当于吃素的狮子和伊丽莎白鼠的关系….

TheB就是这样了

我的PDF其实是用word生成的,为了在Word中加入高光,可以用以下这个网址
https://tohtml.com/python/
贴过来后将字体换成Consolas, 完美.

pdf

2 thoughts on “TheB”

Leave a Reply

Your email address will not be published. Required fields are marked *