新浪微博心形图绘制

3,281次阅读

共计 1606 个字符，预计需要花费 5 分钟才能阅读完成。

原理是爬取新浪微博信息然后分词获取常见的词并绘制出相应的图片

# -*- coding:utf-8 -*-
import codecs
import csv
import re

import jieba.analyse
import matplotlib.pyplot as plt
import requests
from scipy.misc import imread
from wordcloud import WordCloud

#cookies自己去chrome查找，事先打开移动端微博并登录然后查看自己的cookies
cookies = {
    "ALF": "",
    "SCF": "",
    "SUBP": ",
    "SUB": "",
    "SUHB":"", 
    "SSOLoginState":"",
    "M_WEIBOCN_PARAMS":"",
    "H5_INDEX":"",
    "H5_INDEX_TITLE":""
}


def fetch_weibo():
    api = "http://m.weibo.cn/index/my?format=cards&page=%s"
    for i in range(1, 50):
        response = requests.get(url=api % i, cookies=cookies)
        data = response.json()[0]
        groups = data.get("card_group") or []
        for group in groups:
            text = group.get("mblog").get("text")
            text = text.encode("utf-8")

            def cleanring(content):
                """
                去掉无用字符
                """
                pattern = "||转发微博|//:|Repost|，|？|。|、|分享图片"
                content = re.sub(pattern, "", content)
                return content

            text = cleanring(text).strip()
            if text:
                yield text


def write_csv(texts):
    with codecs.open('./weibo.csv', 'w') as f:
        writer = csv.DictWriter(f, fieldnames=["text"])
        writer.writeheader()
        for text in texts:
            writer.writerow({"text": text})


def read_csv():
    with codecs.open('./weibo.csv', 'r') as f:
        reader = csv.DictReader(f)
        for row in reader:
            yield row['text']


def word_segment(texts):
    jieba.analyse.set_stop_words("./stopwords.txt")
    for text in texts:
        tags = jieba.analyse.extract_tags(text, topK=20)
        yield " ".join(tags)


def generate_img(texts):
    data = " ".join(text for text in texts)

    mask_img = imread('./heart-mask.jpg', flatten=True)
    wordcloud = WordCloud(
        font_path='./simsunb.ttf',
        background_color='white',
        mask=mask_img
    ).generate(data)
    plt.imshow(wordcloud)
    plt.axis('off')
    plt.savefig('./heart.jpg', dpi=600)


if __name__ == '__main__':
    texts = fetch_weibo()
    write_csv(texts)
    generate_img(word_segment(read_csv()))

我自己的生成结果如下：

正文完

请博主喝杯咖啡吧！

Python

发表至： Python

2017-02-23

版权声明：本站原创文章，由 admin 2017-02-23发表，共计1606字。

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Python学习–RE模块



pandas中遍历DataFrame行



Anaconda update模块



Numpy与Matplotlib直方图对比

Conda入门指南
上一篇

豆瓣网登录之验证码识别
下一篇

评论（没有评论）

公告

如果你对本站的文章有疑问可以邮件给我，点击该站点公告就可以发送邮件

一言一句话

-「」

最新文章

lse 的概念

在做深度学习的时候，softmax是一个经常遇到的计算公式来，但是还没深究过这个究竟是怎么算的。计算的基础公式...

homebrew客户端 Applite

Applite是一个免费且开源的macOS应用程序，它使用Homebrew简化第三方应用程序的安装和管理。该应...

随机文章

lse 的概念

在做深度学习的时候，softmax是一个经常遇到的计算公式来，但是还没深究过这个究竟是怎么算的。计算的基础公式...

关于我们

持续关注互联网推荐算法和计算广告前沿技术，不定期分享相关的技术，同时也会记录自己的学习历程。本网站由提供CDN加速/云存储服务

版权说明

Copyright © 2024 算法之道. All rights reserved.

Copyright © Themes Design By Puock 粤ICP备17053707号
Theme by Puock