5분이면 뚝딱 만드는 워드클라우드 글자=>이미지
페이지 정보
작성자 Caroline 작성일24-09-04 10:23 조회56회 댓글0건관련링크
본문
Python- 워드클라우드 만들기 지난주에 ETF종목토론실의 게시물들의 워드크라우드를 생성하고, 분석한 내용을 공유드렸었는데요(아래 링크 참고), 이번 글에서는 2020년 12월 3일 트위터에서 BTS로 검색되는 트윗을 수집하고 워드클라우드로 만드는 예시 python 코드를 공유드리도록 워드클라우드 만들기 하겠습니다.-이전에 작성하였던 종목토론실 분석 게시물(아래 네이버 증권 종목토론실 분석(1)링크 참고)... - 워드 클라우드로 만들 데이터셋 형태는 아래와 ;과 같습니다. 2020년 12월3일 0시부터 24시까지의 BTS로 검색되는 트윗을 워드클라우드 만들기 수집하였고, 최초 중복트윗포함 약 30만개가 수집되었으나, 중복 트윗 제거시 약 2.7만개정도의 트윗이 남게 됩니다. 컬럼은 아이디와 트윗시간, 트윗내용, 좋아요, 리트윗수 등으로 구성되어 있습니다.(해당 데이터는 첨부해 놓았습니다.)트윗 워드클라우드 만들기 데이터셋- 우선 분석에 필요한 라이브러리를 import 하고, 데이터셋을 불러옵니다. WordCloud 등의 라이브러리가 설치되어 있지 않으시다면, pip install wordcloud"로 설치하시면 되는데, pip를 통한 설치시 에러가 발생한다면, 아래 워드클라우드 만들기 링크로 가셔서 자신의 python버전에 맞는 .whl 파일을 다운로드를 받아서 매뉴얼하게 설치 하시면 됩니다.- 트윗text 내용 중 리트윗된것이거나 링크주소, 영문자, 해시태그, 특수문자와 같은 불필요한 단어는 삭제하고, 직접적으로 워드클라우드 만들기 BTS를 의미하는 방탄, 방탄소년, 소년단등의 단어도 정제해주는 함수를 만듭니다.-텍스트를 정제해주는 함수에 반복문을 이용해 트윗을 하나씩 정제해주고, 리스트형태로 변수에 넣어줍니다. - 매뉴얼하게 제거할 단어들과 배경으로 쓰일 이미지를 워드클라우드 만들기 선택합니다(이미지는 아래 첨부파일 참고). 그리고 WordCloud 라이브러리를 이용해 워드클라우드를 생성합니다. 생성하면서 배경(background_color), 표시할 최대단어수(max_word)등 다양한 옵션을 선택할 수 있어 모양을 예쁘게 다듬을 수 있습니다.- 위에서 생성한 워드클라우드 만들기 워드클라우드를 시각화 하고 저장합니다.- 최종결과는 아래와 같습니다. 2020년 12월 3일 기준으로 아마도 BTS맴버중 진의 생일이거나 얼마남지 않았었나봅니다.(실제로 진의 생일은 12월 4일 이였네요) 감사합니다.
댓글목록
등록된 댓글이 없습니다.