ぽよメモ

スポンサーサイト


上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

カテゴリー:スポンサー広告


textとstring


ついさっき投稿したこれBeautifulSoupとMechaizeでwebスクレイピングで最後抽出してきたhtmlの文章を加工整形する際、t.text.strip()しました。

抽出してきたhtmlはこんな感じ(見やすいように改行を加えている箇所があります)


現在あなたの受講している科目についての休講情報はありません。



現在あなた個人を特定した呼び出しはありません。
詳細については「学生呼び出し」一覧で確認してください。



あなたに関係する授業連絡があります。
詳細は「授業関連連絡」一覧で確認してください。(情報掲載日:2015/4/14)



あなたへ送信されたメール情報があります。
詳細は「配信メール履歴」一覧で確認してください。



現在あなたへの学生アンケート情報はありません。



現在受付期間中のファイル提出情報はありません。



これを最初print(t.string)していました。
すると
現在あなたの受講している科目についての休講情報はありません。
None
None
None
現在あなたへの学生アンケート情報はありません。
現在受付期間中のファイル提出情報はありません。
このようにいくつかがNoneになってしまいます。

これが本当によくわからなくて、強い人に聞いてみたところ.textを使ってみてはどうかと言われました。これでようやく先の記事のように文字列だけを抽出出来ました。

textとstringの違いはよくわからないままですが、少なくともこの方法ではこれが最善手だと思いました。

スポンサーサイト

カテゴリー:ぷよぐやみんぐ


コメントの投稿はこちらから ♥

COMMENT-FORM

SECRET

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。