rokkiの備忘録

地道こそ近道

今日学んだこと#0007

文字列の不一致

論文のタイトルのリストから,各論文の被引用数を一括取得するプログラムを書いた*1

arxivにタイトルをクエリとして投げて,タイトルが一致する論文があれば,その被引用数を取得する,という設計にした.

このとき,タイトルが一致するかどうかを以下の判定文にしていた.

#title:あらかじめ用意した論文名
#result:arxivからの返り値:arxiv.query(query=title)
if title == result[j]["title"]:

しかし上記のプログラムでは,完全一致していないといけない.少しでも異なると,同一の論文として処理してくれない.

これは困った. そこで,以下のように変更してあげた.まだ改善の余地はあるが,今回はこれでよしとする.

if title.replace(" ", "").lower() == result[j]["title"].replace("\n", "").replace(" ", "").lower():

*1:参考にしたサイトqiita.com