特徴的な名字の計算方法と生野指数

都道府県・市区町村に特徴的な名字では、現在は2つの方向を分けて計算している。ひとつは「その地域と言えばその名字」と言える度合い、もうひとつは「その名字と言えばその地域」と言える度合いである。地域ページでは前者を使い、名字と言えば地域では後者を使って、同じ地域一覧の中で名字を並べ替えている。

この考え方の背景には、以前から用いてきた「生野指数」がある。生野指数は、大阪市生野区を例に、特定地域における名字の過剰出現を測るための指標である。現在のランキングは生野指数そのものではないが、生野指数が扱っていた「地域内の実数」と「地域外から推定される期待値」の差という問題意識を引き継いでいる。

生野区を分析対象にする理由

大阪市生野区は、在日コリアンおよびコリア系日本人の集住地域として知られている。したがって、生野区とその周辺地域の名字分布を比較すると、移住史、通名、帰化後の名字、出身地域に由来する漢字選択などが、集計上の偏りとして現れる可能性がある。

ここで重要なのは、この分析が個人の民族性を判定するものではないという点である。名字分布は集計データであり、ある名字を持つ個人がどのような出自を持つかを直接示すものではない。しかし、地域単位で十分な世帯数があり、比較対象との間に一貫した過剰出現が見られる場合、その名字が地域社会の歴史的構成を反映している可能性を論じることはできる。

例えば、旧来の生野指数では「金」が高いのは当然として、「高山」も非常に高く出る。これは、「高山」という日本風の表記が、済州島に多い「高」に由来する通名・日本名として使われてきた可能性を示唆する。また「金城」は沖縄にも多い名字だが、沖縄系名字の代表例である「比嘉」が同じように高く出ないなら、生野区における「金城」は沖縄由来だけでは説明しにくい。このように、名字単独ではなく、地域分布と他の名字群との関係を見ることが重要である。

生野区と大正区の上位例

次の表は、現在のランキングと同じ「地域と言えば名字」のスコア順に、上位10件を並べたものである。 x は2002年版電話帳登録件数で、計算上は世帯数に近い観測値として扱っている。「地域→名字」は地域ページで使うスコア、「名字→地域」は名字の分布ページで使う補助的な向きのスコアである。

大阪市生野区
順位	名字	x	地域→名字	名字→地域
1	金	150	100.0	47.9
2	高山	166	96.4	16.4
3	徳山	117	94.7	39.9
4	安田	141	90.1	7.9
5	金城	101	90.1	21.6
6	西原	94	87.6	17.6
7	金山	85	87.4	23.0
8	吉村	118	86.2	6.0
9	新井	101	85.4	7.3
10	宮本	121	84.1	3.2

大阪市大正区
順位	名字	x	地域→名字	名字→地域
1	金城	83	100.0	21.5
2	大城	57	93.2	17.1
3	新垣	51	93.0	25.0
4	宮城	51	90.8	14.9
5	玉城	36	86.3	19.0
6	比嘉	37	85.5	13.6
7	宮里	25	79.7	17.6
8	上原	33	78.9	4.1
9	照屋	21	77.7	24.0
10	仲村	23	76.3	10.9

この対照は、指標の性格をよく示している。生野区では、金、高山、徳山、金城、金山、新井など、コリア系集住史と照合して読むべき名字が上位に出る。一方、大正区では、金城、大城、新垣、宮城、玉城、比嘉、宮里、上原、照屋、仲村という沖縄県に特徴的な名字群がまとまって現れる。同じ「金城」が両区に出る点も重要で、名字単独ではなく、同時に上位に現れる名字群と地域史を合わせて解釈する必要がある。

生野指数

生野指数は、生野区以外の大阪市における名字比率を基準に、生野区内で期待される世帯数を推定し、実際の世帯数がそれをどれだけ上回るかを見る指標である。

p_o = 大阪市全体の世帯数
p_i = 生野区全体の世帯数
f_o = ある名字の大阪市全体の世帯数
f_i = その名字の生野区内の世帯数

である。これを生野区の世帯数 p_i に掛けると、生野区が大阪市内の他地域と同じ名字構成だった場合の期待世帯数になる。したがって、生野指数 I は次のように書ける。

これは「その名字が生野区で何世帯ぶん過剰に見られるか」を表す。値が大きい名字は、生野区の名字分布を特徴づける寄与が大きい。ただし、この指標は「その名字を持つ人のうち何割がコリア系であるか」を示すものではない。あくまで、地域集計における過剰世帯数である。

現在のランキングで使う変数

現在のランキングでは、生野区だけでなく、都道府県・市区町村について同じ形式で計算する。比較対象全体を U、対象地域を r、名字を s とする。

N = 比較対象 U の総世帯数
n = 対象地域 r の総世帯数
F = 比較対象 U における名字 s の世帯数
x = 対象地域 r における名字 s の世帯数

都道府県では U を全国とする。市区町村では、U を全国とする計算と、U を同一都道府県とする計算の両方を行う。

候補抽出

候補に残す条件は、x が最低世帯数以上で、かつ x > e であることである。最低世帯数は、都道府県では 10 世帯、市区町村では 3 世帯としている。

さらに、2×2表のオッズ比の信頼下限を使い、統計的に弱すぎる偏りを除く。 2×2表は次の通りである。

	名字 s	名字 s 以外
地域 r	x	n - x
地域 r 以外	F - x	N - n - F + x

b = n - x
c = F - x
d = N - n - F + x
logOR = log(((x + a)(d + a)) / ((b + a)(c + a)))
SE = sqrt(1/(x + a) + 1/(b + a) + 1/(c + a) + 1/(d + a))
A = max(0, (logOR - zSE) / log(2))

A は、保守的に見た過剰出現の強さをビット単位で表す。現在は A >= 0.5 を候補条件としている。

補正項

また、少数世帯だけの偶然を抑えるため、世帯数 x に対して飽和型の信頼度補正をかける。

地域と言えば名字

「地域 r と言えば名字 s」では、その地域内で実際に見かけやすいことを主役にする。したがって、地域内率 x/n を 10万世帯あたりに直し、対数化した値を使う。過剰出現の強さ E は候補の足切りには使うが、地域側スコアでは軽い補正に留める。

最後に、同じ地域 r の中で最大の R_raw を 100 として正規化する。

名字と言えば地域

「名字 s と言えば地域 r」では、その名字全体の中で対象地域が占める比率 x/F を主役にする。こちらでは、単なる人口規模の大きさで上位にならないよう、過剰出現の強さ E をそのまま掛ける。また、地域別ページでこの値を並べるため、同じ名字の最大地域を 100 にする正規化は行わない。その正規化をすると、その地域が1位である名字がすべて 100 になり、地域内での比較ができなくなるためである。

最後に、理論上限 log(101) で割って 0 から 100 程度の絶対スコアにする。このため、name_score は「その名字の中で何位か」ではなく、「名字側から見た地域との結びつきの強さ」として、同一地域内でも比較できる。

市区町村での二重比較

市区町村では、全国目線と同一都道府県内目線の両方を使う。全国目線だけでは、県全体に多い名字が人口の大きい市区町村で上位になりやすい。一方、同一都道府県内目線だけでは、全国的に普通の名字が県内分布だけで強く見える場合がある。

そこで、まず全国を比較対象にした area_score と name_score を計算する。次に、同一都道府県を比較対象にした area_score と name_score を計算する。両方の候補条件を満たした組み合わせだけを残し、幾何平均で合成する。

その後、R_city は同一市区町村内で最大値を 100 として正規化する。一方、S_city は上と同じ理由で、同一名字内で再正規化しない。

解釈上の注意

生野指数は、特定の歴史的背景を持つ地域における名字偏在を読むための、過剰世帯数型の指標である。現在のランキングは、それを一般の都道府県・市区町村にも適用できるよう、地域から見る向きと名字から見る向きを分離したものである。

どちらの指標も、個人の出自や民族性を判定するものではない。また、異体字・旧字体・通名・帰化後の名字・婚姻による名字変化などは、完全には統制されていない。したがって、ランキングは断定ではなく、地域史・移住史・名字研究のための探索的な資料として読むべきである。

それでも、金、高山、徳山、金城、新井などが生野区で高く出ることには、地域社会の形成史を反映した集計上の意味がある。個別の名字の由来を論じる際には、分布図、歴史資料、地域の移住史、同系統の名字群との比較を併用することが望ましい。

名字の由来、語源、分布