Rocksolid Light

groups  faq  privacy  How to post  login

Message-ID:  

Good news. Ten weeks from Friday will be a pretty good day.


rocksolid / de.comp.text.misc / Unicode-Normalisierung beim Versand (was: Normalisierung? - Was geschieht hierbei? - do not ignore)

SubjectAuthor
* Re: Normalisierung? - Was geschieht hierbei? - do not ignoreHeiko Rost
`- Unicode-Normalisierung beim Versand (was: Normalisierung? - Was geschieht hierbeMichael Bäuerle

1
Subject: Re: Normalisierung? - Was geschieht hierbei? - do not ignore
From: Heiko Rost
Newsgroups: de.comp.text.misc
Organization: Der kleine Hamsterstall
Date: Sun, 2 Jul 2023 15:40 UTC
References: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Path: i2pn2.org!i2pn.org!news.swapon.de!fu-berlin.de!uni-berlin.de!individual.net!not-for-mail
From: heiko.r...@gmx.de (Heiko Rost)
Newsgroups: de.comp.text.misc
Subject: Re: Normalisierung? - Was geschieht hierbei? - do not ignore
Date: Sun, 2 Jul 2023 17:40:51 +0200
Organization: Der kleine Hamsterstall
Lines: 61
Message-ID: <u7scr4.bfg.1@ID-23555.user.uni-berlin.de>
References: <01l2nj-r6h4.ln1@martin.dont-email.me> <tmm2nj-g5p4.ln1@martin.dont-email.me> <0045nj-3275.ln1@martin.dont-email.me> <3q55nj-g285.ln1@martin.dont-email.me> <b033.8dbe.dt.1176tin@barghahn-online.de> <c7d5nj-nia5.ln1@martin.dont-email.me> <20230701sa142419@o15.ybtra.de> <dl56nj-hkg6.ln1@martin.dont-email.me> <20230701sa181217@o15.ybtra.de> <52o7nj-fm2.ln1@martin.dont-email.me> <20230702su090059@o15.ybtra.de> <AABkoXymtIsAAAqB.A3.flnews@WStation7.micha.freeshell.org> <b034.c538.dt.1180flnews@barghahn-online.de> <u7s8fb.9pc.1@ID-23555.user.uni-berlin.de> <b034.d19e.dt.1182flnews@barghahn-online.de>
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8; format=fixed
Content-Transfer-Encoding: 8bit
X-Trace: individual.net zEaGS0jDPpvTIDOlMLNL2Aa/NDla4OcE/MivWTPFosRTM5WMk=
Cancel-Lock: sha1:aPZedZHhPlxeq+eiHKDsnQEjng4=
User-Agent: 40tude_Dialog/2.0.15.41de UU_Conv/2021-10-24 Hamster/2.1.0.1548
X-Face: +;N]-;h@!V~}M-gV:)Q~k}VrEhD?I\R-$+Tnc8?{wq.=WaMztUy;G'j@`gq89PawS3
ts]LxA@$K(hEmGkC8YQ4*u!}>#R&;-B9~e:),[a-t'!@Ja&BoX.%}i}VR^#9|r90=y
85]2p]=GqPx
View all headers

[Fullquote wegen Gruppenwechsel]

Thomas Barghahn schrieb:

> *Heiko Rost* meinte:
>> Thomas Barghahn schrieb:
>
>>> Bei solchen Schritten (Normalisierung) muss ich dann wirklich immer
>>> ehrlich bleiben und zugeben, dass ich es (noch) nicht richtig verstanden
>>> habe! Was genau passiert bei einer Normalisierung eigentlich und was ist
>>> das Ziel einer solchen Normalisierung?
>
>> Zum Beispiel um ö und ö (wird hoffentlich richtig verschickt) als den
>> selben Buchstaben zu interpretieren. Das erste ist der im deutschen
>> üblicherweise benutze Umlaut, das andere sind zwei Unicodepoints: ein o
>> und das diakritische Zeichen U+0308 (also nur die Punkte darüber).
>
> Soweit ist es mir klar. Stelle ich bspw. einen Satz auf den Kopf, dann
> nutze auch ich diese Vorgehensweise.
>
> Beispiel: „uǝso̤l ǝqɐƃɟnⱯ ǝuı̣ǝ„
>
> In diesem Beispiel besteht das auf dem Kopf stehende "ö" aos /zwei/
> Zeichen.
> Was ist denn nun aber die Normalisierung? ;-)

Normal ist in dem Fall, was für Deine Zwecke zielführend ist.

> Vielleicht will der Autor ja, dass seine Umlaute grundsätzlich aus zwei
> Zeichen bestehen. Hmm ...

Das kann der eine Autor wollen, der andere will es nicht und dann geht
die Sache beim Vergleich schief. Das Thema hat sich aus

| Deswegen meinte ich ja, daß das gesamte Subject zunächst de-
| kodiert werden muß. Dann kann man problemlos vergleichen.

entwickelt. Der Vergleich kann fehlschlagen, wenn Du zwei Zeichenketten
vergleichst, die den Umlaut unterschiedlich darstellen. Für den Leser
sind die beiden Zeilen

Die höhere Wertung
Die höhere Wertung

identisch und soll in Deinem Skript sicher auch als identisch erkannt
werden. Deshalb muß die Vergleichsroutine das irgendwie berücksichtigen.
Sonst produzierst Du bei der Subjectkorrektur möglicherweise so etwas
wie

Subject: Die höhere Wertung (was: Die höhere Wertung)

Bei dem Zitat aus meinem Vorposting hat übrigens auch irgendwer aus dem
ö ein ö gemacht. Irgendeine Nachbearbeitung meinerseits ist nicht die
Ursache, auch bei direkter Abholung mit TB vom Newsserver ist das schon
so. Möglicherweise nimmt flnews von sich aus bereits so eine
Normalisierung vor.

Gruß Heiko
--
Der Mensch ist gut, nur die Nerven sind schlecht.
Mose Ya'aqob Ben-Gavriêl

Subject: Unicode-Normalisierung beim Versand (was: Normalisierung? - Was geschieht hierbei? - do not ignore)
From: Michael Bäuerle
Newsgroups: de.comp.text.misc
Date: Sun, 2 Jul 2023 17:18 UTC
References: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Path: i2pn2.org!i2pn.org!weretis.net!feeder8.news.weretis.net!news.szaf.org!fu-berlin.de!uni-berlin.de!individual.net!not-for-mail
From: michael....@gmx.net (Michael Bäuerle)
Newsgroups: de.comp.text.misc
Subject: Unicode-Normalisierung beim Versand (was: Normalisierung? - Was geschieht hierbei? - do not ignore)
Date: Sun, 2 Jul 2023 19:18:29 +0200 (CEST)
Lines: 15
Message-ID: <AABkobFlkVwAAAqB.A3.flnews@WStation7.micha.freeshell.org>
References: <01l2nj-r6h4.ln1@martin.dont-email.me> <tmm2nj-g5p4.ln1@martin.dont-email.me> <0045nj-3275.ln1@martin.dont-email.me> <3q55nj-g285.ln1@martin.dont-email.me> <b033.8dbe.dt.1176tin@barghahn-online.de> <c7d5nj-nia5.ln1@martin.dont-email.me> <20230701sa142419@o15.ybtra.de> <dl56nj-hkg6.ln1@martin.dont-email.me> <20230701sa181217@o15.ybtra.de> <52o7nj-fm2.ln1@martin.dont-email.me> <20230702su090059@o15.ybtra.de> <AABkoXymtIsAAAqB.A3.flnews@WStation7.micha.freeshell.org> <b034.c538.dt.1180flnews@barghahn-online.de> <u7s8fb.9pc.1@ID-23555.user.uni-berlin.de> <b034.d19e.dt.1182flnews@barghahn-online.de> <u7scr4.bfg.1@ID-23555.user.uni-berlin.de>
Mime-Version: 1.0
Content-Type: text/plain; charset=ISO-8859-1; format=fixed
Content-Transfer-Encoding: 8bit
X-Trace: individual.net kA2RvMTiBrqjuyb9n/TaoAJkW4sTHHrEVDs44T/ymEHMmiHZc0
X-Orig-Path: not-for-mail
Cancel-Lock: sha1:3gtP3MDmC85i4NRjDuArl+CQdmM= sha256:t70RsyShgjSW2hl0SGF/UwCZZmLDDFNIylhSfM9DMss= sha1:Gs/yi6VDpEDjFCrf6Sk08rf2vGo=
Injection-Date: Sun, 2 Jul 2023 17:18:29 -0000
User-Agent: flnews/1.2.0 (for GNU/Linux)
View all headers

Heiko Rost wrote:
>
> [...]
> Bei dem Zitat aus meinem Vorposting hat übrigens auch irgendwer aus dem
> ö ein ö gemacht. Irgendeine Nachbearbeitung meinerseits ist nicht die
> Ursache, auch bei direkter Abholung mit TB vom Newsserver ist das schon
> so. Möglicherweise nimmt flnews von sich aus bereits so eine
> Normalisierung vor.

Ja, flnews versendet NFC gemäß RFC 5198 (Kapitel 2, Punkt 4):

<https://www.rfc-editor.org/rfc/rfc5198#section-2>
|
| 4. Before transmission, all character sequences SHOULD be normalized
| according to Unicode normalization form "NFC" (see Section 3).


rocksolid / de.comp.text.misc / Unicode-Normalisierung beim Versand (was: Normalisierung? - Was geschieht hierbei? - do not ignore)

1
server_pubkey.txt

rocksolid light 0.9.136
clearnet tor